{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.7299270072992701,
  "eval_steps": 500,
  "global_step": 2000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.000364963503649635,
      "grad_norm": 22.57154655456543,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 2.1504,
      "step": 1
    },
    {
      "epoch": 0.00072992700729927,
      "grad_norm": 19.329715728759766,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 2.0753,
      "step": 2
    },
    {
      "epoch": 0.0010948905109489052,
      "grad_norm": 24.208030700683594,
      "learning_rate": 4.800000000000001e-06,
      "loss": 2.0153,
      "step": 3
    },
    {
      "epoch": 0.00145985401459854,
      "grad_norm": 13.958930015563965,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 2.033,
      "step": 4
    },
    {
      "epoch": 0.0018248175182481751,
      "grad_norm": 5.776735782623291,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.7899,
      "step": 5
    },
    {
      "epoch": 0.0021897810218978104,
      "grad_norm": 3.2899227142333984,
      "learning_rate": 9.600000000000001e-06,
      "loss": 1.8601,
      "step": 6
    },
    {
      "epoch": 0.0025547445255474453,
      "grad_norm": 3.9944775104522705,
      "learning_rate": 1.1200000000000001e-05,
      "loss": 1.9067,
      "step": 7
    },
    {
      "epoch": 0.00291970802919708,
      "grad_norm": 3.4587066173553467,
      "learning_rate": 1.2800000000000001e-05,
      "loss": 1.8431,
      "step": 8
    },
    {
      "epoch": 0.0032846715328467154,
      "grad_norm": 2.6550121307373047,
      "learning_rate": 1.4400000000000001e-05,
      "loss": 1.8073,
      "step": 9
    },
    {
      "epoch": 0.0036496350364963502,
      "grad_norm": 2.205951452255249,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 1.7692,
      "step": 10
    },
    {
      "epoch": 0.0040145985401459855,
      "grad_norm": 1.5685899257659912,
      "learning_rate": 1.76e-05,
      "loss": 1.7496,
      "step": 11
    },
    {
      "epoch": 0.004379562043795621,
      "grad_norm": 1.286339521408081,
      "learning_rate": 1.9200000000000003e-05,
      "loss": 1.7006,
      "step": 12
    },
    {
      "epoch": 0.004744525547445255,
      "grad_norm": 1.3621079921722412,
      "learning_rate": 2.08e-05,
      "loss": 1.7848,
      "step": 13
    },
    {
      "epoch": 0.0051094890510948905,
      "grad_norm": 1.392375111579895,
      "learning_rate": 2.2400000000000002e-05,
      "loss": 1.886,
      "step": 14
    },
    {
      "epoch": 0.005474452554744526,
      "grad_norm": 1.2959431409835815,
      "learning_rate": 2.4e-05,
      "loss": 1.7108,
      "step": 15
    },
    {
      "epoch": 0.00583941605839416,
      "grad_norm": 1.5205698013305664,
      "learning_rate": 2.5600000000000002e-05,
      "loss": 1.816,
      "step": 16
    },
    {
      "epoch": 0.0062043795620437955,
      "grad_norm": 1.339637041091919,
      "learning_rate": 2.7200000000000004e-05,
      "loss": 1.7318,
      "step": 17
    },
    {
      "epoch": 0.006569343065693431,
      "grad_norm": 1.2502635717391968,
      "learning_rate": 2.8800000000000002e-05,
      "loss": 1.7447,
      "step": 18
    },
    {
      "epoch": 0.006934306569343066,
      "grad_norm": 1.1626839637756348,
      "learning_rate": 3.0400000000000004e-05,
      "loss": 1.7895,
      "step": 19
    },
    {
      "epoch": 0.0072992700729927005,
      "grad_norm": 1.0300532579421997,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 1.8186,
      "step": 20
    },
    {
      "epoch": 0.007664233576642336,
      "grad_norm": 1.2384706735610962,
      "learning_rate": 3.3600000000000004e-05,
      "loss": 1.7619,
      "step": 21
    },
    {
      "epoch": 0.008029197080291971,
      "grad_norm": 1.184654712677002,
      "learning_rate": 3.52e-05,
      "loss": 1.8264,
      "step": 22
    },
    {
      "epoch": 0.008394160583941606,
      "grad_norm": 1.2455642223358154,
      "learning_rate": 3.680000000000001e-05,
      "loss": 1.7463,
      "step": 23
    },
    {
      "epoch": 0.008759124087591242,
      "grad_norm": 1.3321716785430908,
      "learning_rate": 3.8400000000000005e-05,
      "loss": 1.796,
      "step": 24
    },
    {
      "epoch": 0.009124087591240875,
      "grad_norm": 1.179722547531128,
      "learning_rate": 4e-05,
      "loss": 1.7512,
      "step": 25
    },
    {
      "epoch": 0.00948905109489051,
      "grad_norm": 1.0660053491592407,
      "learning_rate": 4.16e-05,
      "loss": 1.7489,
      "step": 26
    },
    {
      "epoch": 0.009854014598540146,
      "grad_norm": 0.8479825854301453,
      "learning_rate": 4.3200000000000007e-05,
      "loss": 1.6973,
      "step": 27
    },
    {
      "epoch": 0.010218978102189781,
      "grad_norm": 0.9516478776931763,
      "learning_rate": 4.4800000000000005e-05,
      "loss": 1.7097,
      "step": 28
    },
    {
      "epoch": 0.010583941605839416,
      "grad_norm": 0.9208071827888489,
      "learning_rate": 4.64e-05,
      "loss": 1.7538,
      "step": 29
    },
    {
      "epoch": 0.010948905109489052,
      "grad_norm": 1.0009586811065674,
      "learning_rate": 4.8e-05,
      "loss": 1.6848,
      "step": 30
    },
    {
      "epoch": 0.011313868613138687,
      "grad_norm": 0.9140497446060181,
      "learning_rate": 4.9600000000000006e-05,
      "loss": 1.731,
      "step": 31
    },
    {
      "epoch": 0.01167883211678832,
      "grad_norm": 1.1584128141403198,
      "learning_rate": 5.1200000000000004e-05,
      "loss": 1.7689,
      "step": 32
    },
    {
      "epoch": 0.012043795620437956,
      "grad_norm": 0.9058739542961121,
      "learning_rate": 5.280000000000001e-05,
      "loss": 1.6873,
      "step": 33
    },
    {
      "epoch": 0.012408759124087591,
      "grad_norm": 0.8403913378715515,
      "learning_rate": 5.440000000000001e-05,
      "loss": 1.6465,
      "step": 34
    },
    {
      "epoch": 0.012773722627737226,
      "grad_norm": 1.0676064491271973,
      "learning_rate": 5.6e-05,
      "loss": 1.7678,
      "step": 35
    },
    {
      "epoch": 0.013138686131386862,
      "grad_norm": 0.9340100288391113,
      "learning_rate": 5.7600000000000004e-05,
      "loss": 1.7544,
      "step": 36
    },
    {
      "epoch": 0.013503649635036497,
      "grad_norm": 0.8615338802337646,
      "learning_rate": 5.92e-05,
      "loss": 1.7025,
      "step": 37
    },
    {
      "epoch": 0.013868613138686132,
      "grad_norm": 0.9016826748847961,
      "learning_rate": 6.080000000000001e-05,
      "loss": 1.7897,
      "step": 38
    },
    {
      "epoch": 0.014233576642335766,
      "grad_norm": 0.8205634951591492,
      "learning_rate": 6.240000000000001e-05,
      "loss": 1.6404,
      "step": 39
    },
    {
      "epoch": 0.014598540145985401,
      "grad_norm": 0.8312715888023376,
      "learning_rate": 6.400000000000001e-05,
      "loss": 1.6964,
      "step": 40
    },
    {
      "epoch": 0.014963503649635036,
      "grad_norm": 0.7965004444122314,
      "learning_rate": 6.56e-05,
      "loss": 1.6927,
      "step": 41
    },
    {
      "epoch": 0.015328467153284672,
      "grad_norm": 0.7952842116355896,
      "learning_rate": 6.720000000000001e-05,
      "loss": 1.7299,
      "step": 42
    },
    {
      "epoch": 0.015693430656934307,
      "grad_norm": 0.8221874237060547,
      "learning_rate": 6.88e-05,
      "loss": 1.7659,
      "step": 43
    },
    {
      "epoch": 0.016058394160583942,
      "grad_norm": 0.7900505065917969,
      "learning_rate": 7.04e-05,
      "loss": 1.6893,
      "step": 44
    },
    {
      "epoch": 0.016423357664233577,
      "grad_norm": 0.7811992168426514,
      "learning_rate": 7.2e-05,
      "loss": 1.6211,
      "step": 45
    },
    {
      "epoch": 0.016788321167883213,
      "grad_norm": 0.790443480014801,
      "learning_rate": 7.360000000000001e-05,
      "loss": 1.7662,
      "step": 46
    },
    {
      "epoch": 0.017153284671532848,
      "grad_norm": 0.816353440284729,
      "learning_rate": 7.52e-05,
      "loss": 1.6641,
      "step": 47
    },
    {
      "epoch": 0.017518248175182483,
      "grad_norm": 0.8042202591896057,
      "learning_rate": 7.680000000000001e-05,
      "loss": 1.6593,
      "step": 48
    },
    {
      "epoch": 0.017883211678832115,
      "grad_norm": 0.7966692447662354,
      "learning_rate": 7.840000000000001e-05,
      "loss": 1.677,
      "step": 49
    },
    {
      "epoch": 0.01824817518248175,
      "grad_norm": 0.7921064496040344,
      "learning_rate": 8e-05,
      "loss": 1.7434,
      "step": 50
    },
    {
      "epoch": 0.018613138686131386,
      "grad_norm": 0.7834917902946472,
      "learning_rate": 8e-05,
      "loss": 1.6364,
      "step": 51
    },
    {
      "epoch": 0.01897810218978102,
      "grad_norm": 0.8509085774421692,
      "learning_rate": 8e-05,
      "loss": 1.7547,
      "step": 52
    },
    {
      "epoch": 0.019343065693430656,
      "grad_norm": 0.7431538105010986,
      "learning_rate": 8e-05,
      "loss": 1.6649,
      "step": 53
    },
    {
      "epoch": 0.01970802919708029,
      "grad_norm": 0.8557992577552795,
      "learning_rate": 8e-05,
      "loss": 1.7021,
      "step": 54
    },
    {
      "epoch": 0.020072992700729927,
      "grad_norm": 0.7703061699867249,
      "learning_rate": 8e-05,
      "loss": 1.598,
      "step": 55
    },
    {
      "epoch": 0.020437956204379562,
      "grad_norm": 0.8274635076522827,
      "learning_rate": 8e-05,
      "loss": 1.6993,
      "step": 56
    },
    {
      "epoch": 0.020802919708029197,
      "grad_norm": 0.7679604291915894,
      "learning_rate": 8e-05,
      "loss": 1.5652,
      "step": 57
    },
    {
      "epoch": 0.021167883211678833,
      "grad_norm": 0.7668532133102417,
      "learning_rate": 8e-05,
      "loss": 1.7222,
      "step": 58
    },
    {
      "epoch": 0.021532846715328468,
      "grad_norm": 0.7613584995269775,
      "learning_rate": 8e-05,
      "loss": 1.648,
      "step": 59
    },
    {
      "epoch": 0.021897810218978103,
      "grad_norm": 0.8037420511245728,
      "learning_rate": 8e-05,
      "loss": 1.7178,
      "step": 60
    },
    {
      "epoch": 0.02226277372262774,
      "grad_norm": 0.7842661142349243,
      "learning_rate": 8e-05,
      "loss": 1.6398,
      "step": 61
    },
    {
      "epoch": 0.022627737226277374,
      "grad_norm": 0.7700873613357544,
      "learning_rate": 8e-05,
      "loss": 1.6329,
      "step": 62
    },
    {
      "epoch": 0.022992700729927006,
      "grad_norm": 0.7385550737380981,
      "learning_rate": 8e-05,
      "loss": 1.6485,
      "step": 63
    },
    {
      "epoch": 0.02335766423357664,
      "grad_norm": 0.7680835723876953,
      "learning_rate": 8e-05,
      "loss": 1.7112,
      "step": 64
    },
    {
      "epoch": 0.023722627737226276,
      "grad_norm": 0.7822306156158447,
      "learning_rate": 8e-05,
      "loss": 1.7046,
      "step": 65
    },
    {
      "epoch": 0.02408759124087591,
      "grad_norm": 0.7567176818847656,
      "learning_rate": 8e-05,
      "loss": 1.6949,
      "step": 66
    },
    {
      "epoch": 0.024452554744525547,
      "grad_norm": 0.7712631225585938,
      "learning_rate": 8e-05,
      "loss": 1.6146,
      "step": 67
    },
    {
      "epoch": 0.024817518248175182,
      "grad_norm": 0.7157831192016602,
      "learning_rate": 8e-05,
      "loss": 1.6293,
      "step": 68
    },
    {
      "epoch": 0.025182481751824817,
      "grad_norm": 0.7655055522918701,
      "learning_rate": 8e-05,
      "loss": 1.7272,
      "step": 69
    },
    {
      "epoch": 0.025547445255474453,
      "grad_norm": 0.7167195081710815,
      "learning_rate": 8e-05,
      "loss": 1.7118,
      "step": 70
    },
    {
      "epoch": 0.025912408759124088,
      "grad_norm": 0.8068840503692627,
      "learning_rate": 8e-05,
      "loss": 1.6946,
      "step": 71
    },
    {
      "epoch": 0.026277372262773723,
      "grad_norm": 0.7239352464675903,
      "learning_rate": 8e-05,
      "loss": 1.6682,
      "step": 72
    },
    {
      "epoch": 0.02664233576642336,
      "grad_norm": 0.7661513090133667,
      "learning_rate": 8e-05,
      "loss": 1.6985,
      "step": 73
    },
    {
      "epoch": 0.027007299270072994,
      "grad_norm": 0.7436657547950745,
      "learning_rate": 8e-05,
      "loss": 1.6922,
      "step": 74
    },
    {
      "epoch": 0.02737226277372263,
      "grad_norm": 0.7327104210853577,
      "learning_rate": 8e-05,
      "loss": 1.6283,
      "step": 75
    },
    {
      "epoch": 0.027737226277372264,
      "grad_norm": 0.7771669030189514,
      "learning_rate": 8e-05,
      "loss": 1.7046,
      "step": 76
    },
    {
      "epoch": 0.028102189781021896,
      "grad_norm": 0.716783344745636,
      "learning_rate": 8e-05,
      "loss": 1.6743,
      "step": 77
    },
    {
      "epoch": 0.02846715328467153,
      "grad_norm": 0.764636218547821,
      "learning_rate": 8e-05,
      "loss": 1.7406,
      "step": 78
    },
    {
      "epoch": 0.028832116788321167,
      "grad_norm": 0.6536195874214172,
      "learning_rate": 8e-05,
      "loss": 1.5371,
      "step": 79
    },
    {
      "epoch": 0.029197080291970802,
      "grad_norm": 0.7008708119392395,
      "learning_rate": 8e-05,
      "loss": 1.6315,
      "step": 80
    },
    {
      "epoch": 0.029562043795620437,
      "grad_norm": 0.7431614398956299,
      "learning_rate": 8e-05,
      "loss": 1.6929,
      "step": 81
    },
    {
      "epoch": 0.029927007299270073,
      "grad_norm": 0.7041269540786743,
      "learning_rate": 8e-05,
      "loss": 1.5969,
      "step": 82
    },
    {
      "epoch": 0.030291970802919708,
      "grad_norm": 0.771565318107605,
      "learning_rate": 8e-05,
      "loss": 1.6917,
      "step": 83
    },
    {
      "epoch": 0.030656934306569343,
      "grad_norm": 0.6887874007225037,
      "learning_rate": 8e-05,
      "loss": 1.6265,
      "step": 84
    },
    {
      "epoch": 0.03102189781021898,
      "grad_norm": 0.766316294670105,
      "learning_rate": 8e-05,
      "loss": 1.6775,
      "step": 85
    },
    {
      "epoch": 0.031386861313868614,
      "grad_norm": 0.7118349075317383,
      "learning_rate": 8e-05,
      "loss": 1.6254,
      "step": 86
    },
    {
      "epoch": 0.031751824817518245,
      "grad_norm": 0.7359673380851746,
      "learning_rate": 8e-05,
      "loss": 1.6696,
      "step": 87
    },
    {
      "epoch": 0.032116788321167884,
      "grad_norm": 0.6821052432060242,
      "learning_rate": 8e-05,
      "loss": 1.6942,
      "step": 88
    },
    {
      "epoch": 0.032481751824817516,
      "grad_norm": 0.6891179084777832,
      "learning_rate": 8e-05,
      "loss": 1.6617,
      "step": 89
    },
    {
      "epoch": 0.032846715328467155,
      "grad_norm": 0.6847333908081055,
      "learning_rate": 8e-05,
      "loss": 1.6864,
      "step": 90
    },
    {
      "epoch": 0.03321167883211679,
      "grad_norm": 0.7005050778388977,
      "learning_rate": 8e-05,
      "loss": 1.6633,
      "step": 91
    },
    {
      "epoch": 0.033576642335766425,
      "grad_norm": 0.7024527788162231,
      "learning_rate": 8e-05,
      "loss": 1.5764,
      "step": 92
    },
    {
      "epoch": 0.03394160583941606,
      "grad_norm": 0.708507239818573,
      "learning_rate": 8e-05,
      "loss": 1.6535,
      "step": 93
    },
    {
      "epoch": 0.034306569343065696,
      "grad_norm": 0.6904707551002502,
      "learning_rate": 8e-05,
      "loss": 1.6805,
      "step": 94
    },
    {
      "epoch": 0.03467153284671533,
      "grad_norm": 0.7204551696777344,
      "learning_rate": 8e-05,
      "loss": 1.6818,
      "step": 95
    },
    {
      "epoch": 0.035036496350364967,
      "grad_norm": 0.692854106426239,
      "learning_rate": 8e-05,
      "loss": 1.6674,
      "step": 96
    },
    {
      "epoch": 0.0354014598540146,
      "grad_norm": 0.6822801828384399,
      "learning_rate": 8e-05,
      "loss": 1.5938,
      "step": 97
    },
    {
      "epoch": 0.03576642335766423,
      "grad_norm": 0.697212815284729,
      "learning_rate": 8e-05,
      "loss": 1.6764,
      "step": 98
    },
    {
      "epoch": 0.03613138686131387,
      "grad_norm": 0.7240051627159119,
      "learning_rate": 8e-05,
      "loss": 1.6327,
      "step": 99
    },
    {
      "epoch": 0.0364963503649635,
      "grad_norm": 0.7162131071090698,
      "learning_rate": 8e-05,
      "loss": 1.7184,
      "step": 100
    },
    {
      "epoch": 0.03686131386861314,
      "grad_norm": 0.683077335357666,
      "learning_rate": 8e-05,
      "loss": 1.6702,
      "step": 101
    },
    {
      "epoch": 0.03722627737226277,
      "grad_norm": 0.6752654910087585,
      "learning_rate": 8e-05,
      "loss": 1.6491,
      "step": 102
    },
    {
      "epoch": 0.03759124087591241,
      "grad_norm": 0.6767718195915222,
      "learning_rate": 8e-05,
      "loss": 1.6547,
      "step": 103
    },
    {
      "epoch": 0.03795620437956204,
      "grad_norm": 0.7069666385650635,
      "learning_rate": 8e-05,
      "loss": 1.73,
      "step": 104
    },
    {
      "epoch": 0.03832116788321168,
      "grad_norm": 0.6691062450408936,
      "learning_rate": 8e-05,
      "loss": 1.5829,
      "step": 105
    },
    {
      "epoch": 0.03868613138686131,
      "grad_norm": 0.7920565009117126,
      "learning_rate": 8e-05,
      "loss": 1.6922,
      "step": 106
    },
    {
      "epoch": 0.03905109489051095,
      "grad_norm": 0.7031686902046204,
      "learning_rate": 8e-05,
      "loss": 1.6239,
      "step": 107
    },
    {
      "epoch": 0.03941605839416058,
      "grad_norm": 0.7239372134208679,
      "learning_rate": 8e-05,
      "loss": 1.646,
      "step": 108
    },
    {
      "epoch": 0.03978102189781022,
      "grad_norm": 0.703835666179657,
      "learning_rate": 8e-05,
      "loss": 1.6272,
      "step": 109
    },
    {
      "epoch": 0.040145985401459854,
      "grad_norm": 0.7483698725700378,
      "learning_rate": 8e-05,
      "loss": 1.6598,
      "step": 110
    },
    {
      "epoch": 0.04051094890510949,
      "grad_norm": 0.7210462093353271,
      "learning_rate": 8e-05,
      "loss": 1.676,
      "step": 111
    },
    {
      "epoch": 0.040875912408759124,
      "grad_norm": 0.6540061235427856,
      "learning_rate": 8e-05,
      "loss": 1.5927,
      "step": 112
    },
    {
      "epoch": 0.041240875912408756,
      "grad_norm": 0.6687197089195251,
      "learning_rate": 8e-05,
      "loss": 1.7032,
      "step": 113
    },
    {
      "epoch": 0.041605839416058395,
      "grad_norm": 0.6997892260551453,
      "learning_rate": 8e-05,
      "loss": 1.6602,
      "step": 114
    },
    {
      "epoch": 0.041970802919708027,
      "grad_norm": 0.6778460741043091,
      "learning_rate": 8e-05,
      "loss": 1.7102,
      "step": 115
    },
    {
      "epoch": 0.042335766423357665,
      "grad_norm": 0.6977257132530212,
      "learning_rate": 8e-05,
      "loss": 1.6114,
      "step": 116
    },
    {
      "epoch": 0.0427007299270073,
      "grad_norm": 0.6852269768714905,
      "learning_rate": 8e-05,
      "loss": 1.651,
      "step": 117
    },
    {
      "epoch": 0.043065693430656936,
      "grad_norm": 0.7067930698394775,
      "learning_rate": 8e-05,
      "loss": 1.5944,
      "step": 118
    },
    {
      "epoch": 0.04343065693430657,
      "grad_norm": 0.6694912910461426,
      "learning_rate": 8e-05,
      "loss": 1.6303,
      "step": 119
    },
    {
      "epoch": 0.043795620437956206,
      "grad_norm": 0.7325598001480103,
      "learning_rate": 8e-05,
      "loss": 1.5886,
      "step": 120
    },
    {
      "epoch": 0.04416058394160584,
      "grad_norm": 0.6786623597145081,
      "learning_rate": 8e-05,
      "loss": 1.6708,
      "step": 121
    },
    {
      "epoch": 0.04452554744525548,
      "grad_norm": 0.6945887207984924,
      "learning_rate": 8e-05,
      "loss": 1.6192,
      "step": 122
    },
    {
      "epoch": 0.04489051094890511,
      "grad_norm": 0.6830284595489502,
      "learning_rate": 8e-05,
      "loss": 1.6517,
      "step": 123
    },
    {
      "epoch": 0.04525547445255475,
      "grad_norm": 0.6675395965576172,
      "learning_rate": 8e-05,
      "loss": 1.6311,
      "step": 124
    },
    {
      "epoch": 0.04562043795620438,
      "grad_norm": 0.6879777908325195,
      "learning_rate": 8e-05,
      "loss": 1.6212,
      "step": 125
    },
    {
      "epoch": 0.04598540145985401,
      "grad_norm": 0.6864371299743652,
      "learning_rate": 8e-05,
      "loss": 1.6988,
      "step": 126
    },
    {
      "epoch": 0.04635036496350365,
      "grad_norm": 0.6912606954574585,
      "learning_rate": 8e-05,
      "loss": 1.6814,
      "step": 127
    },
    {
      "epoch": 0.04671532846715328,
      "grad_norm": 0.6792883276939392,
      "learning_rate": 8e-05,
      "loss": 1.6972,
      "step": 128
    },
    {
      "epoch": 0.04708029197080292,
      "grad_norm": 0.6731526851654053,
      "learning_rate": 8e-05,
      "loss": 1.6984,
      "step": 129
    },
    {
      "epoch": 0.04744525547445255,
      "grad_norm": 0.6818424463272095,
      "learning_rate": 8e-05,
      "loss": 1.6134,
      "step": 130
    },
    {
      "epoch": 0.04781021897810219,
      "grad_norm": 0.6601257920265198,
      "learning_rate": 8e-05,
      "loss": 1.5698,
      "step": 131
    },
    {
      "epoch": 0.04817518248175182,
      "grad_norm": 0.6575655937194824,
      "learning_rate": 8e-05,
      "loss": 1.5623,
      "step": 132
    },
    {
      "epoch": 0.04854014598540146,
      "grad_norm": 0.6792151927947998,
      "learning_rate": 8e-05,
      "loss": 1.6246,
      "step": 133
    },
    {
      "epoch": 0.04890510948905109,
      "grad_norm": 0.6751284003257751,
      "learning_rate": 8e-05,
      "loss": 1.6165,
      "step": 134
    },
    {
      "epoch": 0.04927007299270073,
      "grad_norm": 0.6354056000709534,
      "learning_rate": 8e-05,
      "loss": 1.5375,
      "step": 135
    },
    {
      "epoch": 0.049635036496350364,
      "grad_norm": 0.6488074660301208,
      "learning_rate": 8e-05,
      "loss": 1.6582,
      "step": 136
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.6680902242660522,
      "learning_rate": 8e-05,
      "loss": 1.6881,
      "step": 137
    },
    {
      "epoch": 0.050364963503649635,
      "grad_norm": 0.6529712080955505,
      "learning_rate": 8e-05,
      "loss": 1.6208,
      "step": 138
    },
    {
      "epoch": 0.05072992700729927,
      "grad_norm": 0.6779060363769531,
      "learning_rate": 8e-05,
      "loss": 1.6866,
      "step": 139
    },
    {
      "epoch": 0.051094890510948905,
      "grad_norm": 0.6759631037712097,
      "learning_rate": 8e-05,
      "loss": 1.6761,
      "step": 140
    },
    {
      "epoch": 0.05145985401459854,
      "grad_norm": 0.6622214317321777,
      "learning_rate": 8e-05,
      "loss": 1.6412,
      "step": 141
    },
    {
      "epoch": 0.051824817518248176,
      "grad_norm": 0.663199245929718,
      "learning_rate": 8e-05,
      "loss": 1.685,
      "step": 142
    },
    {
      "epoch": 0.05218978102189781,
      "grad_norm": 0.6915879249572754,
      "learning_rate": 8e-05,
      "loss": 1.6308,
      "step": 143
    },
    {
      "epoch": 0.052554744525547446,
      "grad_norm": 0.6636124849319458,
      "learning_rate": 8e-05,
      "loss": 1.6429,
      "step": 144
    },
    {
      "epoch": 0.05291970802919708,
      "grad_norm": 0.6754583716392517,
      "learning_rate": 8e-05,
      "loss": 1.6779,
      "step": 145
    },
    {
      "epoch": 0.05328467153284672,
      "grad_norm": 0.6307612657546997,
      "learning_rate": 8e-05,
      "loss": 1.6574,
      "step": 146
    },
    {
      "epoch": 0.05364963503649635,
      "grad_norm": 0.6504020690917969,
      "learning_rate": 8e-05,
      "loss": 1.6252,
      "step": 147
    },
    {
      "epoch": 0.05401459854014599,
      "grad_norm": 0.6336159110069275,
      "learning_rate": 8e-05,
      "loss": 1.5255,
      "step": 148
    },
    {
      "epoch": 0.05437956204379562,
      "grad_norm": 0.6335279941558838,
      "learning_rate": 8e-05,
      "loss": 1.5818,
      "step": 149
    },
    {
      "epoch": 0.05474452554744526,
      "grad_norm": 0.6577324867248535,
      "learning_rate": 8e-05,
      "loss": 1.7288,
      "step": 150
    },
    {
      "epoch": 0.05510948905109489,
      "grad_norm": 0.6642254590988159,
      "learning_rate": 8e-05,
      "loss": 1.6501,
      "step": 151
    },
    {
      "epoch": 0.05547445255474453,
      "grad_norm": 0.6491948366165161,
      "learning_rate": 8e-05,
      "loss": 1.6538,
      "step": 152
    },
    {
      "epoch": 0.05583941605839416,
      "grad_norm": 0.6526106595993042,
      "learning_rate": 8e-05,
      "loss": 1.6362,
      "step": 153
    },
    {
      "epoch": 0.05620437956204379,
      "grad_norm": 0.635654628276825,
      "learning_rate": 8e-05,
      "loss": 1.6203,
      "step": 154
    },
    {
      "epoch": 0.05656934306569343,
      "grad_norm": 0.6858350038528442,
      "learning_rate": 8e-05,
      "loss": 1.6445,
      "step": 155
    },
    {
      "epoch": 0.05693430656934306,
      "grad_norm": 0.6238821148872375,
      "learning_rate": 8e-05,
      "loss": 1.6378,
      "step": 156
    },
    {
      "epoch": 0.0572992700729927,
      "grad_norm": 0.7022926807403564,
      "learning_rate": 8e-05,
      "loss": 1.7044,
      "step": 157
    },
    {
      "epoch": 0.05766423357664233,
      "grad_norm": 0.6438405513763428,
      "learning_rate": 8e-05,
      "loss": 1.5686,
      "step": 158
    },
    {
      "epoch": 0.05802919708029197,
      "grad_norm": 0.6593636274337769,
      "learning_rate": 8e-05,
      "loss": 1.6247,
      "step": 159
    },
    {
      "epoch": 0.058394160583941604,
      "grad_norm": 0.6836504340171814,
      "learning_rate": 8e-05,
      "loss": 1.6776,
      "step": 160
    },
    {
      "epoch": 0.05875912408759124,
      "grad_norm": 0.6473071575164795,
      "learning_rate": 8e-05,
      "loss": 1.6572,
      "step": 161
    },
    {
      "epoch": 0.059124087591240874,
      "grad_norm": 0.6869360208511353,
      "learning_rate": 8e-05,
      "loss": 1.7435,
      "step": 162
    },
    {
      "epoch": 0.05948905109489051,
      "grad_norm": 0.6359171867370605,
      "learning_rate": 8e-05,
      "loss": 1.6107,
      "step": 163
    },
    {
      "epoch": 0.059854014598540145,
      "grad_norm": 0.6575145125389099,
      "learning_rate": 8e-05,
      "loss": 1.6216,
      "step": 164
    },
    {
      "epoch": 0.060218978102189784,
      "grad_norm": 0.6317960619926453,
      "learning_rate": 8e-05,
      "loss": 1.5935,
      "step": 165
    },
    {
      "epoch": 0.060583941605839416,
      "grad_norm": 0.6209494471549988,
      "learning_rate": 8e-05,
      "loss": 1.5776,
      "step": 166
    },
    {
      "epoch": 0.060948905109489054,
      "grad_norm": 0.6999175548553467,
      "learning_rate": 8e-05,
      "loss": 1.7135,
      "step": 167
    },
    {
      "epoch": 0.061313868613138686,
      "grad_norm": 0.6563970446586609,
      "learning_rate": 8e-05,
      "loss": 1.6126,
      "step": 168
    },
    {
      "epoch": 0.06167883211678832,
      "grad_norm": 0.6753642559051514,
      "learning_rate": 8e-05,
      "loss": 1.638,
      "step": 169
    },
    {
      "epoch": 0.06204379562043796,
      "grad_norm": 0.6202018857002258,
      "learning_rate": 8e-05,
      "loss": 1.5676,
      "step": 170
    },
    {
      "epoch": 0.06240875912408759,
      "grad_norm": 0.6952285766601562,
      "learning_rate": 8e-05,
      "loss": 1.6453,
      "step": 171
    },
    {
      "epoch": 0.06277372262773723,
      "grad_norm": 0.6592741012573242,
      "learning_rate": 8e-05,
      "loss": 1.6186,
      "step": 172
    },
    {
      "epoch": 0.06313868613138686,
      "grad_norm": 0.6915072798728943,
      "learning_rate": 8e-05,
      "loss": 1.6688,
      "step": 173
    },
    {
      "epoch": 0.06350364963503649,
      "grad_norm": 0.6609305739402771,
      "learning_rate": 8e-05,
      "loss": 1.6793,
      "step": 174
    },
    {
      "epoch": 0.06386861313868614,
      "grad_norm": 0.6582349538803101,
      "learning_rate": 8e-05,
      "loss": 1.6605,
      "step": 175
    },
    {
      "epoch": 0.06423357664233577,
      "grad_norm": 0.6619317531585693,
      "learning_rate": 8e-05,
      "loss": 1.6396,
      "step": 176
    },
    {
      "epoch": 0.0645985401459854,
      "grad_norm": 0.6226148009300232,
      "learning_rate": 8e-05,
      "loss": 1.5018,
      "step": 177
    },
    {
      "epoch": 0.06496350364963503,
      "grad_norm": 0.6973519921302795,
      "learning_rate": 8e-05,
      "loss": 1.6551,
      "step": 178
    },
    {
      "epoch": 0.06532846715328468,
      "grad_norm": 0.6476939916610718,
      "learning_rate": 8e-05,
      "loss": 1.6008,
      "step": 179
    },
    {
      "epoch": 0.06569343065693431,
      "grad_norm": 0.6622018814086914,
      "learning_rate": 8e-05,
      "loss": 1.5487,
      "step": 180
    },
    {
      "epoch": 0.06605839416058394,
      "grad_norm": 0.6711437702178955,
      "learning_rate": 8e-05,
      "loss": 1.5897,
      "step": 181
    },
    {
      "epoch": 0.06642335766423357,
      "grad_norm": 0.6742732524871826,
      "learning_rate": 8e-05,
      "loss": 1.6583,
      "step": 182
    },
    {
      "epoch": 0.0667883211678832,
      "grad_norm": 0.7049593925476074,
      "learning_rate": 8e-05,
      "loss": 1.766,
      "step": 183
    },
    {
      "epoch": 0.06715328467153285,
      "grad_norm": 0.6531417965888977,
      "learning_rate": 8e-05,
      "loss": 1.649,
      "step": 184
    },
    {
      "epoch": 0.06751824817518248,
      "grad_norm": 0.6357539296150208,
      "learning_rate": 8e-05,
      "loss": 1.5751,
      "step": 185
    },
    {
      "epoch": 0.06788321167883211,
      "grad_norm": 0.688915491104126,
      "learning_rate": 8e-05,
      "loss": 1.6641,
      "step": 186
    },
    {
      "epoch": 0.06824817518248175,
      "grad_norm": 0.6622700691223145,
      "learning_rate": 8e-05,
      "loss": 1.6203,
      "step": 187
    },
    {
      "epoch": 0.06861313868613139,
      "grad_norm": 0.7143622636795044,
      "learning_rate": 8e-05,
      "loss": 1.6322,
      "step": 188
    },
    {
      "epoch": 0.06897810218978102,
      "grad_norm": 0.651539146900177,
      "learning_rate": 8e-05,
      "loss": 1.6368,
      "step": 189
    },
    {
      "epoch": 0.06934306569343066,
      "grad_norm": 0.6789389848709106,
      "learning_rate": 8e-05,
      "loss": 1.5865,
      "step": 190
    },
    {
      "epoch": 0.06970802919708029,
      "grad_norm": 0.6590864658355713,
      "learning_rate": 8e-05,
      "loss": 1.7004,
      "step": 191
    },
    {
      "epoch": 0.07007299270072993,
      "grad_norm": 0.7100057601928711,
      "learning_rate": 8e-05,
      "loss": 1.6546,
      "step": 192
    },
    {
      "epoch": 0.07043795620437956,
      "grad_norm": 0.627885639667511,
      "learning_rate": 8e-05,
      "loss": 1.69,
      "step": 193
    },
    {
      "epoch": 0.0708029197080292,
      "grad_norm": 0.7236726880073547,
      "learning_rate": 8e-05,
      "loss": 1.6376,
      "step": 194
    },
    {
      "epoch": 0.07116788321167883,
      "grad_norm": 0.6360193490982056,
      "learning_rate": 8e-05,
      "loss": 1.6103,
      "step": 195
    },
    {
      "epoch": 0.07153284671532846,
      "grad_norm": 0.661082923412323,
      "learning_rate": 8e-05,
      "loss": 1.5766,
      "step": 196
    },
    {
      "epoch": 0.0718978102189781,
      "grad_norm": 0.6515825390815735,
      "learning_rate": 8e-05,
      "loss": 1.666,
      "step": 197
    },
    {
      "epoch": 0.07226277372262774,
      "grad_norm": 0.7029083371162415,
      "learning_rate": 8e-05,
      "loss": 1.6451,
      "step": 198
    },
    {
      "epoch": 0.07262773722627737,
      "grad_norm": 0.6420914530754089,
      "learning_rate": 8e-05,
      "loss": 1.6403,
      "step": 199
    },
    {
      "epoch": 0.072992700729927,
      "grad_norm": 0.6848012208938599,
      "learning_rate": 8e-05,
      "loss": 1.6839,
      "step": 200
    },
    {
      "epoch": 0.07335766423357665,
      "grad_norm": 0.6750447154045105,
      "learning_rate": 8e-05,
      "loss": 1.6645,
      "step": 201
    },
    {
      "epoch": 0.07372262773722628,
      "grad_norm": 0.647811770439148,
      "learning_rate": 8e-05,
      "loss": 1.6211,
      "step": 202
    },
    {
      "epoch": 0.07408759124087591,
      "grad_norm": 0.6767793893814087,
      "learning_rate": 8e-05,
      "loss": 1.641,
      "step": 203
    },
    {
      "epoch": 0.07445255474452554,
      "grad_norm": 0.643554151058197,
      "learning_rate": 8e-05,
      "loss": 1.6141,
      "step": 204
    },
    {
      "epoch": 0.07481751824817519,
      "grad_norm": 0.6107140779495239,
      "learning_rate": 8e-05,
      "loss": 1.533,
      "step": 205
    },
    {
      "epoch": 0.07518248175182482,
      "grad_norm": 0.6122639179229736,
      "learning_rate": 8e-05,
      "loss": 1.6045,
      "step": 206
    },
    {
      "epoch": 0.07554744525547445,
      "grad_norm": 0.6810380816459656,
      "learning_rate": 8e-05,
      "loss": 1.6728,
      "step": 207
    },
    {
      "epoch": 0.07591240875912408,
      "grad_norm": 0.6485706567764282,
      "learning_rate": 8e-05,
      "loss": 1.7578,
      "step": 208
    },
    {
      "epoch": 0.07627737226277373,
      "grad_norm": 0.6138009428977966,
      "learning_rate": 8e-05,
      "loss": 1.616,
      "step": 209
    },
    {
      "epoch": 0.07664233576642336,
      "grad_norm": 0.6135149598121643,
      "learning_rate": 8e-05,
      "loss": 1.5804,
      "step": 210
    },
    {
      "epoch": 0.07700729927007299,
      "grad_norm": 0.633509635925293,
      "learning_rate": 8e-05,
      "loss": 1.639,
      "step": 211
    },
    {
      "epoch": 0.07737226277372262,
      "grad_norm": 0.6139196753501892,
      "learning_rate": 8e-05,
      "loss": 1.5823,
      "step": 212
    },
    {
      "epoch": 0.07773722627737226,
      "grad_norm": 0.647861123085022,
      "learning_rate": 8e-05,
      "loss": 1.6458,
      "step": 213
    },
    {
      "epoch": 0.0781021897810219,
      "grad_norm": 0.6362785696983337,
      "learning_rate": 8e-05,
      "loss": 1.6461,
      "step": 214
    },
    {
      "epoch": 0.07846715328467153,
      "grad_norm": 0.6941103339195251,
      "learning_rate": 8e-05,
      "loss": 1.6326,
      "step": 215
    },
    {
      "epoch": 0.07883211678832117,
      "grad_norm": 0.6207079887390137,
      "learning_rate": 8e-05,
      "loss": 1.6105,
      "step": 216
    },
    {
      "epoch": 0.0791970802919708,
      "grad_norm": 0.6324756741523743,
      "learning_rate": 8e-05,
      "loss": 1.5719,
      "step": 217
    },
    {
      "epoch": 0.07956204379562044,
      "grad_norm": 0.6452170610427856,
      "learning_rate": 8e-05,
      "loss": 1.6225,
      "step": 218
    },
    {
      "epoch": 0.07992700729927008,
      "grad_norm": 0.6809782981872559,
      "learning_rate": 8e-05,
      "loss": 1.5852,
      "step": 219
    },
    {
      "epoch": 0.08029197080291971,
      "grad_norm": 0.6372150182723999,
      "learning_rate": 8e-05,
      "loss": 1.6764,
      "step": 220
    },
    {
      "epoch": 0.08065693430656934,
      "grad_norm": 0.6684524416923523,
      "learning_rate": 8e-05,
      "loss": 1.6282,
      "step": 221
    },
    {
      "epoch": 0.08102189781021898,
      "grad_norm": 0.6516437530517578,
      "learning_rate": 8e-05,
      "loss": 1.7021,
      "step": 222
    },
    {
      "epoch": 0.08138686131386862,
      "grad_norm": 0.6852911710739136,
      "learning_rate": 8e-05,
      "loss": 1.5741,
      "step": 223
    },
    {
      "epoch": 0.08175182481751825,
      "grad_norm": 0.6456780433654785,
      "learning_rate": 8e-05,
      "loss": 1.6788,
      "step": 224
    },
    {
      "epoch": 0.08211678832116788,
      "grad_norm": 0.6505553126335144,
      "learning_rate": 8e-05,
      "loss": 1.6344,
      "step": 225
    },
    {
      "epoch": 0.08248175182481751,
      "grad_norm": 0.6681793332099915,
      "learning_rate": 8e-05,
      "loss": 1.6369,
      "step": 226
    },
    {
      "epoch": 0.08284671532846716,
      "grad_norm": 0.6822577118873596,
      "learning_rate": 8e-05,
      "loss": 1.6403,
      "step": 227
    },
    {
      "epoch": 0.08321167883211679,
      "grad_norm": 0.6623692512512207,
      "learning_rate": 8e-05,
      "loss": 1.6761,
      "step": 228
    },
    {
      "epoch": 0.08357664233576642,
      "grad_norm": 0.6671502590179443,
      "learning_rate": 8e-05,
      "loss": 1.6529,
      "step": 229
    },
    {
      "epoch": 0.08394160583941605,
      "grad_norm": 0.6418682932853699,
      "learning_rate": 8e-05,
      "loss": 1.6682,
      "step": 230
    },
    {
      "epoch": 0.0843065693430657,
      "grad_norm": 0.6576665639877319,
      "learning_rate": 8e-05,
      "loss": 1.5573,
      "step": 231
    },
    {
      "epoch": 0.08467153284671533,
      "grad_norm": 0.6582851409912109,
      "learning_rate": 8e-05,
      "loss": 1.6435,
      "step": 232
    },
    {
      "epoch": 0.08503649635036496,
      "grad_norm": 0.6110396981239319,
      "learning_rate": 8e-05,
      "loss": 1.5807,
      "step": 233
    },
    {
      "epoch": 0.0854014598540146,
      "grad_norm": 0.6910983324050903,
      "learning_rate": 8e-05,
      "loss": 1.6798,
      "step": 234
    },
    {
      "epoch": 0.08576642335766424,
      "grad_norm": 0.6203469038009644,
      "learning_rate": 8e-05,
      "loss": 1.6219,
      "step": 235
    },
    {
      "epoch": 0.08613138686131387,
      "grad_norm": 0.6586968302726746,
      "learning_rate": 8e-05,
      "loss": 1.6086,
      "step": 236
    },
    {
      "epoch": 0.0864963503649635,
      "grad_norm": 0.6298242807388306,
      "learning_rate": 8e-05,
      "loss": 1.6064,
      "step": 237
    },
    {
      "epoch": 0.08686131386861314,
      "grad_norm": 0.6793626546859741,
      "learning_rate": 8e-05,
      "loss": 1.6343,
      "step": 238
    },
    {
      "epoch": 0.08722627737226277,
      "grad_norm": 0.6487987637519836,
      "learning_rate": 8e-05,
      "loss": 1.7173,
      "step": 239
    },
    {
      "epoch": 0.08759124087591241,
      "grad_norm": 0.6353443264961243,
      "learning_rate": 8e-05,
      "loss": 1.653,
      "step": 240
    },
    {
      "epoch": 0.08795620437956204,
      "grad_norm": 0.6174424290657043,
      "learning_rate": 8e-05,
      "loss": 1.6253,
      "step": 241
    },
    {
      "epoch": 0.08832116788321168,
      "grad_norm": 0.6607341766357422,
      "learning_rate": 8e-05,
      "loss": 1.7099,
      "step": 242
    },
    {
      "epoch": 0.08868613138686131,
      "grad_norm": 0.6094650626182556,
      "learning_rate": 8e-05,
      "loss": 1.5388,
      "step": 243
    },
    {
      "epoch": 0.08905109489051095,
      "grad_norm": 0.6532341241836548,
      "learning_rate": 8e-05,
      "loss": 1.7267,
      "step": 244
    },
    {
      "epoch": 0.08941605839416059,
      "grad_norm": 0.6230448484420776,
      "learning_rate": 8e-05,
      "loss": 1.5623,
      "step": 245
    },
    {
      "epoch": 0.08978102189781022,
      "grad_norm": 0.6202890276908875,
      "learning_rate": 8e-05,
      "loss": 1.5903,
      "step": 246
    },
    {
      "epoch": 0.09014598540145985,
      "grad_norm": 0.651771068572998,
      "learning_rate": 8e-05,
      "loss": 1.6275,
      "step": 247
    },
    {
      "epoch": 0.0905109489051095,
      "grad_norm": 0.6170251369476318,
      "learning_rate": 8e-05,
      "loss": 1.5289,
      "step": 248
    },
    {
      "epoch": 0.09087591240875913,
      "grad_norm": 0.6521790623664856,
      "learning_rate": 8e-05,
      "loss": 1.7091,
      "step": 249
    },
    {
      "epoch": 0.09124087591240876,
      "grad_norm": 0.6385735869407654,
      "learning_rate": 8e-05,
      "loss": 1.6472,
      "step": 250
    },
    {
      "epoch": 0.09160583941605839,
      "grad_norm": 0.6756763458251953,
      "learning_rate": 8e-05,
      "loss": 1.6206,
      "step": 251
    },
    {
      "epoch": 0.09197080291970802,
      "grad_norm": 0.6621498465538025,
      "learning_rate": 8e-05,
      "loss": 1.7197,
      "step": 252
    },
    {
      "epoch": 0.09233576642335767,
      "grad_norm": 0.622480571269989,
      "learning_rate": 8e-05,
      "loss": 1.6384,
      "step": 253
    },
    {
      "epoch": 0.0927007299270073,
      "grad_norm": 0.6310390830039978,
      "learning_rate": 8e-05,
      "loss": 1.6171,
      "step": 254
    },
    {
      "epoch": 0.09306569343065693,
      "grad_norm": 0.6505634188652039,
      "learning_rate": 8e-05,
      "loss": 1.6645,
      "step": 255
    },
    {
      "epoch": 0.09343065693430656,
      "grad_norm": 0.6445801854133606,
      "learning_rate": 8e-05,
      "loss": 1.6387,
      "step": 256
    },
    {
      "epoch": 0.09379562043795621,
      "grad_norm": 0.6233002543449402,
      "learning_rate": 8e-05,
      "loss": 1.6904,
      "step": 257
    },
    {
      "epoch": 0.09416058394160584,
      "grad_norm": 0.6381605267524719,
      "learning_rate": 8e-05,
      "loss": 1.6955,
      "step": 258
    },
    {
      "epoch": 0.09452554744525547,
      "grad_norm": 0.624656617641449,
      "learning_rate": 8e-05,
      "loss": 1.6381,
      "step": 259
    },
    {
      "epoch": 0.0948905109489051,
      "grad_norm": 0.6356867551803589,
      "learning_rate": 8e-05,
      "loss": 1.6102,
      "step": 260
    },
    {
      "epoch": 0.09525547445255475,
      "grad_norm": 0.608851969242096,
      "learning_rate": 8e-05,
      "loss": 1.5377,
      "step": 261
    },
    {
      "epoch": 0.09562043795620438,
      "grad_norm": 0.6026848554611206,
      "learning_rate": 8e-05,
      "loss": 1.541,
      "step": 262
    },
    {
      "epoch": 0.09598540145985401,
      "grad_norm": 0.6280433535575867,
      "learning_rate": 8e-05,
      "loss": 1.6439,
      "step": 263
    },
    {
      "epoch": 0.09635036496350365,
      "grad_norm": 0.6536202430725098,
      "learning_rate": 8e-05,
      "loss": 1.6509,
      "step": 264
    },
    {
      "epoch": 0.09671532846715329,
      "grad_norm": 0.620281994342804,
      "learning_rate": 8e-05,
      "loss": 1.5817,
      "step": 265
    },
    {
      "epoch": 0.09708029197080292,
      "grad_norm": 0.631650984287262,
      "learning_rate": 8e-05,
      "loss": 1.6323,
      "step": 266
    },
    {
      "epoch": 0.09744525547445256,
      "grad_norm": 0.6140681505203247,
      "learning_rate": 8e-05,
      "loss": 1.6441,
      "step": 267
    },
    {
      "epoch": 0.09781021897810219,
      "grad_norm": 0.6505481600761414,
      "learning_rate": 8e-05,
      "loss": 1.7509,
      "step": 268
    },
    {
      "epoch": 0.09817518248175182,
      "grad_norm": 0.6185811758041382,
      "learning_rate": 8e-05,
      "loss": 1.6219,
      "step": 269
    },
    {
      "epoch": 0.09854014598540146,
      "grad_norm": 0.6200017333030701,
      "learning_rate": 8e-05,
      "loss": 1.6895,
      "step": 270
    },
    {
      "epoch": 0.0989051094890511,
      "grad_norm": 0.622482419013977,
      "learning_rate": 8e-05,
      "loss": 1.6513,
      "step": 271
    },
    {
      "epoch": 0.09927007299270073,
      "grad_norm": 0.6196774840354919,
      "learning_rate": 8e-05,
      "loss": 1.5561,
      "step": 272
    },
    {
      "epoch": 0.09963503649635036,
      "grad_norm": 0.6650382876396179,
      "learning_rate": 8e-05,
      "loss": 1.6895,
      "step": 273
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6315541863441467,
      "learning_rate": 8e-05,
      "loss": 1.6517,
      "step": 274
    },
    {
      "epoch": 0.10036496350364964,
      "grad_norm": 0.6260400414466858,
      "learning_rate": 8e-05,
      "loss": 1.5416,
      "step": 275
    },
    {
      "epoch": 0.10072992700729927,
      "grad_norm": 0.6422640085220337,
      "learning_rate": 8e-05,
      "loss": 1.6093,
      "step": 276
    },
    {
      "epoch": 0.1010948905109489,
      "grad_norm": 0.6358878016471863,
      "learning_rate": 8e-05,
      "loss": 1.5999,
      "step": 277
    },
    {
      "epoch": 0.10145985401459855,
      "grad_norm": 0.6150726675987244,
      "learning_rate": 8e-05,
      "loss": 1.5424,
      "step": 278
    },
    {
      "epoch": 0.10182481751824818,
      "grad_norm": 0.6041696071624756,
      "learning_rate": 8e-05,
      "loss": 1.53,
      "step": 279
    },
    {
      "epoch": 0.10218978102189781,
      "grad_norm": 0.6387864351272583,
      "learning_rate": 8e-05,
      "loss": 1.5906,
      "step": 280
    },
    {
      "epoch": 0.10255474452554744,
      "grad_norm": 0.6316493153572083,
      "learning_rate": 8e-05,
      "loss": 1.6365,
      "step": 281
    },
    {
      "epoch": 0.10291970802919707,
      "grad_norm": 0.6349657773971558,
      "learning_rate": 8e-05,
      "loss": 1.6453,
      "step": 282
    },
    {
      "epoch": 0.10328467153284672,
      "grad_norm": 0.6238228678703308,
      "learning_rate": 8e-05,
      "loss": 1.6717,
      "step": 283
    },
    {
      "epoch": 0.10364963503649635,
      "grad_norm": 0.671826183795929,
      "learning_rate": 8e-05,
      "loss": 1.6786,
      "step": 284
    },
    {
      "epoch": 0.10401459854014598,
      "grad_norm": 0.6366381645202637,
      "learning_rate": 8e-05,
      "loss": 1.6711,
      "step": 285
    },
    {
      "epoch": 0.10437956204379562,
      "grad_norm": 0.6414408087730408,
      "learning_rate": 8e-05,
      "loss": 1.5918,
      "step": 286
    },
    {
      "epoch": 0.10474452554744526,
      "grad_norm": 0.6279474496841431,
      "learning_rate": 8e-05,
      "loss": 1.6198,
      "step": 287
    },
    {
      "epoch": 0.10510948905109489,
      "grad_norm": 0.6657609939575195,
      "learning_rate": 8e-05,
      "loss": 1.5964,
      "step": 288
    },
    {
      "epoch": 0.10547445255474452,
      "grad_norm": 0.6019155979156494,
      "learning_rate": 8e-05,
      "loss": 1.5942,
      "step": 289
    },
    {
      "epoch": 0.10583941605839416,
      "grad_norm": 0.6148877739906311,
      "learning_rate": 8e-05,
      "loss": 1.6266,
      "step": 290
    },
    {
      "epoch": 0.1062043795620438,
      "grad_norm": 0.6035707592964172,
      "learning_rate": 8e-05,
      "loss": 1.5521,
      "step": 291
    },
    {
      "epoch": 0.10656934306569343,
      "grad_norm": 0.6825292706489563,
      "learning_rate": 8e-05,
      "loss": 1.5944,
      "step": 292
    },
    {
      "epoch": 0.10693430656934307,
      "grad_norm": 0.6301589012145996,
      "learning_rate": 8e-05,
      "loss": 1.668,
      "step": 293
    },
    {
      "epoch": 0.1072992700729927,
      "grad_norm": 0.6341420412063599,
      "learning_rate": 8e-05,
      "loss": 1.6064,
      "step": 294
    },
    {
      "epoch": 0.10766423357664233,
      "grad_norm": 0.6110773086547852,
      "learning_rate": 8e-05,
      "loss": 1.6116,
      "step": 295
    },
    {
      "epoch": 0.10802919708029197,
      "grad_norm": 0.6106324791908264,
      "learning_rate": 8e-05,
      "loss": 1.6076,
      "step": 296
    },
    {
      "epoch": 0.1083941605839416,
      "grad_norm": 0.6353335976600647,
      "learning_rate": 8e-05,
      "loss": 1.6388,
      "step": 297
    },
    {
      "epoch": 0.10875912408759124,
      "grad_norm": 0.6632159352302551,
      "learning_rate": 8e-05,
      "loss": 1.5878,
      "step": 298
    },
    {
      "epoch": 0.10912408759124087,
      "grad_norm": 0.6506302952766418,
      "learning_rate": 8e-05,
      "loss": 1.5859,
      "step": 299
    },
    {
      "epoch": 0.10948905109489052,
      "grad_norm": 0.600811779499054,
      "learning_rate": 8e-05,
      "loss": 1.5457,
      "step": 300
    },
    {
      "epoch": 0.10985401459854015,
      "grad_norm": 0.702666163444519,
      "learning_rate": 8e-05,
      "loss": 1.5642,
      "step": 301
    },
    {
      "epoch": 0.11021897810218978,
      "grad_norm": 0.6267770528793335,
      "learning_rate": 8e-05,
      "loss": 1.6169,
      "step": 302
    },
    {
      "epoch": 0.11058394160583941,
      "grad_norm": 0.6897804737091064,
      "learning_rate": 8e-05,
      "loss": 1.6063,
      "step": 303
    },
    {
      "epoch": 0.11094890510948906,
      "grad_norm": 0.6313380002975464,
      "learning_rate": 8e-05,
      "loss": 1.6395,
      "step": 304
    },
    {
      "epoch": 0.11131386861313869,
      "grad_norm": 0.7253849506378174,
      "learning_rate": 8e-05,
      "loss": 1.6651,
      "step": 305
    },
    {
      "epoch": 0.11167883211678832,
      "grad_norm": 0.5965659022331238,
      "learning_rate": 8e-05,
      "loss": 1.5801,
      "step": 306
    },
    {
      "epoch": 0.11204379562043795,
      "grad_norm": 0.6289493441581726,
      "learning_rate": 8e-05,
      "loss": 1.5035,
      "step": 307
    },
    {
      "epoch": 0.11240875912408758,
      "grad_norm": 0.6701014637947083,
      "learning_rate": 8e-05,
      "loss": 1.608,
      "step": 308
    },
    {
      "epoch": 0.11277372262773723,
      "grad_norm": 0.6465508937835693,
      "learning_rate": 8e-05,
      "loss": 1.6734,
      "step": 309
    },
    {
      "epoch": 0.11313868613138686,
      "grad_norm": 0.6966593861579895,
      "learning_rate": 8e-05,
      "loss": 1.6205,
      "step": 310
    },
    {
      "epoch": 0.1135036496350365,
      "grad_norm": 0.6262518763542175,
      "learning_rate": 8e-05,
      "loss": 1.6112,
      "step": 311
    },
    {
      "epoch": 0.11386861313868613,
      "grad_norm": 0.6909772753715515,
      "learning_rate": 8e-05,
      "loss": 1.6371,
      "step": 312
    },
    {
      "epoch": 0.11423357664233577,
      "grad_norm": 0.6119088530540466,
      "learning_rate": 8e-05,
      "loss": 1.6108,
      "step": 313
    },
    {
      "epoch": 0.1145985401459854,
      "grad_norm": 0.6846009492874146,
      "learning_rate": 8e-05,
      "loss": 1.6834,
      "step": 314
    },
    {
      "epoch": 0.11496350364963503,
      "grad_norm": 0.6608924865722656,
      "learning_rate": 8e-05,
      "loss": 1.624,
      "step": 315
    },
    {
      "epoch": 0.11532846715328467,
      "grad_norm": 0.6241572499275208,
      "learning_rate": 8e-05,
      "loss": 1.6904,
      "step": 316
    },
    {
      "epoch": 0.11569343065693431,
      "grad_norm": 0.6315634846687317,
      "learning_rate": 8e-05,
      "loss": 1.6441,
      "step": 317
    },
    {
      "epoch": 0.11605839416058394,
      "grad_norm": 0.6180820465087891,
      "learning_rate": 8e-05,
      "loss": 1.6275,
      "step": 318
    },
    {
      "epoch": 0.11642335766423358,
      "grad_norm": 0.6163382530212402,
      "learning_rate": 8e-05,
      "loss": 1.6063,
      "step": 319
    },
    {
      "epoch": 0.11678832116788321,
      "grad_norm": 0.6144667863845825,
      "learning_rate": 8e-05,
      "loss": 1.5973,
      "step": 320
    },
    {
      "epoch": 0.11715328467153285,
      "grad_norm": 0.6263611316680908,
      "learning_rate": 8e-05,
      "loss": 1.6102,
      "step": 321
    },
    {
      "epoch": 0.11751824817518249,
      "grad_norm": 0.6043473482131958,
      "learning_rate": 8e-05,
      "loss": 1.5872,
      "step": 322
    },
    {
      "epoch": 0.11788321167883212,
      "grad_norm": 0.6040670275688171,
      "learning_rate": 8e-05,
      "loss": 1.6034,
      "step": 323
    },
    {
      "epoch": 0.11824817518248175,
      "grad_norm": 0.614980936050415,
      "learning_rate": 8e-05,
      "loss": 1.5875,
      "step": 324
    },
    {
      "epoch": 0.11861313868613138,
      "grad_norm": 0.6420422792434692,
      "learning_rate": 8e-05,
      "loss": 1.6082,
      "step": 325
    },
    {
      "epoch": 0.11897810218978103,
      "grad_norm": 0.6335554122924805,
      "learning_rate": 8e-05,
      "loss": 1.6525,
      "step": 326
    },
    {
      "epoch": 0.11934306569343066,
      "grad_norm": 0.6446054577827454,
      "learning_rate": 8e-05,
      "loss": 1.5739,
      "step": 327
    },
    {
      "epoch": 0.11970802919708029,
      "grad_norm": 0.6245415806770325,
      "learning_rate": 8e-05,
      "loss": 1.608,
      "step": 328
    },
    {
      "epoch": 0.12007299270072992,
      "grad_norm": 0.6189745664596558,
      "learning_rate": 8e-05,
      "loss": 1.6481,
      "step": 329
    },
    {
      "epoch": 0.12043795620437957,
      "grad_norm": 0.6649148464202881,
      "learning_rate": 8e-05,
      "loss": 1.7502,
      "step": 330
    },
    {
      "epoch": 0.1208029197080292,
      "grad_norm": 0.6597223281860352,
      "learning_rate": 8e-05,
      "loss": 1.6344,
      "step": 331
    },
    {
      "epoch": 0.12116788321167883,
      "grad_norm": 0.6271204352378845,
      "learning_rate": 8e-05,
      "loss": 1.6673,
      "step": 332
    },
    {
      "epoch": 0.12153284671532846,
      "grad_norm": 0.6060802340507507,
      "learning_rate": 8e-05,
      "loss": 1.6206,
      "step": 333
    },
    {
      "epoch": 0.12189781021897811,
      "grad_norm": 0.6123310923576355,
      "learning_rate": 8e-05,
      "loss": 1.6178,
      "step": 334
    },
    {
      "epoch": 0.12226277372262774,
      "grad_norm": 0.6117182970046997,
      "learning_rate": 8e-05,
      "loss": 1.5815,
      "step": 335
    },
    {
      "epoch": 0.12262773722627737,
      "grad_norm": 0.6525097489356995,
      "learning_rate": 8e-05,
      "loss": 1.6942,
      "step": 336
    },
    {
      "epoch": 0.122992700729927,
      "grad_norm": 0.6177133917808533,
      "learning_rate": 8e-05,
      "loss": 1.6303,
      "step": 337
    },
    {
      "epoch": 0.12335766423357664,
      "grad_norm": 0.6393028497695923,
      "learning_rate": 8e-05,
      "loss": 1.6252,
      "step": 338
    },
    {
      "epoch": 0.12372262773722628,
      "grad_norm": 0.6208003759384155,
      "learning_rate": 8e-05,
      "loss": 1.6248,
      "step": 339
    },
    {
      "epoch": 0.12408759124087591,
      "grad_norm": 0.6228482127189636,
      "learning_rate": 8e-05,
      "loss": 1.6283,
      "step": 340
    },
    {
      "epoch": 0.12445255474452555,
      "grad_norm": 0.6148622632026672,
      "learning_rate": 8e-05,
      "loss": 1.5731,
      "step": 341
    },
    {
      "epoch": 0.12481751824817518,
      "grad_norm": 0.6350805163383484,
      "learning_rate": 8e-05,
      "loss": 1.611,
      "step": 342
    },
    {
      "epoch": 0.1251824817518248,
      "grad_norm": 0.6386997699737549,
      "learning_rate": 8e-05,
      "loss": 1.6977,
      "step": 343
    },
    {
      "epoch": 0.12554744525547445,
      "grad_norm": 0.6122142672538757,
      "learning_rate": 8e-05,
      "loss": 1.6049,
      "step": 344
    },
    {
      "epoch": 0.1259124087591241,
      "grad_norm": 0.6122294664382935,
      "learning_rate": 8e-05,
      "loss": 1.5635,
      "step": 345
    },
    {
      "epoch": 0.12627737226277372,
      "grad_norm": 0.6132088899612427,
      "learning_rate": 8e-05,
      "loss": 1.5695,
      "step": 346
    },
    {
      "epoch": 0.12664233576642336,
      "grad_norm": 0.6070085167884827,
      "learning_rate": 8e-05,
      "loss": 1.5457,
      "step": 347
    },
    {
      "epoch": 0.12700729927007298,
      "grad_norm": 0.6257374286651611,
      "learning_rate": 8e-05,
      "loss": 1.6851,
      "step": 348
    },
    {
      "epoch": 0.12737226277372263,
      "grad_norm": 0.6471158862113953,
      "learning_rate": 8e-05,
      "loss": 1.6492,
      "step": 349
    },
    {
      "epoch": 0.12773722627737227,
      "grad_norm": 0.5995076298713684,
      "learning_rate": 8e-05,
      "loss": 1.5701,
      "step": 350
    },
    {
      "epoch": 0.1281021897810219,
      "grad_norm": 0.6569874286651611,
      "learning_rate": 8e-05,
      "loss": 1.6537,
      "step": 351
    },
    {
      "epoch": 0.12846715328467154,
      "grad_norm": 0.6068136692047119,
      "learning_rate": 8e-05,
      "loss": 1.631,
      "step": 352
    },
    {
      "epoch": 0.12883211678832115,
      "grad_norm": 0.7123441100120544,
      "learning_rate": 8e-05,
      "loss": 1.699,
      "step": 353
    },
    {
      "epoch": 0.1291970802919708,
      "grad_norm": 0.6073919534683228,
      "learning_rate": 8e-05,
      "loss": 1.6774,
      "step": 354
    },
    {
      "epoch": 0.12956204379562045,
      "grad_norm": 0.6768943667411804,
      "learning_rate": 8e-05,
      "loss": 1.6414,
      "step": 355
    },
    {
      "epoch": 0.12992700729927006,
      "grad_norm": 0.6284378170967102,
      "learning_rate": 8e-05,
      "loss": 1.6502,
      "step": 356
    },
    {
      "epoch": 0.1302919708029197,
      "grad_norm": 0.6810981035232544,
      "learning_rate": 8e-05,
      "loss": 1.6243,
      "step": 357
    },
    {
      "epoch": 0.13065693430656936,
      "grad_norm": 0.6195067167282104,
      "learning_rate": 8e-05,
      "loss": 1.6654,
      "step": 358
    },
    {
      "epoch": 0.13102189781021897,
      "grad_norm": 0.6020744442939758,
      "learning_rate": 8e-05,
      "loss": 1.5469,
      "step": 359
    },
    {
      "epoch": 0.13138686131386862,
      "grad_norm": 0.6203738451004028,
      "learning_rate": 8e-05,
      "loss": 1.6429,
      "step": 360
    },
    {
      "epoch": 0.13175182481751824,
      "grad_norm": 0.6311780214309692,
      "learning_rate": 8e-05,
      "loss": 1.5855,
      "step": 361
    },
    {
      "epoch": 0.13211678832116788,
      "grad_norm": 0.6562264561653137,
      "learning_rate": 8e-05,
      "loss": 1.5833,
      "step": 362
    },
    {
      "epoch": 0.13248175182481753,
      "grad_norm": 0.6286695599555969,
      "learning_rate": 8e-05,
      "loss": 1.6504,
      "step": 363
    },
    {
      "epoch": 0.13284671532846715,
      "grad_norm": 0.681016206741333,
      "learning_rate": 8e-05,
      "loss": 1.6521,
      "step": 364
    },
    {
      "epoch": 0.1332116788321168,
      "grad_norm": 0.652049720287323,
      "learning_rate": 8e-05,
      "loss": 1.6518,
      "step": 365
    },
    {
      "epoch": 0.1335766423357664,
      "grad_norm": 0.6333022713661194,
      "learning_rate": 8e-05,
      "loss": 1.5973,
      "step": 366
    },
    {
      "epoch": 0.13394160583941606,
      "grad_norm": 0.67120361328125,
      "learning_rate": 8e-05,
      "loss": 1.5984,
      "step": 367
    },
    {
      "epoch": 0.1343065693430657,
      "grad_norm": 0.6523950099945068,
      "learning_rate": 8e-05,
      "loss": 1.5356,
      "step": 368
    },
    {
      "epoch": 0.13467153284671532,
      "grad_norm": 0.6201428771018982,
      "learning_rate": 8e-05,
      "loss": 1.5935,
      "step": 369
    },
    {
      "epoch": 0.13503649635036497,
      "grad_norm": 0.6215484142303467,
      "learning_rate": 8e-05,
      "loss": 1.5986,
      "step": 370
    },
    {
      "epoch": 0.1354014598540146,
      "grad_norm": 0.5897494554519653,
      "learning_rate": 8e-05,
      "loss": 1.5658,
      "step": 371
    },
    {
      "epoch": 0.13576642335766423,
      "grad_norm": 0.616481602191925,
      "learning_rate": 8e-05,
      "loss": 1.5861,
      "step": 372
    },
    {
      "epoch": 0.13613138686131387,
      "grad_norm": 0.6243799924850464,
      "learning_rate": 8e-05,
      "loss": 1.6071,
      "step": 373
    },
    {
      "epoch": 0.1364963503649635,
      "grad_norm": 0.6302311420440674,
      "learning_rate": 8e-05,
      "loss": 1.5817,
      "step": 374
    },
    {
      "epoch": 0.13686131386861314,
      "grad_norm": 0.657459557056427,
      "learning_rate": 8e-05,
      "loss": 1.6888,
      "step": 375
    },
    {
      "epoch": 0.13722627737226278,
      "grad_norm": 0.6227499842643738,
      "learning_rate": 8e-05,
      "loss": 1.6274,
      "step": 376
    },
    {
      "epoch": 0.1375912408759124,
      "grad_norm": 0.6392509341239929,
      "learning_rate": 8e-05,
      "loss": 1.6565,
      "step": 377
    },
    {
      "epoch": 0.13795620437956205,
      "grad_norm": 0.6171085834503174,
      "learning_rate": 8e-05,
      "loss": 1.5847,
      "step": 378
    },
    {
      "epoch": 0.13832116788321167,
      "grad_norm": 0.6336619853973389,
      "learning_rate": 8e-05,
      "loss": 1.6976,
      "step": 379
    },
    {
      "epoch": 0.1386861313868613,
      "grad_norm": 0.628103494644165,
      "learning_rate": 8e-05,
      "loss": 1.6429,
      "step": 380
    },
    {
      "epoch": 0.13905109489051096,
      "grad_norm": 0.6304721236228943,
      "learning_rate": 8e-05,
      "loss": 1.7122,
      "step": 381
    },
    {
      "epoch": 0.13941605839416057,
      "grad_norm": 0.6278856992721558,
      "learning_rate": 8e-05,
      "loss": 1.6397,
      "step": 382
    },
    {
      "epoch": 0.13978102189781022,
      "grad_norm": 0.5994208455085754,
      "learning_rate": 8e-05,
      "loss": 1.578,
      "step": 383
    },
    {
      "epoch": 0.14014598540145987,
      "grad_norm": 0.6393764019012451,
      "learning_rate": 8e-05,
      "loss": 1.6049,
      "step": 384
    },
    {
      "epoch": 0.14051094890510948,
      "grad_norm": 0.622341513633728,
      "learning_rate": 8e-05,
      "loss": 1.6278,
      "step": 385
    },
    {
      "epoch": 0.14087591240875913,
      "grad_norm": 0.6353549957275391,
      "learning_rate": 8e-05,
      "loss": 1.6757,
      "step": 386
    },
    {
      "epoch": 0.14124087591240875,
      "grad_norm": 0.6253948211669922,
      "learning_rate": 8e-05,
      "loss": 1.6921,
      "step": 387
    },
    {
      "epoch": 0.1416058394160584,
      "grad_norm": 0.5945229530334473,
      "learning_rate": 8e-05,
      "loss": 1.5624,
      "step": 388
    },
    {
      "epoch": 0.14197080291970804,
      "grad_norm": 0.5772634744644165,
      "learning_rate": 8e-05,
      "loss": 1.5423,
      "step": 389
    },
    {
      "epoch": 0.14233576642335766,
      "grad_norm": 0.6072608232498169,
      "learning_rate": 8e-05,
      "loss": 1.6618,
      "step": 390
    },
    {
      "epoch": 0.1427007299270073,
      "grad_norm": 0.6154332756996155,
      "learning_rate": 8e-05,
      "loss": 1.6789,
      "step": 391
    },
    {
      "epoch": 0.14306569343065692,
      "grad_norm": 0.6410001516342163,
      "learning_rate": 8e-05,
      "loss": 1.5825,
      "step": 392
    },
    {
      "epoch": 0.14343065693430657,
      "grad_norm": 0.6370618939399719,
      "learning_rate": 8e-05,
      "loss": 1.6029,
      "step": 393
    },
    {
      "epoch": 0.1437956204379562,
      "grad_norm": 0.650510847568512,
      "learning_rate": 8e-05,
      "loss": 1.6526,
      "step": 394
    },
    {
      "epoch": 0.14416058394160583,
      "grad_norm": 0.6077179908752441,
      "learning_rate": 8e-05,
      "loss": 1.5744,
      "step": 395
    },
    {
      "epoch": 0.14452554744525548,
      "grad_norm": 0.6556932926177979,
      "learning_rate": 8e-05,
      "loss": 1.6317,
      "step": 396
    },
    {
      "epoch": 0.14489051094890512,
      "grad_norm": 0.6073722839355469,
      "learning_rate": 8e-05,
      "loss": 1.6514,
      "step": 397
    },
    {
      "epoch": 0.14525547445255474,
      "grad_norm": 0.6370749473571777,
      "learning_rate": 8e-05,
      "loss": 1.6462,
      "step": 398
    },
    {
      "epoch": 0.14562043795620438,
      "grad_norm": 0.6783742904663086,
      "learning_rate": 8e-05,
      "loss": 1.7099,
      "step": 399
    },
    {
      "epoch": 0.145985401459854,
      "grad_norm": 0.6184645891189575,
      "learning_rate": 8e-05,
      "loss": 1.612,
      "step": 400
    },
    {
      "epoch": 0.14635036496350365,
      "grad_norm": 0.6400229930877686,
      "learning_rate": 8e-05,
      "loss": 1.6872,
      "step": 401
    },
    {
      "epoch": 0.1467153284671533,
      "grad_norm": 0.611893892288208,
      "learning_rate": 8e-05,
      "loss": 1.626,
      "step": 402
    },
    {
      "epoch": 0.1470802919708029,
      "grad_norm": 0.5994294881820679,
      "learning_rate": 8e-05,
      "loss": 1.6135,
      "step": 403
    },
    {
      "epoch": 0.14744525547445256,
      "grad_norm": 0.6018736362457275,
      "learning_rate": 8e-05,
      "loss": 1.5945,
      "step": 404
    },
    {
      "epoch": 0.1478102189781022,
      "grad_norm": 0.6539840698242188,
      "learning_rate": 8e-05,
      "loss": 1.5846,
      "step": 405
    },
    {
      "epoch": 0.14817518248175182,
      "grad_norm": 0.6192499399185181,
      "learning_rate": 8e-05,
      "loss": 1.5743,
      "step": 406
    },
    {
      "epoch": 0.14854014598540147,
      "grad_norm": 0.6083315014839172,
      "learning_rate": 8e-05,
      "loss": 1.6345,
      "step": 407
    },
    {
      "epoch": 0.14890510948905109,
      "grad_norm": 0.5921895503997803,
      "learning_rate": 8e-05,
      "loss": 1.614,
      "step": 408
    },
    {
      "epoch": 0.14927007299270073,
      "grad_norm": 0.6070868372917175,
      "learning_rate": 8e-05,
      "loss": 1.6349,
      "step": 409
    },
    {
      "epoch": 0.14963503649635038,
      "grad_norm": 0.6932522058486938,
      "learning_rate": 8e-05,
      "loss": 1.6184,
      "step": 410
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6103781461715698,
      "learning_rate": 8e-05,
      "loss": 1.6208,
      "step": 411
    },
    {
      "epoch": 0.15036496350364964,
      "grad_norm": 0.6123867630958557,
      "learning_rate": 8e-05,
      "loss": 1.5815,
      "step": 412
    },
    {
      "epoch": 0.15072992700729926,
      "grad_norm": 0.6415606737136841,
      "learning_rate": 8e-05,
      "loss": 1.6108,
      "step": 413
    },
    {
      "epoch": 0.1510948905109489,
      "grad_norm": 0.6378232836723328,
      "learning_rate": 8e-05,
      "loss": 1.5318,
      "step": 414
    },
    {
      "epoch": 0.15145985401459855,
      "grad_norm": 0.5866665244102478,
      "learning_rate": 8e-05,
      "loss": 1.5484,
      "step": 415
    },
    {
      "epoch": 0.15182481751824817,
      "grad_norm": 0.6211596727371216,
      "learning_rate": 8e-05,
      "loss": 1.5857,
      "step": 416
    },
    {
      "epoch": 0.1521897810218978,
      "grad_norm": 0.6051551699638367,
      "learning_rate": 8e-05,
      "loss": 1.5796,
      "step": 417
    },
    {
      "epoch": 0.15255474452554746,
      "grad_norm": 0.6562758684158325,
      "learning_rate": 8e-05,
      "loss": 1.6017,
      "step": 418
    },
    {
      "epoch": 0.15291970802919708,
      "grad_norm": 0.6010958552360535,
      "learning_rate": 8e-05,
      "loss": 1.5997,
      "step": 419
    },
    {
      "epoch": 0.15328467153284672,
      "grad_norm": 0.6155215501785278,
      "learning_rate": 8e-05,
      "loss": 1.5922,
      "step": 420
    },
    {
      "epoch": 0.15364963503649634,
      "grad_norm": 0.6435651183128357,
      "learning_rate": 8e-05,
      "loss": 1.5664,
      "step": 421
    },
    {
      "epoch": 0.15401459854014599,
      "grad_norm": 0.6461606621742249,
      "learning_rate": 8e-05,
      "loss": 1.6261,
      "step": 422
    },
    {
      "epoch": 0.15437956204379563,
      "grad_norm": 0.6072033047676086,
      "learning_rate": 8e-05,
      "loss": 1.5885,
      "step": 423
    },
    {
      "epoch": 0.15474452554744525,
      "grad_norm": 0.6193989515304565,
      "learning_rate": 8e-05,
      "loss": 1.6535,
      "step": 424
    },
    {
      "epoch": 0.1551094890510949,
      "grad_norm": 0.622789204120636,
      "learning_rate": 8e-05,
      "loss": 1.6682,
      "step": 425
    },
    {
      "epoch": 0.1554744525547445,
      "grad_norm": 0.5874552130699158,
      "learning_rate": 8e-05,
      "loss": 1.5145,
      "step": 426
    },
    {
      "epoch": 0.15583941605839416,
      "grad_norm": 0.6663163304328918,
      "learning_rate": 8e-05,
      "loss": 1.7489,
      "step": 427
    },
    {
      "epoch": 0.1562043795620438,
      "grad_norm": 0.6143843531608582,
      "learning_rate": 8e-05,
      "loss": 1.5561,
      "step": 428
    },
    {
      "epoch": 0.15656934306569342,
      "grad_norm": 0.6721533536911011,
      "learning_rate": 8e-05,
      "loss": 1.7026,
      "step": 429
    },
    {
      "epoch": 0.15693430656934307,
      "grad_norm": 0.6391461491584778,
      "learning_rate": 8e-05,
      "loss": 1.6217,
      "step": 430
    },
    {
      "epoch": 0.15729927007299271,
      "grad_norm": 0.615268349647522,
      "learning_rate": 8e-05,
      "loss": 1.5697,
      "step": 431
    },
    {
      "epoch": 0.15766423357664233,
      "grad_norm": 0.5803926587104797,
      "learning_rate": 8e-05,
      "loss": 1.5959,
      "step": 432
    },
    {
      "epoch": 0.15802919708029198,
      "grad_norm": 0.6150037050247192,
      "learning_rate": 8e-05,
      "loss": 1.6204,
      "step": 433
    },
    {
      "epoch": 0.1583941605839416,
      "grad_norm": 0.6145291328430176,
      "learning_rate": 8e-05,
      "loss": 1.6217,
      "step": 434
    },
    {
      "epoch": 0.15875912408759124,
      "grad_norm": 0.6219851970672607,
      "learning_rate": 8e-05,
      "loss": 1.645,
      "step": 435
    },
    {
      "epoch": 0.1591240875912409,
      "grad_norm": 0.6150878071784973,
      "learning_rate": 8e-05,
      "loss": 1.6143,
      "step": 436
    },
    {
      "epoch": 0.1594890510948905,
      "grad_norm": 0.616407573223114,
      "learning_rate": 8e-05,
      "loss": 1.6657,
      "step": 437
    },
    {
      "epoch": 0.15985401459854015,
      "grad_norm": 0.6454294919967651,
      "learning_rate": 8e-05,
      "loss": 1.6959,
      "step": 438
    },
    {
      "epoch": 0.16021897810218977,
      "grad_norm": 0.6229973435401917,
      "learning_rate": 8e-05,
      "loss": 1.5853,
      "step": 439
    },
    {
      "epoch": 0.16058394160583941,
      "grad_norm": 0.6172107458114624,
      "learning_rate": 8e-05,
      "loss": 1.5571,
      "step": 440
    },
    {
      "epoch": 0.16094890510948906,
      "grad_norm": 0.7174633145332336,
      "learning_rate": 8e-05,
      "loss": 1.5916,
      "step": 441
    },
    {
      "epoch": 0.16131386861313868,
      "grad_norm": 0.6095693707466125,
      "learning_rate": 8e-05,
      "loss": 1.5501,
      "step": 442
    },
    {
      "epoch": 0.16167883211678832,
      "grad_norm": 0.6426447033882141,
      "learning_rate": 8e-05,
      "loss": 1.6727,
      "step": 443
    },
    {
      "epoch": 0.16204379562043797,
      "grad_norm": 0.6033896207809448,
      "learning_rate": 8e-05,
      "loss": 1.6136,
      "step": 444
    },
    {
      "epoch": 0.1624087591240876,
      "grad_norm": 0.6124663352966309,
      "learning_rate": 8e-05,
      "loss": 1.623,
      "step": 445
    },
    {
      "epoch": 0.16277372262773723,
      "grad_norm": 0.6304082274436951,
      "learning_rate": 8e-05,
      "loss": 1.6567,
      "step": 446
    },
    {
      "epoch": 0.16313868613138685,
      "grad_norm": 0.6334920525550842,
      "learning_rate": 8e-05,
      "loss": 1.6507,
      "step": 447
    },
    {
      "epoch": 0.1635036496350365,
      "grad_norm": 0.6134397387504578,
      "learning_rate": 8e-05,
      "loss": 1.628,
      "step": 448
    },
    {
      "epoch": 0.16386861313868614,
      "grad_norm": 0.6281394958496094,
      "learning_rate": 8e-05,
      "loss": 1.6048,
      "step": 449
    },
    {
      "epoch": 0.16423357664233576,
      "grad_norm": 0.6099129319190979,
      "learning_rate": 8e-05,
      "loss": 1.589,
      "step": 450
    },
    {
      "epoch": 0.1645985401459854,
      "grad_norm": 0.6239578127861023,
      "learning_rate": 8e-05,
      "loss": 1.5653,
      "step": 451
    },
    {
      "epoch": 0.16496350364963502,
      "grad_norm": 0.6120806336402893,
      "learning_rate": 8e-05,
      "loss": 1.6107,
      "step": 452
    },
    {
      "epoch": 0.16532846715328467,
      "grad_norm": 0.6209267973899841,
      "learning_rate": 8e-05,
      "loss": 1.6458,
      "step": 453
    },
    {
      "epoch": 0.16569343065693432,
      "grad_norm": 0.6181119084358215,
      "learning_rate": 8e-05,
      "loss": 1.6446,
      "step": 454
    },
    {
      "epoch": 0.16605839416058393,
      "grad_norm": 0.6090758442878723,
      "learning_rate": 8e-05,
      "loss": 1.5842,
      "step": 455
    },
    {
      "epoch": 0.16642335766423358,
      "grad_norm": 0.6180310845375061,
      "learning_rate": 8e-05,
      "loss": 1.6201,
      "step": 456
    },
    {
      "epoch": 0.16678832116788322,
      "grad_norm": 0.6019872426986694,
      "learning_rate": 8e-05,
      "loss": 1.5977,
      "step": 457
    },
    {
      "epoch": 0.16715328467153284,
      "grad_norm": 0.6066111326217651,
      "learning_rate": 8e-05,
      "loss": 1.6151,
      "step": 458
    },
    {
      "epoch": 0.1675182481751825,
      "grad_norm": 0.6302586793899536,
      "learning_rate": 8e-05,
      "loss": 1.641,
      "step": 459
    },
    {
      "epoch": 0.1678832116788321,
      "grad_norm": 0.6043087840080261,
      "learning_rate": 8e-05,
      "loss": 1.619,
      "step": 460
    },
    {
      "epoch": 0.16824817518248175,
      "grad_norm": 0.5918612480163574,
      "learning_rate": 8e-05,
      "loss": 1.5178,
      "step": 461
    },
    {
      "epoch": 0.1686131386861314,
      "grad_norm": 0.5967350006103516,
      "learning_rate": 8e-05,
      "loss": 1.6165,
      "step": 462
    },
    {
      "epoch": 0.16897810218978102,
      "grad_norm": 0.608820915222168,
      "learning_rate": 8e-05,
      "loss": 1.5899,
      "step": 463
    },
    {
      "epoch": 0.16934306569343066,
      "grad_norm": 0.6299608945846558,
      "learning_rate": 8e-05,
      "loss": 1.7074,
      "step": 464
    },
    {
      "epoch": 0.16970802919708028,
      "grad_norm": 0.602477490901947,
      "learning_rate": 8e-05,
      "loss": 1.6064,
      "step": 465
    },
    {
      "epoch": 0.17007299270072992,
      "grad_norm": 0.6347851753234863,
      "learning_rate": 8e-05,
      "loss": 1.6373,
      "step": 466
    },
    {
      "epoch": 0.17043795620437957,
      "grad_norm": 0.627210795879364,
      "learning_rate": 8e-05,
      "loss": 1.594,
      "step": 467
    },
    {
      "epoch": 0.1708029197080292,
      "grad_norm": 0.5943658947944641,
      "learning_rate": 8e-05,
      "loss": 1.6108,
      "step": 468
    },
    {
      "epoch": 0.17116788321167883,
      "grad_norm": 0.6042723059654236,
      "learning_rate": 8e-05,
      "loss": 1.5808,
      "step": 469
    },
    {
      "epoch": 0.17153284671532848,
      "grad_norm": 0.6259336471557617,
      "learning_rate": 8e-05,
      "loss": 1.6444,
      "step": 470
    },
    {
      "epoch": 0.1718978102189781,
      "grad_norm": 0.5812632441520691,
      "learning_rate": 8e-05,
      "loss": 1.6085,
      "step": 471
    },
    {
      "epoch": 0.17226277372262774,
      "grad_norm": 0.6172168254852295,
      "learning_rate": 8e-05,
      "loss": 1.6025,
      "step": 472
    },
    {
      "epoch": 0.17262773722627736,
      "grad_norm": 0.6066275835037231,
      "learning_rate": 8e-05,
      "loss": 1.5409,
      "step": 473
    },
    {
      "epoch": 0.172992700729927,
      "grad_norm": 0.620639443397522,
      "learning_rate": 8e-05,
      "loss": 1.6352,
      "step": 474
    },
    {
      "epoch": 0.17335766423357665,
      "grad_norm": 0.615976095199585,
      "learning_rate": 8e-05,
      "loss": 1.5321,
      "step": 475
    },
    {
      "epoch": 0.17372262773722627,
      "grad_norm": 0.6108143329620361,
      "learning_rate": 8e-05,
      "loss": 1.5923,
      "step": 476
    },
    {
      "epoch": 0.17408759124087592,
      "grad_norm": 0.6311357617378235,
      "learning_rate": 8e-05,
      "loss": 1.6899,
      "step": 477
    },
    {
      "epoch": 0.17445255474452553,
      "grad_norm": 0.6199345588684082,
      "learning_rate": 8e-05,
      "loss": 1.6222,
      "step": 478
    },
    {
      "epoch": 0.17481751824817518,
      "grad_norm": 0.6022388339042664,
      "learning_rate": 8e-05,
      "loss": 1.5882,
      "step": 479
    },
    {
      "epoch": 0.17518248175182483,
      "grad_norm": 0.6146004796028137,
      "learning_rate": 8e-05,
      "loss": 1.7026,
      "step": 480
    },
    {
      "epoch": 0.17554744525547444,
      "grad_norm": 0.6003656983375549,
      "learning_rate": 8e-05,
      "loss": 1.5624,
      "step": 481
    },
    {
      "epoch": 0.1759124087591241,
      "grad_norm": 0.6092556715011597,
      "learning_rate": 8e-05,
      "loss": 1.5606,
      "step": 482
    },
    {
      "epoch": 0.17627737226277373,
      "grad_norm": 0.6252051591873169,
      "learning_rate": 8e-05,
      "loss": 1.6248,
      "step": 483
    },
    {
      "epoch": 0.17664233576642335,
      "grad_norm": 0.6240931749343872,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 484
    },
    {
      "epoch": 0.177007299270073,
      "grad_norm": 0.6112430691719055,
      "learning_rate": 8e-05,
      "loss": 1.5683,
      "step": 485
    },
    {
      "epoch": 0.17737226277372262,
      "grad_norm": 0.623285710811615,
      "learning_rate": 8e-05,
      "loss": 1.5416,
      "step": 486
    },
    {
      "epoch": 0.17773722627737226,
      "grad_norm": 0.6008427739143372,
      "learning_rate": 8e-05,
      "loss": 1.5599,
      "step": 487
    },
    {
      "epoch": 0.1781021897810219,
      "grad_norm": 0.6217114329338074,
      "learning_rate": 8e-05,
      "loss": 1.562,
      "step": 488
    },
    {
      "epoch": 0.17846715328467153,
      "grad_norm": 0.613791286945343,
      "learning_rate": 8e-05,
      "loss": 1.5784,
      "step": 489
    },
    {
      "epoch": 0.17883211678832117,
      "grad_norm": 0.6218165159225464,
      "learning_rate": 8e-05,
      "loss": 1.6401,
      "step": 490
    },
    {
      "epoch": 0.1791970802919708,
      "grad_norm": 0.6162655353546143,
      "learning_rate": 8e-05,
      "loss": 1.621,
      "step": 491
    },
    {
      "epoch": 0.17956204379562044,
      "grad_norm": 0.5818371772766113,
      "learning_rate": 8e-05,
      "loss": 1.5693,
      "step": 492
    },
    {
      "epoch": 0.17992700729927008,
      "grad_norm": 0.6167834997177124,
      "learning_rate": 8e-05,
      "loss": 1.6093,
      "step": 493
    },
    {
      "epoch": 0.1802919708029197,
      "grad_norm": 0.6250003576278687,
      "learning_rate": 8e-05,
      "loss": 1.5998,
      "step": 494
    },
    {
      "epoch": 0.18065693430656934,
      "grad_norm": 0.6338167190551758,
      "learning_rate": 8e-05,
      "loss": 1.6768,
      "step": 495
    },
    {
      "epoch": 0.181021897810219,
      "grad_norm": 0.6030895113945007,
      "learning_rate": 8e-05,
      "loss": 1.5684,
      "step": 496
    },
    {
      "epoch": 0.1813868613138686,
      "grad_norm": 0.6260823011398315,
      "learning_rate": 8e-05,
      "loss": 1.5678,
      "step": 497
    },
    {
      "epoch": 0.18175182481751825,
      "grad_norm": 0.6077097058296204,
      "learning_rate": 8e-05,
      "loss": 1.6047,
      "step": 498
    },
    {
      "epoch": 0.18211678832116787,
      "grad_norm": 0.6088866591453552,
      "learning_rate": 8e-05,
      "loss": 1.614,
      "step": 499
    },
    {
      "epoch": 0.18248175182481752,
      "grad_norm": 0.6106902956962585,
      "learning_rate": 8e-05,
      "loss": 1.5894,
      "step": 500
    },
    {
      "epoch": 0.18284671532846716,
      "grad_norm": 0.6147418022155762,
      "learning_rate": 8e-05,
      "loss": 1.5749,
      "step": 501
    },
    {
      "epoch": 0.18321167883211678,
      "grad_norm": 0.6595520973205566,
      "learning_rate": 8e-05,
      "loss": 1.5877,
      "step": 502
    },
    {
      "epoch": 0.18357664233576643,
      "grad_norm": 0.6073600649833679,
      "learning_rate": 8e-05,
      "loss": 1.5507,
      "step": 503
    },
    {
      "epoch": 0.18394160583941604,
      "grad_norm": 0.6168714761734009,
      "learning_rate": 8e-05,
      "loss": 1.5187,
      "step": 504
    },
    {
      "epoch": 0.1843065693430657,
      "grad_norm": 0.6257265210151672,
      "learning_rate": 8e-05,
      "loss": 1.53,
      "step": 505
    },
    {
      "epoch": 0.18467153284671534,
      "grad_norm": 0.640740156173706,
      "learning_rate": 8e-05,
      "loss": 1.6087,
      "step": 506
    },
    {
      "epoch": 0.18503649635036495,
      "grad_norm": 0.6123918294906616,
      "learning_rate": 8e-05,
      "loss": 1.5347,
      "step": 507
    },
    {
      "epoch": 0.1854014598540146,
      "grad_norm": 0.6114845275878906,
      "learning_rate": 8e-05,
      "loss": 1.5391,
      "step": 508
    },
    {
      "epoch": 0.18576642335766425,
      "grad_norm": 0.6236617565155029,
      "learning_rate": 8e-05,
      "loss": 1.6307,
      "step": 509
    },
    {
      "epoch": 0.18613138686131386,
      "grad_norm": 0.5928881168365479,
      "learning_rate": 8e-05,
      "loss": 1.578,
      "step": 510
    },
    {
      "epoch": 0.1864963503649635,
      "grad_norm": 0.640810489654541,
      "learning_rate": 8e-05,
      "loss": 1.6202,
      "step": 511
    },
    {
      "epoch": 0.18686131386861313,
      "grad_norm": 0.5936881303787231,
      "learning_rate": 8e-05,
      "loss": 1.576,
      "step": 512
    },
    {
      "epoch": 0.18722627737226277,
      "grad_norm": 0.5771345496177673,
      "learning_rate": 8e-05,
      "loss": 1.4836,
      "step": 513
    },
    {
      "epoch": 0.18759124087591242,
      "grad_norm": 0.6237539052963257,
      "learning_rate": 8e-05,
      "loss": 1.6155,
      "step": 514
    },
    {
      "epoch": 0.18795620437956204,
      "grad_norm": 0.6185948252677917,
      "learning_rate": 8e-05,
      "loss": 1.6103,
      "step": 515
    },
    {
      "epoch": 0.18832116788321168,
      "grad_norm": 0.6136265993118286,
      "learning_rate": 8e-05,
      "loss": 1.7301,
      "step": 516
    },
    {
      "epoch": 0.18868613138686133,
      "grad_norm": 0.6267534494400024,
      "learning_rate": 8e-05,
      "loss": 1.5869,
      "step": 517
    },
    {
      "epoch": 0.18905109489051095,
      "grad_norm": 0.614013671875,
      "learning_rate": 8e-05,
      "loss": 1.5894,
      "step": 518
    },
    {
      "epoch": 0.1894160583941606,
      "grad_norm": 0.5922016501426697,
      "learning_rate": 8e-05,
      "loss": 1.5168,
      "step": 519
    },
    {
      "epoch": 0.1897810218978102,
      "grad_norm": 0.603646993637085,
      "learning_rate": 8e-05,
      "loss": 1.6678,
      "step": 520
    },
    {
      "epoch": 0.19014598540145985,
      "grad_norm": 0.6135773062705994,
      "learning_rate": 8e-05,
      "loss": 1.5299,
      "step": 521
    },
    {
      "epoch": 0.1905109489051095,
      "grad_norm": 0.606368362903595,
      "learning_rate": 8e-05,
      "loss": 1.573,
      "step": 522
    },
    {
      "epoch": 0.19087591240875912,
      "grad_norm": 0.6213390231132507,
      "learning_rate": 8e-05,
      "loss": 1.6908,
      "step": 523
    },
    {
      "epoch": 0.19124087591240876,
      "grad_norm": 0.605473518371582,
      "learning_rate": 8e-05,
      "loss": 1.5667,
      "step": 524
    },
    {
      "epoch": 0.19160583941605838,
      "grad_norm": 0.6128372550010681,
      "learning_rate": 8e-05,
      "loss": 1.5834,
      "step": 525
    },
    {
      "epoch": 0.19197080291970803,
      "grad_norm": 0.5903549790382385,
      "learning_rate": 8e-05,
      "loss": 1.5506,
      "step": 526
    },
    {
      "epoch": 0.19233576642335767,
      "grad_norm": 0.6264174580574036,
      "learning_rate": 8e-05,
      "loss": 1.6052,
      "step": 527
    },
    {
      "epoch": 0.1927007299270073,
      "grad_norm": 0.6133496761322021,
      "learning_rate": 8e-05,
      "loss": 1.6129,
      "step": 528
    },
    {
      "epoch": 0.19306569343065694,
      "grad_norm": 0.6055285334587097,
      "learning_rate": 8e-05,
      "loss": 1.6553,
      "step": 529
    },
    {
      "epoch": 0.19343065693430658,
      "grad_norm": 0.6150192022323608,
      "learning_rate": 8e-05,
      "loss": 1.5338,
      "step": 530
    },
    {
      "epoch": 0.1937956204379562,
      "grad_norm": 0.6347392201423645,
      "learning_rate": 8e-05,
      "loss": 1.6767,
      "step": 531
    },
    {
      "epoch": 0.19416058394160585,
      "grad_norm": 0.586031973361969,
      "learning_rate": 8e-05,
      "loss": 1.4793,
      "step": 532
    },
    {
      "epoch": 0.19452554744525546,
      "grad_norm": 0.5993373990058899,
      "learning_rate": 8e-05,
      "loss": 1.5478,
      "step": 533
    },
    {
      "epoch": 0.1948905109489051,
      "grad_norm": 0.62563556432724,
      "learning_rate": 8e-05,
      "loss": 1.6429,
      "step": 534
    },
    {
      "epoch": 0.19525547445255476,
      "grad_norm": 0.6178939938545227,
      "learning_rate": 8e-05,
      "loss": 1.6307,
      "step": 535
    },
    {
      "epoch": 0.19562043795620437,
      "grad_norm": 0.6046527624130249,
      "learning_rate": 8e-05,
      "loss": 1.5759,
      "step": 536
    },
    {
      "epoch": 0.19598540145985402,
      "grad_norm": 0.5742802619934082,
      "learning_rate": 8e-05,
      "loss": 1.4908,
      "step": 537
    },
    {
      "epoch": 0.19635036496350364,
      "grad_norm": 0.5900687575340271,
      "learning_rate": 8e-05,
      "loss": 1.5922,
      "step": 538
    },
    {
      "epoch": 0.19671532846715328,
      "grad_norm": 0.6630847454071045,
      "learning_rate": 8e-05,
      "loss": 1.5306,
      "step": 539
    },
    {
      "epoch": 0.19708029197080293,
      "grad_norm": 0.604511559009552,
      "learning_rate": 8e-05,
      "loss": 1.5602,
      "step": 540
    },
    {
      "epoch": 0.19744525547445255,
      "grad_norm": 0.6154153943061829,
      "learning_rate": 8e-05,
      "loss": 1.6086,
      "step": 541
    },
    {
      "epoch": 0.1978102189781022,
      "grad_norm": 0.6030951738357544,
      "learning_rate": 8e-05,
      "loss": 1.6475,
      "step": 542
    },
    {
      "epoch": 0.19817518248175184,
      "grad_norm": 0.5996208786964417,
      "learning_rate": 8e-05,
      "loss": 1.6381,
      "step": 543
    },
    {
      "epoch": 0.19854014598540146,
      "grad_norm": 0.6015557646751404,
      "learning_rate": 8e-05,
      "loss": 1.5506,
      "step": 544
    },
    {
      "epoch": 0.1989051094890511,
      "grad_norm": 0.5920030474662781,
      "learning_rate": 8e-05,
      "loss": 1.5882,
      "step": 545
    },
    {
      "epoch": 0.19927007299270072,
      "grad_norm": 0.6150622963905334,
      "learning_rate": 8e-05,
      "loss": 1.603,
      "step": 546
    },
    {
      "epoch": 0.19963503649635037,
      "grad_norm": 0.6074512004852295,
      "learning_rate": 8e-05,
      "loss": 1.6145,
      "step": 547
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6320226192474365,
      "learning_rate": 8e-05,
      "loss": 1.667,
      "step": 548
    },
    {
      "epoch": 0.20036496350364963,
      "grad_norm": 0.598469078540802,
      "learning_rate": 8e-05,
      "loss": 1.5678,
      "step": 549
    },
    {
      "epoch": 0.20072992700729927,
      "grad_norm": 0.6023786067962646,
      "learning_rate": 8e-05,
      "loss": 1.614,
      "step": 550
    },
    {
      "epoch": 0.2010948905109489,
      "grad_norm": 0.6038962006568909,
      "learning_rate": 8e-05,
      "loss": 1.6133,
      "step": 551
    },
    {
      "epoch": 0.20145985401459854,
      "grad_norm": 0.6042137742042542,
      "learning_rate": 8e-05,
      "loss": 1.5359,
      "step": 552
    },
    {
      "epoch": 0.20182481751824818,
      "grad_norm": 0.6349160075187683,
      "learning_rate": 8e-05,
      "loss": 1.6514,
      "step": 553
    },
    {
      "epoch": 0.2021897810218978,
      "grad_norm": 0.605995237827301,
      "learning_rate": 8e-05,
      "loss": 1.4879,
      "step": 554
    },
    {
      "epoch": 0.20255474452554745,
      "grad_norm": 0.6253756284713745,
      "learning_rate": 8e-05,
      "loss": 1.6392,
      "step": 555
    },
    {
      "epoch": 0.2029197080291971,
      "grad_norm": 0.6267940998077393,
      "learning_rate": 8e-05,
      "loss": 1.6517,
      "step": 556
    },
    {
      "epoch": 0.2032846715328467,
      "grad_norm": 0.6461618542671204,
      "learning_rate": 8e-05,
      "loss": 1.6353,
      "step": 557
    },
    {
      "epoch": 0.20364963503649636,
      "grad_norm": 0.610652506351471,
      "learning_rate": 8e-05,
      "loss": 1.5459,
      "step": 558
    },
    {
      "epoch": 0.20401459854014597,
      "grad_norm": 0.6392088532447815,
      "learning_rate": 8e-05,
      "loss": 1.6584,
      "step": 559
    },
    {
      "epoch": 0.20437956204379562,
      "grad_norm": 0.6394363641738892,
      "learning_rate": 8e-05,
      "loss": 1.6138,
      "step": 560
    },
    {
      "epoch": 0.20474452554744527,
      "grad_norm": 0.6077707409858704,
      "learning_rate": 8e-05,
      "loss": 1.5594,
      "step": 561
    },
    {
      "epoch": 0.20510948905109488,
      "grad_norm": 0.6017831563949585,
      "learning_rate": 8e-05,
      "loss": 1.6084,
      "step": 562
    },
    {
      "epoch": 0.20547445255474453,
      "grad_norm": 0.6229005455970764,
      "learning_rate": 8e-05,
      "loss": 1.5739,
      "step": 563
    },
    {
      "epoch": 0.20583941605839415,
      "grad_norm": 0.6069326400756836,
      "learning_rate": 8e-05,
      "loss": 1.5953,
      "step": 564
    },
    {
      "epoch": 0.2062043795620438,
      "grad_norm": 0.6040338277816772,
      "learning_rate": 8e-05,
      "loss": 1.5992,
      "step": 565
    },
    {
      "epoch": 0.20656934306569344,
      "grad_norm": 0.5934717655181885,
      "learning_rate": 8e-05,
      "loss": 1.5992,
      "step": 566
    },
    {
      "epoch": 0.20693430656934306,
      "grad_norm": 0.6223563551902771,
      "learning_rate": 8e-05,
      "loss": 1.6081,
      "step": 567
    },
    {
      "epoch": 0.2072992700729927,
      "grad_norm": 0.6375260353088379,
      "learning_rate": 8e-05,
      "loss": 1.5853,
      "step": 568
    },
    {
      "epoch": 0.20766423357664235,
      "grad_norm": 0.6140772104263306,
      "learning_rate": 8e-05,
      "loss": 1.5946,
      "step": 569
    },
    {
      "epoch": 0.20802919708029197,
      "grad_norm": 0.6167052388191223,
      "learning_rate": 8e-05,
      "loss": 1.6526,
      "step": 570
    },
    {
      "epoch": 0.2083941605839416,
      "grad_norm": 0.6008254885673523,
      "learning_rate": 8e-05,
      "loss": 1.5948,
      "step": 571
    },
    {
      "epoch": 0.20875912408759123,
      "grad_norm": 0.6118642091751099,
      "learning_rate": 8e-05,
      "loss": 1.5536,
      "step": 572
    },
    {
      "epoch": 0.20912408759124088,
      "grad_norm": 0.6096031665802002,
      "learning_rate": 8e-05,
      "loss": 1.5816,
      "step": 573
    },
    {
      "epoch": 0.20948905109489052,
      "grad_norm": 0.6238550543785095,
      "learning_rate": 8e-05,
      "loss": 1.5931,
      "step": 574
    },
    {
      "epoch": 0.20985401459854014,
      "grad_norm": 0.6149916052818298,
      "learning_rate": 8e-05,
      "loss": 1.6261,
      "step": 575
    },
    {
      "epoch": 0.21021897810218979,
      "grad_norm": 0.6526315212249756,
      "learning_rate": 8e-05,
      "loss": 1.655,
      "step": 576
    },
    {
      "epoch": 0.2105839416058394,
      "grad_norm": 0.6385402679443359,
      "learning_rate": 8e-05,
      "loss": 1.6472,
      "step": 577
    },
    {
      "epoch": 0.21094890510948905,
      "grad_norm": 0.6238519549369812,
      "learning_rate": 8e-05,
      "loss": 1.578,
      "step": 578
    },
    {
      "epoch": 0.2113138686131387,
      "grad_norm": 0.6372228860855103,
      "learning_rate": 8e-05,
      "loss": 1.6669,
      "step": 579
    },
    {
      "epoch": 0.2116788321167883,
      "grad_norm": 0.675440788269043,
      "learning_rate": 8e-05,
      "loss": 1.6444,
      "step": 580
    },
    {
      "epoch": 0.21204379562043796,
      "grad_norm": 0.6099485754966736,
      "learning_rate": 8e-05,
      "loss": 1.6767,
      "step": 581
    },
    {
      "epoch": 0.2124087591240876,
      "grad_norm": 0.633287250995636,
      "learning_rate": 8e-05,
      "loss": 1.5868,
      "step": 582
    },
    {
      "epoch": 0.21277372262773722,
      "grad_norm": 0.6230571866035461,
      "learning_rate": 8e-05,
      "loss": 1.5989,
      "step": 583
    },
    {
      "epoch": 0.21313868613138687,
      "grad_norm": 0.6170853972434998,
      "learning_rate": 8e-05,
      "loss": 1.6605,
      "step": 584
    },
    {
      "epoch": 0.21350364963503649,
      "grad_norm": 0.6328213214874268,
      "learning_rate": 8e-05,
      "loss": 1.6145,
      "step": 585
    },
    {
      "epoch": 0.21386861313868613,
      "grad_norm": 0.6011525988578796,
      "learning_rate": 8e-05,
      "loss": 1.6332,
      "step": 586
    },
    {
      "epoch": 0.21423357664233578,
      "grad_norm": 0.6134057641029358,
      "learning_rate": 8e-05,
      "loss": 1.5511,
      "step": 587
    },
    {
      "epoch": 0.2145985401459854,
      "grad_norm": 0.6054866909980774,
      "learning_rate": 8e-05,
      "loss": 1.6185,
      "step": 588
    },
    {
      "epoch": 0.21496350364963504,
      "grad_norm": 0.6189160943031311,
      "learning_rate": 8e-05,
      "loss": 1.5589,
      "step": 589
    },
    {
      "epoch": 0.21532846715328466,
      "grad_norm": 0.6137053370475769,
      "learning_rate": 8e-05,
      "loss": 1.6678,
      "step": 590
    },
    {
      "epoch": 0.2156934306569343,
      "grad_norm": 0.6019657850265503,
      "learning_rate": 8e-05,
      "loss": 1.5066,
      "step": 591
    },
    {
      "epoch": 0.21605839416058395,
      "grad_norm": 0.6497635245323181,
      "learning_rate": 8e-05,
      "loss": 1.7093,
      "step": 592
    },
    {
      "epoch": 0.21642335766423357,
      "grad_norm": 0.6442257165908813,
      "learning_rate": 8e-05,
      "loss": 1.635,
      "step": 593
    },
    {
      "epoch": 0.2167883211678832,
      "grad_norm": 0.617082953453064,
      "learning_rate": 8e-05,
      "loss": 1.5186,
      "step": 594
    },
    {
      "epoch": 0.21715328467153286,
      "grad_norm": 0.5941625237464905,
      "learning_rate": 8e-05,
      "loss": 1.532,
      "step": 595
    },
    {
      "epoch": 0.21751824817518248,
      "grad_norm": 0.6663591861724854,
      "learning_rate": 8e-05,
      "loss": 1.6391,
      "step": 596
    },
    {
      "epoch": 0.21788321167883212,
      "grad_norm": 0.5964021682739258,
      "learning_rate": 8e-05,
      "loss": 1.6158,
      "step": 597
    },
    {
      "epoch": 0.21824817518248174,
      "grad_norm": 0.6469067931175232,
      "learning_rate": 8e-05,
      "loss": 1.6128,
      "step": 598
    },
    {
      "epoch": 0.2186131386861314,
      "grad_norm": 0.6059297323226929,
      "learning_rate": 8e-05,
      "loss": 1.6045,
      "step": 599
    },
    {
      "epoch": 0.21897810218978103,
      "grad_norm": 0.6406834721565247,
      "learning_rate": 8e-05,
      "loss": 1.5975,
      "step": 600
    },
    {
      "epoch": 0.21934306569343065,
      "grad_norm": 0.6107693910598755,
      "learning_rate": 8e-05,
      "loss": 1.5965,
      "step": 601
    },
    {
      "epoch": 0.2197080291970803,
      "grad_norm": 0.6083742380142212,
      "learning_rate": 8e-05,
      "loss": 1.5307,
      "step": 602
    },
    {
      "epoch": 0.2200729927007299,
      "grad_norm": 0.6358234286308289,
      "learning_rate": 8e-05,
      "loss": 1.6248,
      "step": 603
    },
    {
      "epoch": 0.22043795620437956,
      "grad_norm": 0.5862309336662292,
      "learning_rate": 8e-05,
      "loss": 1.5584,
      "step": 604
    },
    {
      "epoch": 0.2208029197080292,
      "grad_norm": 0.6195722222328186,
      "learning_rate": 8e-05,
      "loss": 1.5773,
      "step": 605
    },
    {
      "epoch": 0.22116788321167882,
      "grad_norm": 0.5848353505134583,
      "learning_rate": 8e-05,
      "loss": 1.5079,
      "step": 606
    },
    {
      "epoch": 0.22153284671532847,
      "grad_norm": 0.6170433759689331,
      "learning_rate": 8e-05,
      "loss": 1.5706,
      "step": 607
    },
    {
      "epoch": 0.22189781021897811,
      "grad_norm": 0.6158694624900818,
      "learning_rate": 8e-05,
      "loss": 1.5717,
      "step": 608
    },
    {
      "epoch": 0.22226277372262773,
      "grad_norm": 0.6140149235725403,
      "learning_rate": 8e-05,
      "loss": 1.6044,
      "step": 609
    },
    {
      "epoch": 0.22262773722627738,
      "grad_norm": 0.5998942255973816,
      "learning_rate": 8e-05,
      "loss": 1.5786,
      "step": 610
    },
    {
      "epoch": 0.222992700729927,
      "grad_norm": 0.7244513034820557,
      "learning_rate": 8e-05,
      "loss": 1.6672,
      "step": 611
    },
    {
      "epoch": 0.22335766423357664,
      "grad_norm": 0.6149236559867859,
      "learning_rate": 8e-05,
      "loss": 1.7032,
      "step": 612
    },
    {
      "epoch": 0.2237226277372263,
      "grad_norm": 0.5968387126922607,
      "learning_rate": 8e-05,
      "loss": 1.517,
      "step": 613
    },
    {
      "epoch": 0.2240875912408759,
      "grad_norm": 0.6111615300178528,
      "learning_rate": 8e-05,
      "loss": 1.6314,
      "step": 614
    },
    {
      "epoch": 0.22445255474452555,
      "grad_norm": 0.6215990781784058,
      "learning_rate": 8e-05,
      "loss": 1.6065,
      "step": 615
    },
    {
      "epoch": 0.22481751824817517,
      "grad_norm": 0.6082116365432739,
      "learning_rate": 8e-05,
      "loss": 1.5651,
      "step": 616
    },
    {
      "epoch": 0.22518248175182481,
      "grad_norm": 0.6063646674156189,
      "learning_rate": 8e-05,
      "loss": 1.5797,
      "step": 617
    },
    {
      "epoch": 0.22554744525547446,
      "grad_norm": 0.6157445311546326,
      "learning_rate": 8e-05,
      "loss": 1.5812,
      "step": 618
    },
    {
      "epoch": 0.22591240875912408,
      "grad_norm": 0.615354061126709,
      "learning_rate": 8e-05,
      "loss": 1.6255,
      "step": 619
    },
    {
      "epoch": 0.22627737226277372,
      "grad_norm": 0.5971057415008545,
      "learning_rate": 8e-05,
      "loss": 1.6143,
      "step": 620
    },
    {
      "epoch": 0.22664233576642337,
      "grad_norm": 0.6092694997787476,
      "learning_rate": 8e-05,
      "loss": 1.6537,
      "step": 621
    },
    {
      "epoch": 0.227007299270073,
      "grad_norm": 0.6144425868988037,
      "learning_rate": 8e-05,
      "loss": 1.6555,
      "step": 622
    },
    {
      "epoch": 0.22737226277372263,
      "grad_norm": 0.596416711807251,
      "learning_rate": 8e-05,
      "loss": 1.5537,
      "step": 623
    },
    {
      "epoch": 0.22773722627737225,
      "grad_norm": 0.6091704964637756,
      "learning_rate": 8e-05,
      "loss": 1.6266,
      "step": 624
    },
    {
      "epoch": 0.2281021897810219,
      "grad_norm": 0.6080746054649353,
      "learning_rate": 8e-05,
      "loss": 1.648,
      "step": 625
    },
    {
      "epoch": 0.22846715328467154,
      "grad_norm": 0.5948590636253357,
      "learning_rate": 8e-05,
      "loss": 1.6088,
      "step": 626
    },
    {
      "epoch": 0.22883211678832116,
      "grad_norm": 0.6012705564498901,
      "learning_rate": 8e-05,
      "loss": 1.5831,
      "step": 627
    },
    {
      "epoch": 0.2291970802919708,
      "grad_norm": 0.5830632448196411,
      "learning_rate": 8e-05,
      "loss": 1.5603,
      "step": 628
    },
    {
      "epoch": 0.22956204379562045,
      "grad_norm": 0.6196452379226685,
      "learning_rate": 8e-05,
      "loss": 1.5981,
      "step": 629
    },
    {
      "epoch": 0.22992700729927007,
      "grad_norm": 0.616394579410553,
      "learning_rate": 8e-05,
      "loss": 1.5595,
      "step": 630
    },
    {
      "epoch": 0.23029197080291972,
      "grad_norm": 0.609446108341217,
      "learning_rate": 8e-05,
      "loss": 1.5846,
      "step": 631
    },
    {
      "epoch": 0.23065693430656933,
      "grad_norm": 0.6026739478111267,
      "learning_rate": 8e-05,
      "loss": 1.5956,
      "step": 632
    },
    {
      "epoch": 0.23102189781021898,
      "grad_norm": 0.6106302738189697,
      "learning_rate": 8e-05,
      "loss": 1.6537,
      "step": 633
    },
    {
      "epoch": 0.23138686131386862,
      "grad_norm": 0.6057499647140503,
      "learning_rate": 8e-05,
      "loss": 1.5076,
      "step": 634
    },
    {
      "epoch": 0.23175182481751824,
      "grad_norm": 0.6084913611412048,
      "learning_rate": 8e-05,
      "loss": 1.5927,
      "step": 635
    },
    {
      "epoch": 0.2321167883211679,
      "grad_norm": 0.6042012572288513,
      "learning_rate": 8e-05,
      "loss": 1.5038,
      "step": 636
    },
    {
      "epoch": 0.2324817518248175,
      "grad_norm": 0.6290398240089417,
      "learning_rate": 8e-05,
      "loss": 1.5826,
      "step": 637
    },
    {
      "epoch": 0.23284671532846715,
      "grad_norm": 0.6065909266471863,
      "learning_rate": 8e-05,
      "loss": 1.5635,
      "step": 638
    },
    {
      "epoch": 0.2332116788321168,
      "grad_norm": 0.606698751449585,
      "learning_rate": 8e-05,
      "loss": 1.577,
      "step": 639
    },
    {
      "epoch": 0.23357664233576642,
      "grad_norm": 0.6173627972602844,
      "learning_rate": 8e-05,
      "loss": 1.5225,
      "step": 640
    },
    {
      "epoch": 0.23394160583941606,
      "grad_norm": 0.6258000731468201,
      "learning_rate": 8e-05,
      "loss": 1.6027,
      "step": 641
    },
    {
      "epoch": 0.2343065693430657,
      "grad_norm": 0.6321356892585754,
      "learning_rate": 8e-05,
      "loss": 1.6422,
      "step": 642
    },
    {
      "epoch": 0.23467153284671532,
      "grad_norm": 0.6040315628051758,
      "learning_rate": 8e-05,
      "loss": 1.5808,
      "step": 643
    },
    {
      "epoch": 0.23503649635036497,
      "grad_norm": 0.6045758724212646,
      "learning_rate": 8e-05,
      "loss": 1.6568,
      "step": 644
    },
    {
      "epoch": 0.2354014598540146,
      "grad_norm": 0.6036428213119507,
      "learning_rate": 8e-05,
      "loss": 1.6193,
      "step": 645
    },
    {
      "epoch": 0.23576642335766423,
      "grad_norm": 0.6145038604736328,
      "learning_rate": 8e-05,
      "loss": 1.6028,
      "step": 646
    },
    {
      "epoch": 0.23613138686131388,
      "grad_norm": 0.5921704173088074,
      "learning_rate": 8e-05,
      "loss": 1.6052,
      "step": 647
    },
    {
      "epoch": 0.2364963503649635,
      "grad_norm": 0.6407354474067688,
      "learning_rate": 8e-05,
      "loss": 1.668,
      "step": 648
    },
    {
      "epoch": 0.23686131386861314,
      "grad_norm": 0.599648654460907,
      "learning_rate": 8e-05,
      "loss": 1.599,
      "step": 649
    },
    {
      "epoch": 0.23722627737226276,
      "grad_norm": 0.5866029858589172,
      "learning_rate": 8e-05,
      "loss": 1.6078,
      "step": 650
    },
    {
      "epoch": 0.2375912408759124,
      "grad_norm": 0.6074286699295044,
      "learning_rate": 8e-05,
      "loss": 1.6429,
      "step": 651
    },
    {
      "epoch": 0.23795620437956205,
      "grad_norm": 0.5951457023620605,
      "learning_rate": 8e-05,
      "loss": 1.5667,
      "step": 652
    },
    {
      "epoch": 0.23832116788321167,
      "grad_norm": 0.637035608291626,
      "learning_rate": 8e-05,
      "loss": 1.6216,
      "step": 653
    },
    {
      "epoch": 0.23868613138686132,
      "grad_norm": 0.631635308265686,
      "learning_rate": 8e-05,
      "loss": 1.6026,
      "step": 654
    },
    {
      "epoch": 0.23905109489051096,
      "grad_norm": 0.6349244713783264,
      "learning_rate": 8e-05,
      "loss": 1.6322,
      "step": 655
    },
    {
      "epoch": 0.23941605839416058,
      "grad_norm": 0.6100748181343079,
      "learning_rate": 8e-05,
      "loss": 1.563,
      "step": 656
    },
    {
      "epoch": 0.23978102189781023,
      "grad_norm": 0.6197222471237183,
      "learning_rate": 8e-05,
      "loss": 1.6026,
      "step": 657
    },
    {
      "epoch": 0.24014598540145984,
      "grad_norm": 0.6041353344917297,
      "learning_rate": 8e-05,
      "loss": 1.6057,
      "step": 658
    },
    {
      "epoch": 0.2405109489051095,
      "grad_norm": 0.61823970079422,
      "learning_rate": 8e-05,
      "loss": 1.5383,
      "step": 659
    },
    {
      "epoch": 0.24087591240875914,
      "grad_norm": 0.6342475414276123,
      "learning_rate": 8e-05,
      "loss": 1.536,
      "step": 660
    },
    {
      "epoch": 0.24124087591240875,
      "grad_norm": 0.6178045868873596,
      "learning_rate": 8e-05,
      "loss": 1.5963,
      "step": 661
    },
    {
      "epoch": 0.2416058394160584,
      "grad_norm": 0.5944331884384155,
      "learning_rate": 8e-05,
      "loss": 1.5509,
      "step": 662
    },
    {
      "epoch": 0.24197080291970802,
      "grad_norm": 0.6322915554046631,
      "learning_rate": 8e-05,
      "loss": 1.6713,
      "step": 663
    },
    {
      "epoch": 0.24233576642335766,
      "grad_norm": 0.5843656659126282,
      "learning_rate": 8e-05,
      "loss": 1.5006,
      "step": 664
    },
    {
      "epoch": 0.2427007299270073,
      "grad_norm": 0.6205708384513855,
      "learning_rate": 8e-05,
      "loss": 1.5724,
      "step": 665
    },
    {
      "epoch": 0.24306569343065693,
      "grad_norm": 0.5957092046737671,
      "learning_rate": 8e-05,
      "loss": 1.5896,
      "step": 666
    },
    {
      "epoch": 0.24343065693430657,
      "grad_norm": 0.6415634155273438,
      "learning_rate": 8e-05,
      "loss": 1.6181,
      "step": 667
    },
    {
      "epoch": 0.24379562043795622,
      "grad_norm": 0.5936368703842163,
      "learning_rate": 8e-05,
      "loss": 1.6001,
      "step": 668
    },
    {
      "epoch": 0.24416058394160584,
      "grad_norm": 0.6009873747825623,
      "learning_rate": 8e-05,
      "loss": 1.5858,
      "step": 669
    },
    {
      "epoch": 0.24452554744525548,
      "grad_norm": 0.6256783604621887,
      "learning_rate": 8e-05,
      "loss": 1.6329,
      "step": 670
    },
    {
      "epoch": 0.2448905109489051,
      "grad_norm": 0.6168488264083862,
      "learning_rate": 8e-05,
      "loss": 1.6016,
      "step": 671
    },
    {
      "epoch": 0.24525547445255474,
      "grad_norm": 0.6298267245292664,
      "learning_rate": 8e-05,
      "loss": 1.6455,
      "step": 672
    },
    {
      "epoch": 0.2456204379562044,
      "grad_norm": 0.6178918480873108,
      "learning_rate": 8e-05,
      "loss": 1.616,
      "step": 673
    },
    {
      "epoch": 0.245985401459854,
      "grad_norm": 0.6259992718696594,
      "learning_rate": 8e-05,
      "loss": 1.5819,
      "step": 674
    },
    {
      "epoch": 0.24635036496350365,
      "grad_norm": 0.6073534488677979,
      "learning_rate": 8e-05,
      "loss": 1.6065,
      "step": 675
    },
    {
      "epoch": 0.24671532846715327,
      "grad_norm": 0.6002809405326843,
      "learning_rate": 8e-05,
      "loss": 1.6313,
      "step": 676
    },
    {
      "epoch": 0.24708029197080292,
      "grad_norm": 0.6162238121032715,
      "learning_rate": 8e-05,
      "loss": 1.6366,
      "step": 677
    },
    {
      "epoch": 0.24744525547445256,
      "grad_norm": 0.5643404722213745,
      "learning_rate": 8e-05,
      "loss": 1.4658,
      "step": 678
    },
    {
      "epoch": 0.24781021897810218,
      "grad_norm": 0.6048781871795654,
      "learning_rate": 8e-05,
      "loss": 1.5709,
      "step": 679
    },
    {
      "epoch": 0.24817518248175183,
      "grad_norm": 0.6068844199180603,
      "learning_rate": 8e-05,
      "loss": 1.5933,
      "step": 680
    },
    {
      "epoch": 0.24854014598540147,
      "grad_norm": 0.5918552875518799,
      "learning_rate": 8e-05,
      "loss": 1.5917,
      "step": 681
    },
    {
      "epoch": 0.2489051094890511,
      "grad_norm": 0.6353221535682678,
      "learning_rate": 8e-05,
      "loss": 1.5953,
      "step": 682
    },
    {
      "epoch": 0.24927007299270074,
      "grad_norm": 0.6061902046203613,
      "learning_rate": 8e-05,
      "loss": 1.6033,
      "step": 683
    },
    {
      "epoch": 0.24963503649635035,
      "grad_norm": 0.613219141960144,
      "learning_rate": 8e-05,
      "loss": 1.616,
      "step": 684
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6034388542175293,
      "learning_rate": 8e-05,
      "loss": 1.6149,
      "step": 685
    },
    {
      "epoch": 0.2503649635036496,
      "grad_norm": 0.6075602173805237,
      "learning_rate": 8e-05,
      "loss": 1.634,
      "step": 686
    },
    {
      "epoch": 0.2507299270072993,
      "grad_norm": 0.6587163805961609,
      "learning_rate": 8e-05,
      "loss": 1.6896,
      "step": 687
    },
    {
      "epoch": 0.2510948905109489,
      "grad_norm": 0.6086656451225281,
      "learning_rate": 8e-05,
      "loss": 1.6065,
      "step": 688
    },
    {
      "epoch": 0.2514598540145985,
      "grad_norm": 0.6654936671257019,
      "learning_rate": 8e-05,
      "loss": 1.5955,
      "step": 689
    },
    {
      "epoch": 0.2518248175182482,
      "grad_norm": 0.6028897166252136,
      "learning_rate": 8e-05,
      "loss": 1.5436,
      "step": 690
    },
    {
      "epoch": 0.2521897810218978,
      "grad_norm": 0.6858466863632202,
      "learning_rate": 8e-05,
      "loss": 1.6232,
      "step": 691
    },
    {
      "epoch": 0.25255474452554744,
      "grad_norm": 0.61794114112854,
      "learning_rate": 8e-05,
      "loss": 1.596,
      "step": 692
    },
    {
      "epoch": 0.25291970802919705,
      "grad_norm": 0.6320651769638062,
      "learning_rate": 8e-05,
      "loss": 1.6189,
      "step": 693
    },
    {
      "epoch": 0.25328467153284673,
      "grad_norm": 0.5994722247123718,
      "learning_rate": 8e-05,
      "loss": 1.5535,
      "step": 694
    },
    {
      "epoch": 0.25364963503649635,
      "grad_norm": 0.6380892992019653,
      "learning_rate": 8e-05,
      "loss": 1.6535,
      "step": 695
    },
    {
      "epoch": 0.25401459854014596,
      "grad_norm": 0.6072560548782349,
      "learning_rate": 8e-05,
      "loss": 1.5844,
      "step": 696
    },
    {
      "epoch": 0.25437956204379564,
      "grad_norm": 0.6795341372489929,
      "learning_rate": 8e-05,
      "loss": 1.6326,
      "step": 697
    },
    {
      "epoch": 0.25474452554744526,
      "grad_norm": 0.5906771421432495,
      "learning_rate": 8e-05,
      "loss": 1.5203,
      "step": 698
    },
    {
      "epoch": 0.2551094890510949,
      "grad_norm": 0.6025978922843933,
      "learning_rate": 8e-05,
      "loss": 1.6323,
      "step": 699
    },
    {
      "epoch": 0.25547445255474455,
      "grad_norm": 0.60197514295578,
      "learning_rate": 8e-05,
      "loss": 1.6704,
      "step": 700
    },
    {
      "epoch": 0.25583941605839416,
      "grad_norm": 0.6120613217353821,
      "learning_rate": 8e-05,
      "loss": 1.6114,
      "step": 701
    },
    {
      "epoch": 0.2562043795620438,
      "grad_norm": 0.6162900924682617,
      "learning_rate": 8e-05,
      "loss": 1.6774,
      "step": 702
    },
    {
      "epoch": 0.25656934306569346,
      "grad_norm": 0.6071633696556091,
      "learning_rate": 8e-05,
      "loss": 1.5756,
      "step": 703
    },
    {
      "epoch": 0.2569343065693431,
      "grad_norm": 0.5910616517066956,
      "learning_rate": 8e-05,
      "loss": 1.4554,
      "step": 704
    },
    {
      "epoch": 0.2572992700729927,
      "grad_norm": 0.6152775883674622,
      "learning_rate": 8e-05,
      "loss": 1.5961,
      "step": 705
    },
    {
      "epoch": 0.2576642335766423,
      "grad_norm": 0.5989899635314941,
      "learning_rate": 8e-05,
      "loss": 1.575,
      "step": 706
    },
    {
      "epoch": 0.258029197080292,
      "grad_norm": 0.6444898843765259,
      "learning_rate": 8e-05,
      "loss": 1.6554,
      "step": 707
    },
    {
      "epoch": 0.2583941605839416,
      "grad_norm": 0.6258389353752136,
      "learning_rate": 8e-05,
      "loss": 1.5622,
      "step": 708
    },
    {
      "epoch": 0.2587591240875912,
      "grad_norm": 0.6206340193748474,
      "learning_rate": 8e-05,
      "loss": 1.6191,
      "step": 709
    },
    {
      "epoch": 0.2591240875912409,
      "grad_norm": 0.5949971675872803,
      "learning_rate": 8e-05,
      "loss": 1.5086,
      "step": 710
    },
    {
      "epoch": 0.2594890510948905,
      "grad_norm": 0.6249470114707947,
      "learning_rate": 8e-05,
      "loss": 1.6874,
      "step": 711
    },
    {
      "epoch": 0.25985401459854013,
      "grad_norm": 0.5972208380699158,
      "learning_rate": 8e-05,
      "loss": 1.6124,
      "step": 712
    },
    {
      "epoch": 0.2602189781021898,
      "grad_norm": 0.6160094141960144,
      "learning_rate": 8e-05,
      "loss": 1.5997,
      "step": 713
    },
    {
      "epoch": 0.2605839416058394,
      "grad_norm": 0.6005533337593079,
      "learning_rate": 8e-05,
      "loss": 1.5789,
      "step": 714
    },
    {
      "epoch": 0.26094890510948904,
      "grad_norm": 0.6217560172080994,
      "learning_rate": 8e-05,
      "loss": 1.5677,
      "step": 715
    },
    {
      "epoch": 0.2613138686131387,
      "grad_norm": 0.6073805093765259,
      "learning_rate": 8e-05,
      "loss": 1.5695,
      "step": 716
    },
    {
      "epoch": 0.26167883211678833,
      "grad_norm": 0.6333103775978088,
      "learning_rate": 8e-05,
      "loss": 1.5689,
      "step": 717
    },
    {
      "epoch": 0.26204379562043795,
      "grad_norm": 0.6075001358985901,
      "learning_rate": 8e-05,
      "loss": 1.5936,
      "step": 718
    },
    {
      "epoch": 0.26240875912408756,
      "grad_norm": 0.600622832775116,
      "learning_rate": 8e-05,
      "loss": 1.6371,
      "step": 719
    },
    {
      "epoch": 0.26277372262773724,
      "grad_norm": 0.5968546867370605,
      "learning_rate": 8e-05,
      "loss": 1.6008,
      "step": 720
    },
    {
      "epoch": 0.26313868613138686,
      "grad_norm": 0.5883049964904785,
      "learning_rate": 8e-05,
      "loss": 1.5921,
      "step": 721
    },
    {
      "epoch": 0.2635036496350365,
      "grad_norm": 0.5900208353996277,
      "learning_rate": 8e-05,
      "loss": 1.5933,
      "step": 722
    },
    {
      "epoch": 0.26386861313868615,
      "grad_norm": 0.6372513771057129,
      "learning_rate": 8e-05,
      "loss": 1.6712,
      "step": 723
    },
    {
      "epoch": 0.26423357664233577,
      "grad_norm": 0.6046201586723328,
      "learning_rate": 8e-05,
      "loss": 1.5689,
      "step": 724
    },
    {
      "epoch": 0.2645985401459854,
      "grad_norm": 0.5884973406791687,
      "learning_rate": 8e-05,
      "loss": 1.4916,
      "step": 725
    },
    {
      "epoch": 0.26496350364963506,
      "grad_norm": 0.6333685517311096,
      "learning_rate": 8e-05,
      "loss": 1.6269,
      "step": 726
    },
    {
      "epoch": 0.2653284671532847,
      "grad_norm": 0.6221925020217896,
      "learning_rate": 8e-05,
      "loss": 1.5868,
      "step": 727
    },
    {
      "epoch": 0.2656934306569343,
      "grad_norm": 0.6120549440383911,
      "learning_rate": 8e-05,
      "loss": 1.5758,
      "step": 728
    },
    {
      "epoch": 0.26605839416058397,
      "grad_norm": 0.6171773076057434,
      "learning_rate": 8e-05,
      "loss": 1.6385,
      "step": 729
    },
    {
      "epoch": 0.2664233576642336,
      "grad_norm": 0.6197269558906555,
      "learning_rate": 8e-05,
      "loss": 1.6726,
      "step": 730
    },
    {
      "epoch": 0.2667883211678832,
      "grad_norm": 0.5952764749526978,
      "learning_rate": 8e-05,
      "loss": 1.5811,
      "step": 731
    },
    {
      "epoch": 0.2671532846715328,
      "grad_norm": 0.6053042411804199,
      "learning_rate": 8e-05,
      "loss": 1.6811,
      "step": 732
    },
    {
      "epoch": 0.2675182481751825,
      "grad_norm": 0.6094098687171936,
      "learning_rate": 8e-05,
      "loss": 1.5058,
      "step": 733
    },
    {
      "epoch": 0.2678832116788321,
      "grad_norm": 0.6246816515922546,
      "learning_rate": 8e-05,
      "loss": 1.576,
      "step": 734
    },
    {
      "epoch": 0.26824817518248173,
      "grad_norm": 0.6412040591239929,
      "learning_rate": 8e-05,
      "loss": 1.6151,
      "step": 735
    },
    {
      "epoch": 0.2686131386861314,
      "grad_norm": 0.577180027961731,
      "learning_rate": 8e-05,
      "loss": 1.5718,
      "step": 736
    },
    {
      "epoch": 0.268978102189781,
      "grad_norm": 0.6216976642608643,
      "learning_rate": 8e-05,
      "loss": 1.5619,
      "step": 737
    },
    {
      "epoch": 0.26934306569343064,
      "grad_norm": 0.6077100038528442,
      "learning_rate": 8e-05,
      "loss": 1.5964,
      "step": 738
    },
    {
      "epoch": 0.2697080291970803,
      "grad_norm": 0.6126304864883423,
      "learning_rate": 8e-05,
      "loss": 1.5652,
      "step": 739
    },
    {
      "epoch": 0.27007299270072993,
      "grad_norm": 0.61757493019104,
      "learning_rate": 8e-05,
      "loss": 1.5426,
      "step": 740
    },
    {
      "epoch": 0.27043795620437955,
      "grad_norm": 0.6010875105857849,
      "learning_rate": 8e-05,
      "loss": 1.4652,
      "step": 741
    },
    {
      "epoch": 0.2708029197080292,
      "grad_norm": 0.587139904499054,
      "learning_rate": 8e-05,
      "loss": 1.5409,
      "step": 742
    },
    {
      "epoch": 0.27116788321167884,
      "grad_norm": 0.6087518334388733,
      "learning_rate": 8e-05,
      "loss": 1.6475,
      "step": 743
    },
    {
      "epoch": 0.27153284671532846,
      "grad_norm": 0.6123266816139221,
      "learning_rate": 8e-05,
      "loss": 1.6487,
      "step": 744
    },
    {
      "epoch": 0.2718978102189781,
      "grad_norm": 0.6255677938461304,
      "learning_rate": 8e-05,
      "loss": 1.6475,
      "step": 745
    },
    {
      "epoch": 0.27226277372262775,
      "grad_norm": 0.6089499592781067,
      "learning_rate": 8e-05,
      "loss": 1.593,
      "step": 746
    },
    {
      "epoch": 0.27262773722627737,
      "grad_norm": 0.5965782403945923,
      "learning_rate": 8e-05,
      "loss": 1.5073,
      "step": 747
    },
    {
      "epoch": 0.272992700729927,
      "grad_norm": 0.6022993326187134,
      "learning_rate": 8e-05,
      "loss": 1.6165,
      "step": 748
    },
    {
      "epoch": 0.27335766423357666,
      "grad_norm": 0.6374454498291016,
      "learning_rate": 8e-05,
      "loss": 1.63,
      "step": 749
    },
    {
      "epoch": 0.2737226277372263,
      "grad_norm": 0.6003567576408386,
      "learning_rate": 8e-05,
      "loss": 1.584,
      "step": 750
    },
    {
      "epoch": 0.2740875912408759,
      "grad_norm": 0.6126796007156372,
      "learning_rate": 8e-05,
      "loss": 1.6038,
      "step": 751
    },
    {
      "epoch": 0.27445255474452557,
      "grad_norm": 0.6443252563476562,
      "learning_rate": 8e-05,
      "loss": 1.6704,
      "step": 752
    },
    {
      "epoch": 0.2748175182481752,
      "grad_norm": 0.5859677195549011,
      "learning_rate": 8e-05,
      "loss": 1.5631,
      "step": 753
    },
    {
      "epoch": 0.2751824817518248,
      "grad_norm": 0.5759505033493042,
      "learning_rate": 8e-05,
      "loss": 1.5188,
      "step": 754
    },
    {
      "epoch": 0.2755474452554745,
      "grad_norm": 0.6013796925544739,
      "learning_rate": 8e-05,
      "loss": 1.6423,
      "step": 755
    },
    {
      "epoch": 0.2759124087591241,
      "grad_norm": 0.5942639112472534,
      "learning_rate": 8e-05,
      "loss": 1.5758,
      "step": 756
    },
    {
      "epoch": 0.2762773722627737,
      "grad_norm": 0.5790054202079773,
      "learning_rate": 8e-05,
      "loss": 1.4945,
      "step": 757
    },
    {
      "epoch": 0.27664233576642333,
      "grad_norm": 0.5975093841552734,
      "learning_rate": 8e-05,
      "loss": 1.6193,
      "step": 758
    },
    {
      "epoch": 0.277007299270073,
      "grad_norm": 0.5889927744865417,
      "learning_rate": 8e-05,
      "loss": 1.5226,
      "step": 759
    },
    {
      "epoch": 0.2773722627737226,
      "grad_norm": 0.6339488625526428,
      "learning_rate": 8e-05,
      "loss": 1.6121,
      "step": 760
    },
    {
      "epoch": 0.27773722627737224,
      "grad_norm": 0.6022595167160034,
      "learning_rate": 8e-05,
      "loss": 1.5682,
      "step": 761
    },
    {
      "epoch": 0.2781021897810219,
      "grad_norm": 0.6365025043487549,
      "learning_rate": 8e-05,
      "loss": 1.6203,
      "step": 762
    },
    {
      "epoch": 0.27846715328467153,
      "grad_norm": 0.5966835618019104,
      "learning_rate": 8e-05,
      "loss": 1.6079,
      "step": 763
    },
    {
      "epoch": 0.27883211678832115,
      "grad_norm": 0.5880368947982788,
      "learning_rate": 8e-05,
      "loss": 1.5607,
      "step": 764
    },
    {
      "epoch": 0.2791970802919708,
      "grad_norm": 0.6213763952255249,
      "learning_rate": 8e-05,
      "loss": 1.5997,
      "step": 765
    },
    {
      "epoch": 0.27956204379562044,
      "grad_norm": 0.5996171236038208,
      "learning_rate": 8e-05,
      "loss": 1.5424,
      "step": 766
    },
    {
      "epoch": 0.27992700729927006,
      "grad_norm": 0.5924460887908936,
      "learning_rate": 8e-05,
      "loss": 1.6134,
      "step": 767
    },
    {
      "epoch": 0.28029197080291973,
      "grad_norm": 0.6596757173538208,
      "learning_rate": 8e-05,
      "loss": 1.6247,
      "step": 768
    },
    {
      "epoch": 0.28065693430656935,
      "grad_norm": 0.6251828670501709,
      "learning_rate": 8e-05,
      "loss": 1.5006,
      "step": 769
    },
    {
      "epoch": 0.28102189781021897,
      "grad_norm": 0.6574058532714844,
      "learning_rate": 8e-05,
      "loss": 1.5873,
      "step": 770
    },
    {
      "epoch": 0.2813868613138686,
      "grad_norm": 0.6286242604255676,
      "learning_rate": 8e-05,
      "loss": 1.5841,
      "step": 771
    },
    {
      "epoch": 0.28175182481751826,
      "grad_norm": 0.6453049182891846,
      "learning_rate": 8e-05,
      "loss": 1.5623,
      "step": 772
    },
    {
      "epoch": 0.2821167883211679,
      "grad_norm": 0.6302244663238525,
      "learning_rate": 8e-05,
      "loss": 1.6105,
      "step": 773
    },
    {
      "epoch": 0.2824817518248175,
      "grad_norm": 0.6020957231521606,
      "learning_rate": 8e-05,
      "loss": 1.5134,
      "step": 774
    },
    {
      "epoch": 0.28284671532846717,
      "grad_norm": 0.6050724983215332,
      "learning_rate": 8e-05,
      "loss": 1.5824,
      "step": 775
    },
    {
      "epoch": 0.2832116788321168,
      "grad_norm": 0.6441758871078491,
      "learning_rate": 8e-05,
      "loss": 1.655,
      "step": 776
    },
    {
      "epoch": 0.2835766423357664,
      "grad_norm": 0.599873423576355,
      "learning_rate": 8e-05,
      "loss": 1.5805,
      "step": 777
    },
    {
      "epoch": 0.2839416058394161,
      "grad_norm": 0.6322531700134277,
      "learning_rate": 8e-05,
      "loss": 1.5972,
      "step": 778
    },
    {
      "epoch": 0.2843065693430657,
      "grad_norm": 0.6163831949234009,
      "learning_rate": 8e-05,
      "loss": 1.5483,
      "step": 779
    },
    {
      "epoch": 0.2846715328467153,
      "grad_norm": 0.6189574003219604,
      "learning_rate": 8e-05,
      "loss": 1.6143,
      "step": 780
    },
    {
      "epoch": 0.285036496350365,
      "grad_norm": 0.598626971244812,
      "learning_rate": 8e-05,
      "loss": 1.5433,
      "step": 781
    },
    {
      "epoch": 0.2854014598540146,
      "grad_norm": 0.5969541072845459,
      "learning_rate": 8e-05,
      "loss": 1.5247,
      "step": 782
    },
    {
      "epoch": 0.2857664233576642,
      "grad_norm": 0.6242002248764038,
      "learning_rate": 8e-05,
      "loss": 1.6577,
      "step": 783
    },
    {
      "epoch": 0.28613138686131384,
      "grad_norm": 0.6126163601875305,
      "learning_rate": 8e-05,
      "loss": 1.6165,
      "step": 784
    },
    {
      "epoch": 0.2864963503649635,
      "grad_norm": 0.6172974705696106,
      "learning_rate": 8e-05,
      "loss": 1.6758,
      "step": 785
    },
    {
      "epoch": 0.28686131386861313,
      "grad_norm": 0.6320416927337646,
      "learning_rate": 8e-05,
      "loss": 1.6595,
      "step": 786
    },
    {
      "epoch": 0.28722627737226275,
      "grad_norm": 0.5924842953681946,
      "learning_rate": 8e-05,
      "loss": 1.5476,
      "step": 787
    },
    {
      "epoch": 0.2875912408759124,
      "grad_norm": 0.6138162612915039,
      "learning_rate": 8e-05,
      "loss": 1.6217,
      "step": 788
    },
    {
      "epoch": 0.28795620437956204,
      "grad_norm": 0.5969493389129639,
      "learning_rate": 8e-05,
      "loss": 1.5018,
      "step": 789
    },
    {
      "epoch": 0.28832116788321166,
      "grad_norm": 0.6002854704856873,
      "learning_rate": 8e-05,
      "loss": 1.585,
      "step": 790
    },
    {
      "epoch": 0.28868613138686133,
      "grad_norm": 0.6101083755493164,
      "learning_rate": 8e-05,
      "loss": 1.6448,
      "step": 791
    },
    {
      "epoch": 0.28905109489051095,
      "grad_norm": 0.6132826805114746,
      "learning_rate": 8e-05,
      "loss": 1.6071,
      "step": 792
    },
    {
      "epoch": 0.28941605839416057,
      "grad_norm": 0.597873866558075,
      "learning_rate": 8e-05,
      "loss": 1.6009,
      "step": 793
    },
    {
      "epoch": 0.28978102189781024,
      "grad_norm": 0.6171136498451233,
      "learning_rate": 8e-05,
      "loss": 1.572,
      "step": 794
    },
    {
      "epoch": 0.29014598540145986,
      "grad_norm": 0.6086298227310181,
      "learning_rate": 8e-05,
      "loss": 1.5225,
      "step": 795
    },
    {
      "epoch": 0.2905109489051095,
      "grad_norm": 0.6017768979072571,
      "learning_rate": 8e-05,
      "loss": 1.5731,
      "step": 796
    },
    {
      "epoch": 0.2908759124087591,
      "grad_norm": 0.6040738224983215,
      "learning_rate": 8e-05,
      "loss": 1.6011,
      "step": 797
    },
    {
      "epoch": 0.29124087591240877,
      "grad_norm": 0.599076509475708,
      "learning_rate": 8e-05,
      "loss": 1.569,
      "step": 798
    },
    {
      "epoch": 0.2916058394160584,
      "grad_norm": 0.5956457853317261,
      "learning_rate": 8e-05,
      "loss": 1.5803,
      "step": 799
    },
    {
      "epoch": 0.291970802919708,
      "grad_norm": 0.6018050909042358,
      "learning_rate": 8e-05,
      "loss": 1.5698,
      "step": 800
    },
    {
      "epoch": 0.2923357664233577,
      "grad_norm": 0.6074165105819702,
      "learning_rate": 8e-05,
      "loss": 1.6259,
      "step": 801
    },
    {
      "epoch": 0.2927007299270073,
      "grad_norm": 0.5876559019088745,
      "learning_rate": 8e-05,
      "loss": 1.583,
      "step": 802
    },
    {
      "epoch": 0.2930656934306569,
      "grad_norm": 0.6150951385498047,
      "learning_rate": 8e-05,
      "loss": 1.6578,
      "step": 803
    },
    {
      "epoch": 0.2934306569343066,
      "grad_norm": 0.6241779923439026,
      "learning_rate": 8e-05,
      "loss": 1.6374,
      "step": 804
    },
    {
      "epoch": 0.2937956204379562,
      "grad_norm": 0.607647180557251,
      "learning_rate": 8e-05,
      "loss": 1.5776,
      "step": 805
    },
    {
      "epoch": 0.2941605839416058,
      "grad_norm": 0.5928074717521667,
      "learning_rate": 8e-05,
      "loss": 1.4967,
      "step": 806
    },
    {
      "epoch": 0.2945255474452555,
      "grad_norm": 0.5960546731948853,
      "learning_rate": 8e-05,
      "loss": 1.5759,
      "step": 807
    },
    {
      "epoch": 0.2948905109489051,
      "grad_norm": 0.606160581111908,
      "learning_rate": 8e-05,
      "loss": 1.6012,
      "step": 808
    },
    {
      "epoch": 0.29525547445255473,
      "grad_norm": 0.6149670481681824,
      "learning_rate": 8e-05,
      "loss": 1.5985,
      "step": 809
    },
    {
      "epoch": 0.2956204379562044,
      "grad_norm": 0.6037455797195435,
      "learning_rate": 8e-05,
      "loss": 1.5623,
      "step": 810
    },
    {
      "epoch": 0.295985401459854,
      "grad_norm": 0.5921622514724731,
      "learning_rate": 8e-05,
      "loss": 1.5847,
      "step": 811
    },
    {
      "epoch": 0.29635036496350364,
      "grad_norm": 0.6080791354179382,
      "learning_rate": 8e-05,
      "loss": 1.5715,
      "step": 812
    },
    {
      "epoch": 0.29671532846715326,
      "grad_norm": 0.6108533143997192,
      "learning_rate": 8e-05,
      "loss": 1.5859,
      "step": 813
    },
    {
      "epoch": 0.29708029197080293,
      "grad_norm": 0.6202415227890015,
      "learning_rate": 8e-05,
      "loss": 1.5713,
      "step": 814
    },
    {
      "epoch": 0.29744525547445255,
      "grad_norm": 0.6139390468597412,
      "learning_rate": 8e-05,
      "loss": 1.6637,
      "step": 815
    },
    {
      "epoch": 0.29781021897810217,
      "grad_norm": 0.5949843525886536,
      "learning_rate": 8e-05,
      "loss": 1.5282,
      "step": 816
    },
    {
      "epoch": 0.29817518248175184,
      "grad_norm": 0.6109545826911926,
      "learning_rate": 8e-05,
      "loss": 1.6392,
      "step": 817
    },
    {
      "epoch": 0.29854014598540146,
      "grad_norm": 0.5975169539451599,
      "learning_rate": 8e-05,
      "loss": 1.5783,
      "step": 818
    },
    {
      "epoch": 0.2989051094890511,
      "grad_norm": 0.5998572707176208,
      "learning_rate": 8e-05,
      "loss": 1.58,
      "step": 819
    },
    {
      "epoch": 0.29927007299270075,
      "grad_norm": 0.5854070782661438,
      "learning_rate": 8e-05,
      "loss": 1.5187,
      "step": 820
    },
    {
      "epoch": 0.29963503649635037,
      "grad_norm": 0.6155080199241638,
      "learning_rate": 8e-05,
      "loss": 1.5608,
      "step": 821
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.630892276763916,
      "learning_rate": 8e-05,
      "loss": 1.5998,
      "step": 822
    },
    {
      "epoch": 0.30036496350364966,
      "grad_norm": 0.6009736657142639,
      "learning_rate": 8e-05,
      "loss": 1.5947,
      "step": 823
    },
    {
      "epoch": 0.3007299270072993,
      "grad_norm": 0.6113452911376953,
      "learning_rate": 8e-05,
      "loss": 1.5771,
      "step": 824
    },
    {
      "epoch": 0.3010948905109489,
      "grad_norm": 0.6405985355377197,
      "learning_rate": 8e-05,
      "loss": 1.6543,
      "step": 825
    },
    {
      "epoch": 0.3014598540145985,
      "grad_norm": 0.6064493060112,
      "learning_rate": 8e-05,
      "loss": 1.5456,
      "step": 826
    },
    {
      "epoch": 0.3018248175182482,
      "grad_norm": 0.602921187877655,
      "learning_rate": 8e-05,
      "loss": 1.5237,
      "step": 827
    },
    {
      "epoch": 0.3021897810218978,
      "grad_norm": 0.5960552096366882,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 828
    },
    {
      "epoch": 0.3025547445255474,
      "grad_norm": 0.6263522505760193,
      "learning_rate": 8e-05,
      "loss": 1.6245,
      "step": 829
    },
    {
      "epoch": 0.3029197080291971,
      "grad_norm": 0.589327335357666,
      "learning_rate": 8e-05,
      "loss": 1.4915,
      "step": 830
    },
    {
      "epoch": 0.3032846715328467,
      "grad_norm": 0.6204437017440796,
      "learning_rate": 8e-05,
      "loss": 1.5442,
      "step": 831
    },
    {
      "epoch": 0.30364963503649633,
      "grad_norm": 0.62130206823349,
      "learning_rate": 8e-05,
      "loss": 1.5587,
      "step": 832
    },
    {
      "epoch": 0.304014598540146,
      "grad_norm": 0.616327702999115,
      "learning_rate": 8e-05,
      "loss": 1.5541,
      "step": 833
    },
    {
      "epoch": 0.3043795620437956,
      "grad_norm": 0.601629376411438,
      "learning_rate": 8e-05,
      "loss": 1.5207,
      "step": 834
    },
    {
      "epoch": 0.30474452554744524,
      "grad_norm": 0.6318078637123108,
      "learning_rate": 8e-05,
      "loss": 1.6719,
      "step": 835
    },
    {
      "epoch": 0.3051094890510949,
      "grad_norm": 0.6252689957618713,
      "learning_rate": 8e-05,
      "loss": 1.5219,
      "step": 836
    },
    {
      "epoch": 0.30547445255474454,
      "grad_norm": 0.5875614285469055,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 837
    },
    {
      "epoch": 0.30583941605839415,
      "grad_norm": 0.5929000377655029,
      "learning_rate": 8e-05,
      "loss": 1.587,
      "step": 838
    },
    {
      "epoch": 0.30620437956204377,
      "grad_norm": 0.6219980716705322,
      "learning_rate": 8e-05,
      "loss": 1.5582,
      "step": 839
    },
    {
      "epoch": 0.30656934306569344,
      "grad_norm": 0.6189156174659729,
      "learning_rate": 8e-05,
      "loss": 1.6502,
      "step": 840
    },
    {
      "epoch": 0.30693430656934306,
      "grad_norm": 0.6349028944969177,
      "learning_rate": 8e-05,
      "loss": 1.5604,
      "step": 841
    },
    {
      "epoch": 0.3072992700729927,
      "grad_norm": 0.6094540953636169,
      "learning_rate": 8e-05,
      "loss": 1.6157,
      "step": 842
    },
    {
      "epoch": 0.30766423357664235,
      "grad_norm": 0.6186658143997192,
      "learning_rate": 8e-05,
      "loss": 1.6343,
      "step": 843
    },
    {
      "epoch": 0.30802919708029197,
      "grad_norm": 0.6042030453681946,
      "learning_rate": 8e-05,
      "loss": 1.5496,
      "step": 844
    },
    {
      "epoch": 0.3083941605839416,
      "grad_norm": 0.6025094985961914,
      "learning_rate": 8e-05,
      "loss": 1.5984,
      "step": 845
    },
    {
      "epoch": 0.30875912408759126,
      "grad_norm": 0.5739253759384155,
      "learning_rate": 8e-05,
      "loss": 1.5457,
      "step": 846
    },
    {
      "epoch": 0.3091240875912409,
      "grad_norm": 0.5981801748275757,
      "learning_rate": 8e-05,
      "loss": 1.4974,
      "step": 847
    },
    {
      "epoch": 0.3094890510948905,
      "grad_norm": 0.61253821849823,
      "learning_rate": 8e-05,
      "loss": 1.5494,
      "step": 848
    },
    {
      "epoch": 0.3098540145985402,
      "grad_norm": 0.6201120018959045,
      "learning_rate": 8e-05,
      "loss": 1.6095,
      "step": 849
    },
    {
      "epoch": 0.3102189781021898,
      "grad_norm": 0.6197165250778198,
      "learning_rate": 8e-05,
      "loss": 1.5953,
      "step": 850
    },
    {
      "epoch": 0.3105839416058394,
      "grad_norm": 0.5941270589828491,
      "learning_rate": 8e-05,
      "loss": 1.6045,
      "step": 851
    },
    {
      "epoch": 0.310948905109489,
      "grad_norm": 0.6027237176895142,
      "learning_rate": 8e-05,
      "loss": 1.5862,
      "step": 852
    },
    {
      "epoch": 0.3113138686131387,
      "grad_norm": 0.5956122875213623,
      "learning_rate": 8e-05,
      "loss": 1.584,
      "step": 853
    },
    {
      "epoch": 0.3116788321167883,
      "grad_norm": 0.6064534783363342,
      "learning_rate": 8e-05,
      "loss": 1.5845,
      "step": 854
    },
    {
      "epoch": 0.31204379562043794,
      "grad_norm": 0.6064791679382324,
      "learning_rate": 8e-05,
      "loss": 1.6116,
      "step": 855
    },
    {
      "epoch": 0.3124087591240876,
      "grad_norm": 0.610185444355011,
      "learning_rate": 8e-05,
      "loss": 1.6146,
      "step": 856
    },
    {
      "epoch": 0.3127737226277372,
      "grad_norm": 0.6072800159454346,
      "learning_rate": 8e-05,
      "loss": 1.5664,
      "step": 857
    },
    {
      "epoch": 0.31313868613138685,
      "grad_norm": 0.6133461594581604,
      "learning_rate": 8e-05,
      "loss": 1.5992,
      "step": 858
    },
    {
      "epoch": 0.3135036496350365,
      "grad_norm": 0.5941494107246399,
      "learning_rate": 8e-05,
      "loss": 1.577,
      "step": 859
    },
    {
      "epoch": 0.31386861313868614,
      "grad_norm": 0.6039577126502991,
      "learning_rate": 8e-05,
      "loss": 1.5858,
      "step": 860
    },
    {
      "epoch": 0.31423357664233575,
      "grad_norm": 0.6375869512557983,
      "learning_rate": 8e-05,
      "loss": 1.6521,
      "step": 861
    },
    {
      "epoch": 0.31459854014598543,
      "grad_norm": 0.6231711506843567,
      "learning_rate": 8e-05,
      "loss": 1.6044,
      "step": 862
    },
    {
      "epoch": 0.31496350364963505,
      "grad_norm": 0.596973717212677,
      "learning_rate": 8e-05,
      "loss": 1.5779,
      "step": 863
    },
    {
      "epoch": 0.31532846715328466,
      "grad_norm": 0.6054680347442627,
      "learning_rate": 8e-05,
      "loss": 1.5528,
      "step": 864
    },
    {
      "epoch": 0.3156934306569343,
      "grad_norm": 0.5970077514648438,
      "learning_rate": 8e-05,
      "loss": 1.5968,
      "step": 865
    },
    {
      "epoch": 0.31605839416058396,
      "grad_norm": 0.6225089430809021,
      "learning_rate": 8e-05,
      "loss": 1.5975,
      "step": 866
    },
    {
      "epoch": 0.3164233576642336,
      "grad_norm": 0.6019358038902283,
      "learning_rate": 8e-05,
      "loss": 1.4977,
      "step": 867
    },
    {
      "epoch": 0.3167883211678832,
      "grad_norm": 0.5791400074958801,
      "learning_rate": 8e-05,
      "loss": 1.5863,
      "step": 868
    },
    {
      "epoch": 0.31715328467153286,
      "grad_norm": 0.5944443941116333,
      "learning_rate": 8e-05,
      "loss": 1.545,
      "step": 869
    },
    {
      "epoch": 0.3175182481751825,
      "grad_norm": 0.612164318561554,
      "learning_rate": 8e-05,
      "loss": 1.5871,
      "step": 870
    },
    {
      "epoch": 0.3178832116788321,
      "grad_norm": 0.5993004441261292,
      "learning_rate": 8e-05,
      "loss": 1.5823,
      "step": 871
    },
    {
      "epoch": 0.3182481751824818,
      "grad_norm": 0.6265439987182617,
      "learning_rate": 8e-05,
      "loss": 1.6686,
      "step": 872
    },
    {
      "epoch": 0.3186131386861314,
      "grad_norm": 0.6331521272659302,
      "learning_rate": 8e-05,
      "loss": 1.6014,
      "step": 873
    },
    {
      "epoch": 0.318978102189781,
      "grad_norm": 0.6138855814933777,
      "learning_rate": 8e-05,
      "loss": 1.6155,
      "step": 874
    },
    {
      "epoch": 0.3193430656934307,
      "grad_norm": 0.6246193051338196,
      "learning_rate": 8e-05,
      "loss": 1.605,
      "step": 875
    },
    {
      "epoch": 0.3197080291970803,
      "grad_norm": 0.5965206623077393,
      "learning_rate": 8e-05,
      "loss": 1.5215,
      "step": 876
    },
    {
      "epoch": 0.3200729927007299,
      "grad_norm": 0.6028991341590881,
      "learning_rate": 8e-05,
      "loss": 1.5553,
      "step": 877
    },
    {
      "epoch": 0.32043795620437954,
      "grad_norm": 0.6348788738250732,
      "learning_rate": 8e-05,
      "loss": 1.6254,
      "step": 878
    },
    {
      "epoch": 0.3208029197080292,
      "grad_norm": 0.5912565588951111,
      "learning_rate": 8e-05,
      "loss": 1.5991,
      "step": 879
    },
    {
      "epoch": 0.32116788321167883,
      "grad_norm": 0.6097795367240906,
      "learning_rate": 8e-05,
      "loss": 1.5303,
      "step": 880
    },
    {
      "epoch": 0.32153284671532845,
      "grad_norm": 0.5947853326797485,
      "learning_rate": 8e-05,
      "loss": 1.494,
      "step": 881
    },
    {
      "epoch": 0.3218978102189781,
      "grad_norm": 0.6005210876464844,
      "learning_rate": 8e-05,
      "loss": 1.5746,
      "step": 882
    },
    {
      "epoch": 0.32226277372262774,
      "grad_norm": 0.614041268825531,
      "learning_rate": 8e-05,
      "loss": 1.6299,
      "step": 883
    },
    {
      "epoch": 0.32262773722627736,
      "grad_norm": 0.5975371599197388,
      "learning_rate": 8e-05,
      "loss": 1.6157,
      "step": 884
    },
    {
      "epoch": 0.32299270072992703,
      "grad_norm": 0.6106918454170227,
      "learning_rate": 8e-05,
      "loss": 1.5683,
      "step": 885
    },
    {
      "epoch": 0.32335766423357665,
      "grad_norm": 0.6015481352806091,
      "learning_rate": 8e-05,
      "loss": 1.5615,
      "step": 886
    },
    {
      "epoch": 0.32372262773722627,
      "grad_norm": 0.6271924376487732,
      "learning_rate": 8e-05,
      "loss": 1.6565,
      "step": 887
    },
    {
      "epoch": 0.32408759124087594,
      "grad_norm": 0.5929593443870544,
      "learning_rate": 8e-05,
      "loss": 1.5093,
      "step": 888
    },
    {
      "epoch": 0.32445255474452556,
      "grad_norm": 0.6318806409835815,
      "learning_rate": 8e-05,
      "loss": 1.6329,
      "step": 889
    },
    {
      "epoch": 0.3248175182481752,
      "grad_norm": 0.606818675994873,
      "learning_rate": 8e-05,
      "loss": 1.6073,
      "step": 890
    },
    {
      "epoch": 0.3251824817518248,
      "grad_norm": 0.6147382259368896,
      "learning_rate": 8e-05,
      "loss": 1.5621,
      "step": 891
    },
    {
      "epoch": 0.32554744525547447,
      "grad_norm": 0.604346752166748,
      "learning_rate": 8e-05,
      "loss": 1.5519,
      "step": 892
    },
    {
      "epoch": 0.3259124087591241,
      "grad_norm": 0.604385256767273,
      "learning_rate": 8e-05,
      "loss": 1.6059,
      "step": 893
    },
    {
      "epoch": 0.3262773722627737,
      "grad_norm": 0.6102296710014343,
      "learning_rate": 8e-05,
      "loss": 1.5913,
      "step": 894
    },
    {
      "epoch": 0.3266423357664234,
      "grad_norm": 0.6050511002540588,
      "learning_rate": 8e-05,
      "loss": 1.5437,
      "step": 895
    },
    {
      "epoch": 0.327007299270073,
      "grad_norm": 0.6147162914276123,
      "learning_rate": 8e-05,
      "loss": 1.633,
      "step": 896
    },
    {
      "epoch": 0.3273722627737226,
      "grad_norm": 0.6029412150382996,
      "learning_rate": 8e-05,
      "loss": 1.5253,
      "step": 897
    },
    {
      "epoch": 0.3277372262773723,
      "grad_norm": 0.6385841965675354,
      "learning_rate": 8e-05,
      "loss": 1.6122,
      "step": 898
    },
    {
      "epoch": 0.3281021897810219,
      "grad_norm": 0.5898535847663879,
      "learning_rate": 8e-05,
      "loss": 1.4869,
      "step": 899
    },
    {
      "epoch": 0.3284671532846715,
      "grad_norm": 0.6552735567092896,
      "learning_rate": 8e-05,
      "loss": 1.5611,
      "step": 900
    },
    {
      "epoch": 0.3288321167883212,
      "grad_norm": 0.594707190990448,
      "learning_rate": 8e-05,
      "loss": 1.652,
      "step": 901
    },
    {
      "epoch": 0.3291970802919708,
      "grad_norm": 0.6246088743209839,
      "learning_rate": 8e-05,
      "loss": 1.5669,
      "step": 902
    },
    {
      "epoch": 0.32956204379562043,
      "grad_norm": 0.5681196451187134,
      "learning_rate": 8e-05,
      "loss": 1.5389,
      "step": 903
    },
    {
      "epoch": 0.32992700729927005,
      "grad_norm": 0.6230464577674866,
      "learning_rate": 8e-05,
      "loss": 1.5686,
      "step": 904
    },
    {
      "epoch": 0.3302919708029197,
      "grad_norm": 0.6166272163391113,
      "learning_rate": 8e-05,
      "loss": 1.6005,
      "step": 905
    },
    {
      "epoch": 0.33065693430656934,
      "grad_norm": 0.6034902334213257,
      "learning_rate": 8e-05,
      "loss": 1.5531,
      "step": 906
    },
    {
      "epoch": 0.33102189781021896,
      "grad_norm": 0.6038368344306946,
      "learning_rate": 8e-05,
      "loss": 1.5755,
      "step": 907
    },
    {
      "epoch": 0.33138686131386863,
      "grad_norm": 0.6242707967758179,
      "learning_rate": 8e-05,
      "loss": 1.6577,
      "step": 908
    },
    {
      "epoch": 0.33175182481751825,
      "grad_norm": 0.6357178092002869,
      "learning_rate": 8e-05,
      "loss": 1.618,
      "step": 909
    },
    {
      "epoch": 0.33211678832116787,
      "grad_norm": 0.637860119342804,
      "learning_rate": 8e-05,
      "loss": 1.5833,
      "step": 910
    },
    {
      "epoch": 0.33248175182481754,
      "grad_norm": 0.6063894629478455,
      "learning_rate": 8e-05,
      "loss": 1.5823,
      "step": 911
    },
    {
      "epoch": 0.33284671532846716,
      "grad_norm": 0.6128519773483276,
      "learning_rate": 8e-05,
      "loss": 1.4839,
      "step": 912
    },
    {
      "epoch": 0.3332116788321168,
      "grad_norm": 0.5976436138153076,
      "learning_rate": 8e-05,
      "loss": 1.5825,
      "step": 913
    },
    {
      "epoch": 0.33357664233576645,
      "grad_norm": 0.6101059317588806,
      "learning_rate": 8e-05,
      "loss": 1.5837,
      "step": 914
    },
    {
      "epoch": 0.33394160583941607,
      "grad_norm": 0.5989833474159241,
      "learning_rate": 8e-05,
      "loss": 1.4858,
      "step": 915
    },
    {
      "epoch": 0.3343065693430657,
      "grad_norm": 0.6055433750152588,
      "learning_rate": 8e-05,
      "loss": 1.6082,
      "step": 916
    },
    {
      "epoch": 0.3346715328467153,
      "grad_norm": 0.6113365888595581,
      "learning_rate": 8e-05,
      "loss": 1.579,
      "step": 917
    },
    {
      "epoch": 0.335036496350365,
      "grad_norm": 0.618362545967102,
      "learning_rate": 8e-05,
      "loss": 1.5551,
      "step": 918
    },
    {
      "epoch": 0.3354014598540146,
      "grad_norm": 0.5813071131706238,
      "learning_rate": 8e-05,
      "loss": 1.4938,
      "step": 919
    },
    {
      "epoch": 0.3357664233576642,
      "grad_norm": 0.5878156423568726,
      "learning_rate": 8e-05,
      "loss": 1.4929,
      "step": 920
    },
    {
      "epoch": 0.3361313868613139,
      "grad_norm": 0.6057977676391602,
      "learning_rate": 8e-05,
      "loss": 1.5981,
      "step": 921
    },
    {
      "epoch": 0.3364963503649635,
      "grad_norm": 0.6068370938301086,
      "learning_rate": 8e-05,
      "loss": 1.5478,
      "step": 922
    },
    {
      "epoch": 0.3368613138686131,
      "grad_norm": 0.5960211753845215,
      "learning_rate": 8e-05,
      "loss": 1.569,
      "step": 923
    },
    {
      "epoch": 0.3372262773722628,
      "grad_norm": 0.5884684920310974,
      "learning_rate": 8e-05,
      "loss": 1.5218,
      "step": 924
    },
    {
      "epoch": 0.3375912408759124,
      "grad_norm": 0.6044585108757019,
      "learning_rate": 8e-05,
      "loss": 1.5051,
      "step": 925
    },
    {
      "epoch": 0.33795620437956203,
      "grad_norm": 0.6142299175262451,
      "learning_rate": 8e-05,
      "loss": 1.5822,
      "step": 926
    },
    {
      "epoch": 0.3383211678832117,
      "grad_norm": 0.5768694877624512,
      "learning_rate": 8e-05,
      "loss": 1.5199,
      "step": 927
    },
    {
      "epoch": 0.3386861313868613,
      "grad_norm": 0.6041263341903687,
      "learning_rate": 8e-05,
      "loss": 1.5569,
      "step": 928
    },
    {
      "epoch": 0.33905109489051094,
      "grad_norm": 0.6112878322601318,
      "learning_rate": 8e-05,
      "loss": 1.6374,
      "step": 929
    },
    {
      "epoch": 0.33941605839416056,
      "grad_norm": 0.60214763879776,
      "learning_rate": 8e-05,
      "loss": 1.5733,
      "step": 930
    },
    {
      "epoch": 0.33978102189781023,
      "grad_norm": 0.602192223072052,
      "learning_rate": 8e-05,
      "loss": 1.6279,
      "step": 931
    },
    {
      "epoch": 0.34014598540145985,
      "grad_norm": 0.6058030128479004,
      "learning_rate": 8e-05,
      "loss": 1.5663,
      "step": 932
    },
    {
      "epoch": 0.34051094890510947,
      "grad_norm": 0.5989928245544434,
      "learning_rate": 8e-05,
      "loss": 1.556,
      "step": 933
    },
    {
      "epoch": 0.34087591240875914,
      "grad_norm": 0.5884765982627869,
      "learning_rate": 8e-05,
      "loss": 1.5552,
      "step": 934
    },
    {
      "epoch": 0.34124087591240876,
      "grad_norm": 0.6005760431289673,
      "learning_rate": 8e-05,
      "loss": 1.5101,
      "step": 935
    },
    {
      "epoch": 0.3416058394160584,
      "grad_norm": 0.5980848073959351,
      "learning_rate": 8e-05,
      "loss": 1.556,
      "step": 936
    },
    {
      "epoch": 0.34197080291970805,
      "grad_norm": 0.5953928828239441,
      "learning_rate": 8e-05,
      "loss": 1.6061,
      "step": 937
    },
    {
      "epoch": 0.34233576642335767,
      "grad_norm": 0.5997745990753174,
      "learning_rate": 8e-05,
      "loss": 1.5791,
      "step": 938
    },
    {
      "epoch": 0.3427007299270073,
      "grad_norm": 0.5955919027328491,
      "learning_rate": 8e-05,
      "loss": 1.5858,
      "step": 939
    },
    {
      "epoch": 0.34306569343065696,
      "grad_norm": 0.6146230697631836,
      "learning_rate": 8e-05,
      "loss": 1.5692,
      "step": 940
    },
    {
      "epoch": 0.3434306569343066,
      "grad_norm": 0.6272794604301453,
      "learning_rate": 8e-05,
      "loss": 1.6492,
      "step": 941
    },
    {
      "epoch": 0.3437956204379562,
      "grad_norm": 0.6158879399299622,
      "learning_rate": 8e-05,
      "loss": 1.5839,
      "step": 942
    },
    {
      "epoch": 0.3441605839416058,
      "grad_norm": 0.5972501039505005,
      "learning_rate": 8e-05,
      "loss": 1.5819,
      "step": 943
    },
    {
      "epoch": 0.3445255474452555,
      "grad_norm": 0.6218437552452087,
      "learning_rate": 8e-05,
      "loss": 1.5912,
      "step": 944
    },
    {
      "epoch": 0.3448905109489051,
      "grad_norm": 0.5693213939666748,
      "learning_rate": 8e-05,
      "loss": 1.4285,
      "step": 945
    },
    {
      "epoch": 0.3452554744525547,
      "grad_norm": 0.6054922938346863,
      "learning_rate": 8e-05,
      "loss": 1.5894,
      "step": 946
    },
    {
      "epoch": 0.3456204379562044,
      "grad_norm": 0.6127315163612366,
      "learning_rate": 8e-05,
      "loss": 1.6441,
      "step": 947
    },
    {
      "epoch": 0.345985401459854,
      "grad_norm": 0.6173736453056335,
      "learning_rate": 8e-05,
      "loss": 1.5823,
      "step": 948
    },
    {
      "epoch": 0.34635036496350363,
      "grad_norm": 0.5912225246429443,
      "learning_rate": 8e-05,
      "loss": 1.5919,
      "step": 949
    },
    {
      "epoch": 0.3467153284671533,
      "grad_norm": 0.5982967019081116,
      "learning_rate": 8e-05,
      "loss": 1.543,
      "step": 950
    },
    {
      "epoch": 0.3470802919708029,
      "grad_norm": 0.6268798112869263,
      "learning_rate": 8e-05,
      "loss": 1.6161,
      "step": 951
    },
    {
      "epoch": 0.34744525547445254,
      "grad_norm": 0.601876974105835,
      "learning_rate": 8e-05,
      "loss": 1.5302,
      "step": 952
    },
    {
      "epoch": 0.3478102189781022,
      "grad_norm": 0.6094202995300293,
      "learning_rate": 8e-05,
      "loss": 1.5519,
      "step": 953
    },
    {
      "epoch": 0.34817518248175183,
      "grad_norm": 0.5942091345787048,
      "learning_rate": 8e-05,
      "loss": 1.5704,
      "step": 954
    },
    {
      "epoch": 0.34854014598540145,
      "grad_norm": 0.6366884708404541,
      "learning_rate": 8e-05,
      "loss": 1.555,
      "step": 955
    },
    {
      "epoch": 0.34890510948905107,
      "grad_norm": 0.5940706729888916,
      "learning_rate": 8e-05,
      "loss": 1.5837,
      "step": 956
    },
    {
      "epoch": 0.34927007299270074,
      "grad_norm": 0.6098222136497498,
      "learning_rate": 8e-05,
      "loss": 1.5672,
      "step": 957
    },
    {
      "epoch": 0.34963503649635036,
      "grad_norm": 0.5792889595031738,
      "learning_rate": 8e-05,
      "loss": 1.5416,
      "step": 958
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5957217216491699,
      "learning_rate": 8e-05,
      "loss": 1.6146,
      "step": 959
    },
    {
      "epoch": 0.35036496350364965,
      "grad_norm": 0.5935194492340088,
      "learning_rate": 8e-05,
      "loss": 1.6582,
      "step": 960
    },
    {
      "epoch": 0.35072992700729927,
      "grad_norm": 0.5861377120018005,
      "learning_rate": 8e-05,
      "loss": 1.5427,
      "step": 961
    },
    {
      "epoch": 0.3510948905109489,
      "grad_norm": 0.6137219071388245,
      "learning_rate": 8e-05,
      "loss": 1.624,
      "step": 962
    },
    {
      "epoch": 0.35145985401459856,
      "grad_norm": 0.5949284434318542,
      "learning_rate": 8e-05,
      "loss": 1.4753,
      "step": 963
    },
    {
      "epoch": 0.3518248175182482,
      "grad_norm": 0.6497654914855957,
      "learning_rate": 8e-05,
      "loss": 1.5948,
      "step": 964
    },
    {
      "epoch": 0.3521897810218978,
      "grad_norm": 0.6034058928489685,
      "learning_rate": 8e-05,
      "loss": 1.5824,
      "step": 965
    },
    {
      "epoch": 0.35255474452554747,
      "grad_norm": 0.6254892349243164,
      "learning_rate": 8e-05,
      "loss": 1.6316,
      "step": 966
    },
    {
      "epoch": 0.3529197080291971,
      "grad_norm": 0.5958739519119263,
      "learning_rate": 8e-05,
      "loss": 1.6069,
      "step": 967
    },
    {
      "epoch": 0.3532846715328467,
      "grad_norm": 0.6277487277984619,
      "learning_rate": 8e-05,
      "loss": 1.5663,
      "step": 968
    },
    {
      "epoch": 0.3536496350364963,
      "grad_norm": 0.5834621787071228,
      "learning_rate": 8e-05,
      "loss": 1.5078,
      "step": 969
    },
    {
      "epoch": 0.354014598540146,
      "grad_norm": 0.6095535755157471,
      "learning_rate": 8e-05,
      "loss": 1.6066,
      "step": 970
    },
    {
      "epoch": 0.3543795620437956,
      "grad_norm": 0.5939632058143616,
      "learning_rate": 8e-05,
      "loss": 1.6316,
      "step": 971
    },
    {
      "epoch": 0.35474452554744523,
      "grad_norm": 0.5729408860206604,
      "learning_rate": 8e-05,
      "loss": 1.4898,
      "step": 972
    },
    {
      "epoch": 0.3551094890510949,
      "grad_norm": 0.5760666131973267,
      "learning_rate": 8e-05,
      "loss": 1.5661,
      "step": 973
    },
    {
      "epoch": 0.3554744525547445,
      "grad_norm": 0.5957809686660767,
      "learning_rate": 8e-05,
      "loss": 1.5412,
      "step": 974
    },
    {
      "epoch": 0.35583941605839414,
      "grad_norm": 0.6197490096092224,
      "learning_rate": 8e-05,
      "loss": 1.6836,
      "step": 975
    },
    {
      "epoch": 0.3562043795620438,
      "grad_norm": 0.5946238040924072,
      "learning_rate": 8e-05,
      "loss": 1.5514,
      "step": 976
    },
    {
      "epoch": 0.35656934306569343,
      "grad_norm": 0.5886532664299011,
      "learning_rate": 8e-05,
      "loss": 1.5973,
      "step": 977
    },
    {
      "epoch": 0.35693430656934305,
      "grad_norm": 0.5788999199867249,
      "learning_rate": 8e-05,
      "loss": 1.4369,
      "step": 978
    },
    {
      "epoch": 0.3572992700729927,
      "grad_norm": 0.6039961576461792,
      "learning_rate": 8e-05,
      "loss": 1.5918,
      "step": 979
    },
    {
      "epoch": 0.35766423357664234,
      "grad_norm": 0.6091821789741516,
      "learning_rate": 8e-05,
      "loss": 1.4919,
      "step": 980
    },
    {
      "epoch": 0.35802919708029196,
      "grad_norm": 0.6318538784980774,
      "learning_rate": 8e-05,
      "loss": 1.6493,
      "step": 981
    },
    {
      "epoch": 0.3583941605839416,
      "grad_norm": 0.6069819331169128,
      "learning_rate": 8e-05,
      "loss": 1.5111,
      "step": 982
    },
    {
      "epoch": 0.35875912408759125,
      "grad_norm": 0.5907145738601685,
      "learning_rate": 8e-05,
      "loss": 1.5304,
      "step": 983
    },
    {
      "epoch": 0.35912408759124087,
      "grad_norm": 0.6030811667442322,
      "learning_rate": 8e-05,
      "loss": 1.5437,
      "step": 984
    },
    {
      "epoch": 0.3594890510948905,
      "grad_norm": 0.6152268648147583,
      "learning_rate": 8e-05,
      "loss": 1.6045,
      "step": 985
    },
    {
      "epoch": 0.35985401459854016,
      "grad_norm": 0.5843151807785034,
      "learning_rate": 8e-05,
      "loss": 1.5626,
      "step": 986
    },
    {
      "epoch": 0.3602189781021898,
      "grad_norm": 0.583975076675415,
      "learning_rate": 8e-05,
      "loss": 1.5437,
      "step": 987
    },
    {
      "epoch": 0.3605839416058394,
      "grad_norm": 0.5743649005889893,
      "learning_rate": 8e-05,
      "loss": 1.4892,
      "step": 988
    },
    {
      "epoch": 0.36094890510948907,
      "grad_norm": 0.610328733921051,
      "learning_rate": 8e-05,
      "loss": 1.6248,
      "step": 989
    },
    {
      "epoch": 0.3613138686131387,
      "grad_norm": 0.58394855260849,
      "learning_rate": 8e-05,
      "loss": 1.5124,
      "step": 990
    },
    {
      "epoch": 0.3616788321167883,
      "grad_norm": 0.6193951368331909,
      "learning_rate": 8e-05,
      "loss": 1.66,
      "step": 991
    },
    {
      "epoch": 0.362043795620438,
      "grad_norm": 0.6255196928977966,
      "learning_rate": 8e-05,
      "loss": 1.6282,
      "step": 992
    },
    {
      "epoch": 0.3624087591240876,
      "grad_norm": 0.60169917345047,
      "learning_rate": 8e-05,
      "loss": 1.5885,
      "step": 993
    },
    {
      "epoch": 0.3627737226277372,
      "grad_norm": 0.5760034322738647,
      "learning_rate": 8e-05,
      "loss": 1.5712,
      "step": 994
    },
    {
      "epoch": 0.36313868613138683,
      "grad_norm": 0.5675594210624695,
      "learning_rate": 8e-05,
      "loss": 1.4454,
      "step": 995
    },
    {
      "epoch": 0.3635036496350365,
      "grad_norm": 0.6195302605628967,
      "learning_rate": 8e-05,
      "loss": 1.5541,
      "step": 996
    },
    {
      "epoch": 0.3638686131386861,
      "grad_norm": 0.6388384103775024,
      "learning_rate": 8e-05,
      "loss": 1.5474,
      "step": 997
    },
    {
      "epoch": 0.36423357664233574,
      "grad_norm": 0.586847186088562,
      "learning_rate": 8e-05,
      "loss": 1.5308,
      "step": 998
    },
    {
      "epoch": 0.3645985401459854,
      "grad_norm": 0.6316645741462708,
      "learning_rate": 8e-05,
      "loss": 1.577,
      "step": 999
    },
    {
      "epoch": 0.36496350364963503,
      "grad_norm": 0.6250750422477722,
      "learning_rate": 8e-05,
      "loss": 1.6271,
      "step": 1000
    },
    {
      "epoch": 0.36532846715328465,
      "grad_norm": 0.6043689846992493,
      "learning_rate": 8e-05,
      "loss": 1.489,
      "step": 1001
    },
    {
      "epoch": 0.3656934306569343,
      "grad_norm": 0.6082795858383179,
      "learning_rate": 8e-05,
      "loss": 1.5126,
      "step": 1002
    },
    {
      "epoch": 0.36605839416058394,
      "grad_norm": 0.6105226874351501,
      "learning_rate": 8e-05,
      "loss": 1.5749,
      "step": 1003
    },
    {
      "epoch": 0.36642335766423356,
      "grad_norm": 0.6014349460601807,
      "learning_rate": 8e-05,
      "loss": 1.4877,
      "step": 1004
    },
    {
      "epoch": 0.36678832116788324,
      "grad_norm": 0.6294251680374146,
      "learning_rate": 8e-05,
      "loss": 1.6455,
      "step": 1005
    },
    {
      "epoch": 0.36715328467153285,
      "grad_norm": 0.6210033893585205,
      "learning_rate": 8e-05,
      "loss": 1.5874,
      "step": 1006
    },
    {
      "epoch": 0.36751824817518247,
      "grad_norm": 0.621933102607727,
      "learning_rate": 8e-05,
      "loss": 1.6129,
      "step": 1007
    },
    {
      "epoch": 0.3678832116788321,
      "grad_norm": 0.6250280141830444,
      "learning_rate": 8e-05,
      "loss": 1.6463,
      "step": 1008
    },
    {
      "epoch": 0.36824817518248176,
      "grad_norm": 0.5804769992828369,
      "learning_rate": 8e-05,
      "loss": 1.5204,
      "step": 1009
    },
    {
      "epoch": 0.3686131386861314,
      "grad_norm": 0.5846789479255676,
      "learning_rate": 8e-05,
      "loss": 1.5656,
      "step": 1010
    },
    {
      "epoch": 0.368978102189781,
      "grad_norm": 0.5971755981445312,
      "learning_rate": 8e-05,
      "loss": 1.5248,
      "step": 1011
    },
    {
      "epoch": 0.36934306569343067,
      "grad_norm": 0.609656035900116,
      "learning_rate": 8e-05,
      "loss": 1.5747,
      "step": 1012
    },
    {
      "epoch": 0.3697080291970803,
      "grad_norm": 0.6186981797218323,
      "learning_rate": 8e-05,
      "loss": 1.5629,
      "step": 1013
    },
    {
      "epoch": 0.3700729927007299,
      "grad_norm": 0.6139465570449829,
      "learning_rate": 8e-05,
      "loss": 1.5994,
      "step": 1014
    },
    {
      "epoch": 0.3704379562043796,
      "grad_norm": 0.6021559834480286,
      "learning_rate": 8e-05,
      "loss": 1.5389,
      "step": 1015
    },
    {
      "epoch": 0.3708029197080292,
      "grad_norm": 0.6061882972717285,
      "learning_rate": 8e-05,
      "loss": 1.576,
      "step": 1016
    },
    {
      "epoch": 0.3711678832116788,
      "grad_norm": 0.6001242399215698,
      "learning_rate": 8e-05,
      "loss": 1.5612,
      "step": 1017
    },
    {
      "epoch": 0.3715328467153285,
      "grad_norm": 0.59398353099823,
      "learning_rate": 8e-05,
      "loss": 1.5559,
      "step": 1018
    },
    {
      "epoch": 0.3718978102189781,
      "grad_norm": 0.5957830548286438,
      "learning_rate": 8e-05,
      "loss": 1.5713,
      "step": 1019
    },
    {
      "epoch": 0.3722627737226277,
      "grad_norm": 0.5908496975898743,
      "learning_rate": 8e-05,
      "loss": 1.4911,
      "step": 1020
    },
    {
      "epoch": 0.37262773722627734,
      "grad_norm": 0.5869143605232239,
      "learning_rate": 8e-05,
      "loss": 1.5579,
      "step": 1021
    },
    {
      "epoch": 0.372992700729927,
      "grad_norm": 0.62317955493927,
      "learning_rate": 8e-05,
      "loss": 1.5832,
      "step": 1022
    },
    {
      "epoch": 0.37335766423357664,
      "grad_norm": 0.6015310883522034,
      "learning_rate": 8e-05,
      "loss": 1.579,
      "step": 1023
    },
    {
      "epoch": 0.37372262773722625,
      "grad_norm": 0.6191038489341736,
      "learning_rate": 8e-05,
      "loss": 1.6291,
      "step": 1024
    },
    {
      "epoch": 0.3740875912408759,
      "grad_norm": 0.6005080342292786,
      "learning_rate": 8e-05,
      "loss": 1.5778,
      "step": 1025
    },
    {
      "epoch": 0.37445255474452555,
      "grad_norm": 0.6110785007476807,
      "learning_rate": 8e-05,
      "loss": 1.5413,
      "step": 1026
    },
    {
      "epoch": 0.37481751824817516,
      "grad_norm": 0.6306235194206238,
      "learning_rate": 8e-05,
      "loss": 1.5346,
      "step": 1027
    },
    {
      "epoch": 0.37518248175182484,
      "grad_norm": 0.6323412656784058,
      "learning_rate": 8e-05,
      "loss": 1.6206,
      "step": 1028
    },
    {
      "epoch": 0.37554744525547445,
      "grad_norm": 0.6391967535018921,
      "learning_rate": 8e-05,
      "loss": 1.5542,
      "step": 1029
    },
    {
      "epoch": 0.3759124087591241,
      "grad_norm": 0.6143709421157837,
      "learning_rate": 8e-05,
      "loss": 1.5877,
      "step": 1030
    },
    {
      "epoch": 0.37627737226277375,
      "grad_norm": 0.6147381663322449,
      "learning_rate": 8e-05,
      "loss": 1.5981,
      "step": 1031
    },
    {
      "epoch": 0.37664233576642336,
      "grad_norm": 0.5991945266723633,
      "learning_rate": 8e-05,
      "loss": 1.5475,
      "step": 1032
    },
    {
      "epoch": 0.377007299270073,
      "grad_norm": 0.6382827758789062,
      "learning_rate": 8e-05,
      "loss": 1.5492,
      "step": 1033
    },
    {
      "epoch": 0.37737226277372266,
      "grad_norm": 0.6135475635528564,
      "learning_rate": 8e-05,
      "loss": 1.5851,
      "step": 1034
    },
    {
      "epoch": 0.3777372262773723,
      "grad_norm": 0.5946922302246094,
      "learning_rate": 8e-05,
      "loss": 1.5235,
      "step": 1035
    },
    {
      "epoch": 0.3781021897810219,
      "grad_norm": 0.6165620684623718,
      "learning_rate": 8e-05,
      "loss": 1.6382,
      "step": 1036
    },
    {
      "epoch": 0.3784671532846715,
      "grad_norm": 0.5836811661720276,
      "learning_rate": 8e-05,
      "loss": 1.5301,
      "step": 1037
    },
    {
      "epoch": 0.3788321167883212,
      "grad_norm": 0.624565064907074,
      "learning_rate": 8e-05,
      "loss": 1.5703,
      "step": 1038
    },
    {
      "epoch": 0.3791970802919708,
      "grad_norm": 0.6165449023246765,
      "learning_rate": 8e-05,
      "loss": 1.5879,
      "step": 1039
    },
    {
      "epoch": 0.3795620437956204,
      "grad_norm": 0.6030674576759338,
      "learning_rate": 8e-05,
      "loss": 1.5305,
      "step": 1040
    },
    {
      "epoch": 0.3799270072992701,
      "grad_norm": 0.6265574097633362,
      "learning_rate": 8e-05,
      "loss": 1.584,
      "step": 1041
    },
    {
      "epoch": 0.3802919708029197,
      "grad_norm": 0.6220502257347107,
      "learning_rate": 8e-05,
      "loss": 1.629,
      "step": 1042
    },
    {
      "epoch": 0.38065693430656933,
      "grad_norm": 0.6162693500518799,
      "learning_rate": 8e-05,
      "loss": 1.5627,
      "step": 1043
    },
    {
      "epoch": 0.381021897810219,
      "grad_norm": 0.5942273139953613,
      "learning_rate": 8e-05,
      "loss": 1.5907,
      "step": 1044
    },
    {
      "epoch": 0.3813868613138686,
      "grad_norm": 0.6110552549362183,
      "learning_rate": 8e-05,
      "loss": 1.6236,
      "step": 1045
    },
    {
      "epoch": 0.38175182481751824,
      "grad_norm": 0.6023382544517517,
      "learning_rate": 8e-05,
      "loss": 1.5064,
      "step": 1046
    },
    {
      "epoch": 0.3821167883211679,
      "grad_norm": 0.5984837412834167,
      "learning_rate": 8e-05,
      "loss": 1.4886,
      "step": 1047
    },
    {
      "epoch": 0.38248175182481753,
      "grad_norm": 0.6285086274147034,
      "learning_rate": 8e-05,
      "loss": 1.5632,
      "step": 1048
    },
    {
      "epoch": 0.38284671532846715,
      "grad_norm": 0.6322019696235657,
      "learning_rate": 8e-05,
      "loss": 1.6518,
      "step": 1049
    },
    {
      "epoch": 0.38321167883211676,
      "grad_norm": 0.6127106547355652,
      "learning_rate": 8e-05,
      "loss": 1.5382,
      "step": 1050
    },
    {
      "epoch": 0.38357664233576644,
      "grad_norm": 0.6040825843811035,
      "learning_rate": 8e-05,
      "loss": 1.5991,
      "step": 1051
    },
    {
      "epoch": 0.38394160583941606,
      "grad_norm": 0.6085320711135864,
      "learning_rate": 8e-05,
      "loss": 1.5128,
      "step": 1052
    },
    {
      "epoch": 0.3843065693430657,
      "grad_norm": 0.6220430731773376,
      "learning_rate": 8e-05,
      "loss": 1.544,
      "step": 1053
    },
    {
      "epoch": 0.38467153284671535,
      "grad_norm": 0.60524982213974,
      "learning_rate": 8e-05,
      "loss": 1.5355,
      "step": 1054
    },
    {
      "epoch": 0.38503649635036497,
      "grad_norm": 0.5905113220214844,
      "learning_rate": 8e-05,
      "loss": 1.5361,
      "step": 1055
    },
    {
      "epoch": 0.3854014598540146,
      "grad_norm": 0.6219974160194397,
      "learning_rate": 8e-05,
      "loss": 1.6067,
      "step": 1056
    },
    {
      "epoch": 0.38576642335766426,
      "grad_norm": 0.6011249423027039,
      "learning_rate": 8e-05,
      "loss": 1.4904,
      "step": 1057
    },
    {
      "epoch": 0.3861313868613139,
      "grad_norm": 0.6221967339515686,
      "learning_rate": 8e-05,
      "loss": 1.5346,
      "step": 1058
    },
    {
      "epoch": 0.3864963503649635,
      "grad_norm": 0.6143261194229126,
      "learning_rate": 8e-05,
      "loss": 1.5638,
      "step": 1059
    },
    {
      "epoch": 0.38686131386861317,
      "grad_norm": 0.576754093170166,
      "learning_rate": 8e-05,
      "loss": 1.5216,
      "step": 1060
    },
    {
      "epoch": 0.3872262773722628,
      "grad_norm": 0.5945895910263062,
      "learning_rate": 8e-05,
      "loss": 1.5643,
      "step": 1061
    },
    {
      "epoch": 0.3875912408759124,
      "grad_norm": 0.6161280274391174,
      "learning_rate": 8e-05,
      "loss": 1.6074,
      "step": 1062
    },
    {
      "epoch": 0.387956204379562,
      "grad_norm": 0.5998178124427795,
      "learning_rate": 8e-05,
      "loss": 1.5788,
      "step": 1063
    },
    {
      "epoch": 0.3883211678832117,
      "grad_norm": 0.5852178931236267,
      "learning_rate": 8e-05,
      "loss": 1.5108,
      "step": 1064
    },
    {
      "epoch": 0.3886861313868613,
      "grad_norm": 0.5948513746261597,
      "learning_rate": 8e-05,
      "loss": 1.5583,
      "step": 1065
    },
    {
      "epoch": 0.38905109489051093,
      "grad_norm": 0.5783421397209167,
      "learning_rate": 8e-05,
      "loss": 1.5221,
      "step": 1066
    },
    {
      "epoch": 0.3894160583941606,
      "grad_norm": 0.5871807336807251,
      "learning_rate": 8e-05,
      "loss": 1.5458,
      "step": 1067
    },
    {
      "epoch": 0.3897810218978102,
      "grad_norm": 0.593369722366333,
      "learning_rate": 8e-05,
      "loss": 1.566,
      "step": 1068
    },
    {
      "epoch": 0.39014598540145984,
      "grad_norm": 0.6017162203788757,
      "learning_rate": 8e-05,
      "loss": 1.5018,
      "step": 1069
    },
    {
      "epoch": 0.3905109489051095,
      "grad_norm": 0.6299751996994019,
      "learning_rate": 8e-05,
      "loss": 1.5426,
      "step": 1070
    },
    {
      "epoch": 0.39087591240875913,
      "grad_norm": 0.6309669613838196,
      "learning_rate": 8e-05,
      "loss": 1.5361,
      "step": 1071
    },
    {
      "epoch": 0.39124087591240875,
      "grad_norm": 0.6155169010162354,
      "learning_rate": 8e-05,
      "loss": 1.5402,
      "step": 1072
    },
    {
      "epoch": 0.3916058394160584,
      "grad_norm": 0.5776420831680298,
      "learning_rate": 8e-05,
      "loss": 1.4684,
      "step": 1073
    },
    {
      "epoch": 0.39197080291970804,
      "grad_norm": 0.5972932577133179,
      "learning_rate": 8e-05,
      "loss": 1.5785,
      "step": 1074
    },
    {
      "epoch": 0.39233576642335766,
      "grad_norm": 0.637454628944397,
      "learning_rate": 8e-05,
      "loss": 1.6214,
      "step": 1075
    },
    {
      "epoch": 0.3927007299270073,
      "grad_norm": 0.5846117734909058,
      "learning_rate": 8e-05,
      "loss": 1.555,
      "step": 1076
    },
    {
      "epoch": 0.39306569343065695,
      "grad_norm": 0.5950992703437805,
      "learning_rate": 8e-05,
      "loss": 1.5241,
      "step": 1077
    },
    {
      "epoch": 0.39343065693430657,
      "grad_norm": 0.6210805773735046,
      "learning_rate": 8e-05,
      "loss": 1.5395,
      "step": 1078
    },
    {
      "epoch": 0.3937956204379562,
      "grad_norm": 0.6139575242996216,
      "learning_rate": 8e-05,
      "loss": 1.5297,
      "step": 1079
    },
    {
      "epoch": 0.39416058394160586,
      "grad_norm": 0.6109387874603271,
      "learning_rate": 8e-05,
      "loss": 1.5527,
      "step": 1080
    },
    {
      "epoch": 0.3945255474452555,
      "grad_norm": 0.5942473411560059,
      "learning_rate": 8e-05,
      "loss": 1.5264,
      "step": 1081
    },
    {
      "epoch": 0.3948905109489051,
      "grad_norm": 0.6130659580230713,
      "learning_rate": 8e-05,
      "loss": 1.6218,
      "step": 1082
    },
    {
      "epoch": 0.39525547445255477,
      "grad_norm": 0.6282966732978821,
      "learning_rate": 8e-05,
      "loss": 1.5104,
      "step": 1083
    },
    {
      "epoch": 0.3956204379562044,
      "grad_norm": 0.5992302298545837,
      "learning_rate": 8e-05,
      "loss": 1.5179,
      "step": 1084
    },
    {
      "epoch": 0.395985401459854,
      "grad_norm": 0.6092544198036194,
      "learning_rate": 8e-05,
      "loss": 1.6427,
      "step": 1085
    },
    {
      "epoch": 0.3963503649635037,
      "grad_norm": 0.6069866418838501,
      "learning_rate": 8e-05,
      "loss": 1.5242,
      "step": 1086
    },
    {
      "epoch": 0.3967153284671533,
      "grad_norm": 0.6024558544158936,
      "learning_rate": 8e-05,
      "loss": 1.5716,
      "step": 1087
    },
    {
      "epoch": 0.3970802919708029,
      "grad_norm": 0.6212615370750427,
      "learning_rate": 8e-05,
      "loss": 1.5789,
      "step": 1088
    },
    {
      "epoch": 0.39744525547445253,
      "grad_norm": 0.6077817678451538,
      "learning_rate": 8e-05,
      "loss": 1.508,
      "step": 1089
    },
    {
      "epoch": 0.3978102189781022,
      "grad_norm": 0.599627673625946,
      "learning_rate": 8e-05,
      "loss": 1.5225,
      "step": 1090
    },
    {
      "epoch": 0.3981751824817518,
      "grad_norm": 0.6212757229804993,
      "learning_rate": 8e-05,
      "loss": 1.588,
      "step": 1091
    },
    {
      "epoch": 0.39854014598540144,
      "grad_norm": 0.6022300720214844,
      "learning_rate": 8e-05,
      "loss": 1.6135,
      "step": 1092
    },
    {
      "epoch": 0.3989051094890511,
      "grad_norm": 0.6331174373626709,
      "learning_rate": 8e-05,
      "loss": 1.5812,
      "step": 1093
    },
    {
      "epoch": 0.39927007299270073,
      "grad_norm": 0.6191257834434509,
      "learning_rate": 8e-05,
      "loss": 1.5201,
      "step": 1094
    },
    {
      "epoch": 0.39963503649635035,
      "grad_norm": 0.6324418187141418,
      "learning_rate": 8e-05,
      "loss": 1.6265,
      "step": 1095
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6121616959571838,
      "learning_rate": 8e-05,
      "loss": 1.5403,
      "step": 1096
    },
    {
      "epoch": 0.40036496350364964,
      "grad_norm": 0.6202664971351624,
      "learning_rate": 8e-05,
      "loss": 1.5659,
      "step": 1097
    },
    {
      "epoch": 0.40072992700729926,
      "grad_norm": 0.6184796094894409,
      "learning_rate": 8e-05,
      "loss": 1.5778,
      "step": 1098
    },
    {
      "epoch": 0.40109489051094893,
      "grad_norm": 0.5947273969650269,
      "learning_rate": 8e-05,
      "loss": 1.4731,
      "step": 1099
    },
    {
      "epoch": 0.40145985401459855,
      "grad_norm": 0.6051809191703796,
      "learning_rate": 8e-05,
      "loss": 1.5392,
      "step": 1100
    },
    {
      "epoch": 0.40182481751824817,
      "grad_norm": 0.5870414972305298,
      "learning_rate": 8e-05,
      "loss": 1.5981,
      "step": 1101
    },
    {
      "epoch": 0.4021897810218978,
      "grad_norm": 0.582054853439331,
      "learning_rate": 8e-05,
      "loss": 1.58,
      "step": 1102
    },
    {
      "epoch": 0.40255474452554746,
      "grad_norm": 0.5925875306129456,
      "learning_rate": 8e-05,
      "loss": 1.5426,
      "step": 1103
    },
    {
      "epoch": 0.4029197080291971,
      "grad_norm": 0.5947492122650146,
      "learning_rate": 8e-05,
      "loss": 1.5303,
      "step": 1104
    },
    {
      "epoch": 0.4032846715328467,
      "grad_norm": 0.5851355195045471,
      "learning_rate": 8e-05,
      "loss": 1.5399,
      "step": 1105
    },
    {
      "epoch": 0.40364963503649637,
      "grad_norm": 0.5727372765541077,
      "learning_rate": 8e-05,
      "loss": 1.4721,
      "step": 1106
    },
    {
      "epoch": 0.404014598540146,
      "grad_norm": 0.5969904065132141,
      "learning_rate": 8e-05,
      "loss": 1.5782,
      "step": 1107
    },
    {
      "epoch": 0.4043795620437956,
      "grad_norm": 0.5861464738845825,
      "learning_rate": 8e-05,
      "loss": 1.5955,
      "step": 1108
    },
    {
      "epoch": 0.4047445255474453,
      "grad_norm": 0.5913227200508118,
      "learning_rate": 8e-05,
      "loss": 1.526,
      "step": 1109
    },
    {
      "epoch": 0.4051094890510949,
      "grad_norm": 0.5945767164230347,
      "learning_rate": 8e-05,
      "loss": 1.5534,
      "step": 1110
    },
    {
      "epoch": 0.4054744525547445,
      "grad_norm": 0.589911162853241,
      "learning_rate": 8e-05,
      "loss": 1.4916,
      "step": 1111
    },
    {
      "epoch": 0.4058394160583942,
      "grad_norm": 0.6363087892532349,
      "learning_rate": 8e-05,
      "loss": 1.5975,
      "step": 1112
    },
    {
      "epoch": 0.4062043795620438,
      "grad_norm": 0.6035106778144836,
      "learning_rate": 8e-05,
      "loss": 1.5012,
      "step": 1113
    },
    {
      "epoch": 0.4065693430656934,
      "grad_norm": 0.6156107187271118,
      "learning_rate": 8e-05,
      "loss": 1.5729,
      "step": 1114
    },
    {
      "epoch": 0.40693430656934304,
      "grad_norm": 0.5954182147979736,
      "learning_rate": 8e-05,
      "loss": 1.5297,
      "step": 1115
    },
    {
      "epoch": 0.4072992700729927,
      "grad_norm": 0.601642906665802,
      "learning_rate": 8e-05,
      "loss": 1.6155,
      "step": 1116
    },
    {
      "epoch": 0.40766423357664233,
      "grad_norm": 0.6180031299591064,
      "learning_rate": 8e-05,
      "loss": 1.6434,
      "step": 1117
    },
    {
      "epoch": 0.40802919708029195,
      "grad_norm": 0.6241233944892883,
      "learning_rate": 8e-05,
      "loss": 1.6369,
      "step": 1118
    },
    {
      "epoch": 0.4083941605839416,
      "grad_norm": 0.5865646600723267,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 1119
    },
    {
      "epoch": 0.40875912408759124,
      "grad_norm": 0.6270593404769897,
      "learning_rate": 8e-05,
      "loss": 1.5787,
      "step": 1120
    },
    {
      "epoch": 0.40912408759124086,
      "grad_norm": 0.6053576469421387,
      "learning_rate": 8e-05,
      "loss": 1.5721,
      "step": 1121
    },
    {
      "epoch": 0.40948905109489053,
      "grad_norm": 0.6270821690559387,
      "learning_rate": 8e-05,
      "loss": 1.6455,
      "step": 1122
    },
    {
      "epoch": 0.40985401459854015,
      "grad_norm": 0.6131945252418518,
      "learning_rate": 8e-05,
      "loss": 1.5546,
      "step": 1123
    },
    {
      "epoch": 0.41021897810218977,
      "grad_norm": 0.582003116607666,
      "learning_rate": 8e-05,
      "loss": 1.5004,
      "step": 1124
    },
    {
      "epoch": 0.41058394160583944,
      "grad_norm": 0.6026320457458496,
      "learning_rate": 8e-05,
      "loss": 1.5675,
      "step": 1125
    },
    {
      "epoch": 0.41094890510948906,
      "grad_norm": 0.5981186032295227,
      "learning_rate": 8e-05,
      "loss": 1.5236,
      "step": 1126
    },
    {
      "epoch": 0.4113138686131387,
      "grad_norm": 0.5922862887382507,
      "learning_rate": 8e-05,
      "loss": 1.5732,
      "step": 1127
    },
    {
      "epoch": 0.4116788321167883,
      "grad_norm": 0.6403933167457581,
      "learning_rate": 8e-05,
      "loss": 1.5921,
      "step": 1128
    },
    {
      "epoch": 0.41204379562043797,
      "grad_norm": 0.5983588099479675,
      "learning_rate": 8e-05,
      "loss": 1.5139,
      "step": 1129
    },
    {
      "epoch": 0.4124087591240876,
      "grad_norm": 0.5859779119491577,
      "learning_rate": 8e-05,
      "loss": 1.5134,
      "step": 1130
    },
    {
      "epoch": 0.4127737226277372,
      "grad_norm": 0.5980297327041626,
      "learning_rate": 8e-05,
      "loss": 1.5219,
      "step": 1131
    },
    {
      "epoch": 0.4131386861313869,
      "grad_norm": 0.602599024772644,
      "learning_rate": 8e-05,
      "loss": 1.5537,
      "step": 1132
    },
    {
      "epoch": 0.4135036496350365,
      "grad_norm": 0.6101113557815552,
      "learning_rate": 8e-05,
      "loss": 1.53,
      "step": 1133
    },
    {
      "epoch": 0.4138686131386861,
      "grad_norm": 0.6254070997238159,
      "learning_rate": 8e-05,
      "loss": 1.6046,
      "step": 1134
    },
    {
      "epoch": 0.4142335766423358,
      "grad_norm": 0.6111023426055908,
      "learning_rate": 8e-05,
      "loss": 1.604,
      "step": 1135
    },
    {
      "epoch": 0.4145985401459854,
      "grad_norm": 0.6017448902130127,
      "learning_rate": 8e-05,
      "loss": 1.5314,
      "step": 1136
    },
    {
      "epoch": 0.414963503649635,
      "grad_norm": 0.5897128582000732,
      "learning_rate": 8e-05,
      "loss": 1.5756,
      "step": 1137
    },
    {
      "epoch": 0.4153284671532847,
      "grad_norm": 0.5770338177680969,
      "learning_rate": 8e-05,
      "loss": 1.472,
      "step": 1138
    },
    {
      "epoch": 0.4156934306569343,
      "grad_norm": 0.5866996049880981,
      "learning_rate": 8e-05,
      "loss": 1.5378,
      "step": 1139
    },
    {
      "epoch": 0.41605839416058393,
      "grad_norm": 0.5982983708381653,
      "learning_rate": 8e-05,
      "loss": 1.5613,
      "step": 1140
    },
    {
      "epoch": 0.41642335766423355,
      "grad_norm": 0.594095766544342,
      "learning_rate": 8e-05,
      "loss": 1.467,
      "step": 1141
    },
    {
      "epoch": 0.4167883211678832,
      "grad_norm": 0.6682714223861694,
      "learning_rate": 8e-05,
      "loss": 1.6761,
      "step": 1142
    },
    {
      "epoch": 0.41715328467153284,
      "grad_norm": 0.6052380800247192,
      "learning_rate": 8e-05,
      "loss": 1.5536,
      "step": 1143
    },
    {
      "epoch": 0.41751824817518246,
      "grad_norm": 0.6448819041252136,
      "learning_rate": 8e-05,
      "loss": 1.6092,
      "step": 1144
    },
    {
      "epoch": 0.41788321167883213,
      "grad_norm": 0.6044672131538391,
      "learning_rate": 8e-05,
      "loss": 1.5087,
      "step": 1145
    },
    {
      "epoch": 0.41824817518248175,
      "grad_norm": 0.6326454281806946,
      "learning_rate": 8e-05,
      "loss": 1.6294,
      "step": 1146
    },
    {
      "epoch": 0.41861313868613137,
      "grad_norm": 0.5861337184906006,
      "learning_rate": 8e-05,
      "loss": 1.5616,
      "step": 1147
    },
    {
      "epoch": 0.41897810218978104,
      "grad_norm": 0.6080390810966492,
      "learning_rate": 8e-05,
      "loss": 1.5997,
      "step": 1148
    },
    {
      "epoch": 0.41934306569343066,
      "grad_norm": 0.5888211131095886,
      "learning_rate": 8e-05,
      "loss": 1.5266,
      "step": 1149
    },
    {
      "epoch": 0.4197080291970803,
      "grad_norm": 0.607088565826416,
      "learning_rate": 8e-05,
      "loss": 1.5557,
      "step": 1150
    },
    {
      "epoch": 0.42007299270072995,
      "grad_norm": 0.5712606310844421,
      "learning_rate": 8e-05,
      "loss": 1.4865,
      "step": 1151
    },
    {
      "epoch": 0.42043795620437957,
      "grad_norm": 0.5978989005088806,
      "learning_rate": 8e-05,
      "loss": 1.5493,
      "step": 1152
    },
    {
      "epoch": 0.4208029197080292,
      "grad_norm": 0.6130731701850891,
      "learning_rate": 8e-05,
      "loss": 1.6131,
      "step": 1153
    },
    {
      "epoch": 0.4211678832116788,
      "grad_norm": 0.5793471336364746,
      "learning_rate": 8e-05,
      "loss": 1.5063,
      "step": 1154
    },
    {
      "epoch": 0.4215328467153285,
      "grad_norm": 0.5954750776290894,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 1155
    },
    {
      "epoch": 0.4218978102189781,
      "grad_norm": 0.5927132964134216,
      "learning_rate": 8e-05,
      "loss": 1.5338,
      "step": 1156
    },
    {
      "epoch": 0.4222627737226277,
      "grad_norm": 0.6069081425666809,
      "learning_rate": 8e-05,
      "loss": 1.6044,
      "step": 1157
    },
    {
      "epoch": 0.4226277372262774,
      "grad_norm": 0.6006834506988525,
      "learning_rate": 8e-05,
      "loss": 1.5305,
      "step": 1158
    },
    {
      "epoch": 0.422992700729927,
      "grad_norm": 0.626497745513916,
      "learning_rate": 8e-05,
      "loss": 1.5971,
      "step": 1159
    },
    {
      "epoch": 0.4233576642335766,
      "grad_norm": 0.6023790836334229,
      "learning_rate": 8e-05,
      "loss": 1.5552,
      "step": 1160
    },
    {
      "epoch": 0.4237226277372263,
      "grad_norm": 0.6086851954460144,
      "learning_rate": 8e-05,
      "loss": 1.5744,
      "step": 1161
    },
    {
      "epoch": 0.4240875912408759,
      "grad_norm": 0.6013938188552856,
      "learning_rate": 8e-05,
      "loss": 1.6189,
      "step": 1162
    },
    {
      "epoch": 0.42445255474452553,
      "grad_norm": 0.6156855225563049,
      "learning_rate": 8e-05,
      "loss": 1.5536,
      "step": 1163
    },
    {
      "epoch": 0.4248175182481752,
      "grad_norm": 0.6090952157974243,
      "learning_rate": 8e-05,
      "loss": 1.5292,
      "step": 1164
    },
    {
      "epoch": 0.4251824817518248,
      "grad_norm": 0.6270456314086914,
      "learning_rate": 8e-05,
      "loss": 1.5762,
      "step": 1165
    },
    {
      "epoch": 0.42554744525547444,
      "grad_norm": 0.6229581236839294,
      "learning_rate": 8e-05,
      "loss": 1.6527,
      "step": 1166
    },
    {
      "epoch": 0.42591240875912406,
      "grad_norm": 0.6058796644210815,
      "learning_rate": 8e-05,
      "loss": 1.5524,
      "step": 1167
    },
    {
      "epoch": 0.42627737226277373,
      "grad_norm": 0.5936087965965271,
      "learning_rate": 8e-05,
      "loss": 1.5124,
      "step": 1168
    },
    {
      "epoch": 0.42664233576642335,
      "grad_norm": 0.5872904062271118,
      "learning_rate": 8e-05,
      "loss": 1.512,
      "step": 1169
    },
    {
      "epoch": 0.42700729927007297,
      "grad_norm": 0.5944258570671082,
      "learning_rate": 8e-05,
      "loss": 1.4804,
      "step": 1170
    },
    {
      "epoch": 0.42737226277372264,
      "grad_norm": 0.6038691997528076,
      "learning_rate": 8e-05,
      "loss": 1.5244,
      "step": 1171
    },
    {
      "epoch": 0.42773722627737226,
      "grad_norm": 0.6275318264961243,
      "learning_rate": 8e-05,
      "loss": 1.564,
      "step": 1172
    },
    {
      "epoch": 0.4281021897810219,
      "grad_norm": 0.6268640160560608,
      "learning_rate": 8e-05,
      "loss": 1.6304,
      "step": 1173
    },
    {
      "epoch": 0.42846715328467155,
      "grad_norm": 0.6545758843421936,
      "learning_rate": 8e-05,
      "loss": 1.6723,
      "step": 1174
    },
    {
      "epoch": 0.42883211678832117,
      "grad_norm": 0.5876835584640503,
      "learning_rate": 8e-05,
      "loss": 1.5759,
      "step": 1175
    },
    {
      "epoch": 0.4291970802919708,
      "grad_norm": 0.6142063140869141,
      "learning_rate": 8e-05,
      "loss": 1.483,
      "step": 1176
    },
    {
      "epoch": 0.42956204379562046,
      "grad_norm": 0.6124581098556519,
      "learning_rate": 8e-05,
      "loss": 1.5736,
      "step": 1177
    },
    {
      "epoch": 0.4299270072992701,
      "grad_norm": 0.5985997915267944,
      "learning_rate": 8e-05,
      "loss": 1.6091,
      "step": 1178
    },
    {
      "epoch": 0.4302919708029197,
      "grad_norm": 0.6065404415130615,
      "learning_rate": 8e-05,
      "loss": 1.5727,
      "step": 1179
    },
    {
      "epoch": 0.4306569343065693,
      "grad_norm": 0.5877151489257812,
      "learning_rate": 8e-05,
      "loss": 1.5308,
      "step": 1180
    },
    {
      "epoch": 0.431021897810219,
      "grad_norm": 0.6097005605697632,
      "learning_rate": 8e-05,
      "loss": 1.5896,
      "step": 1181
    },
    {
      "epoch": 0.4313868613138686,
      "grad_norm": 0.5881975889205933,
      "learning_rate": 8e-05,
      "loss": 1.5157,
      "step": 1182
    },
    {
      "epoch": 0.4317518248175182,
      "grad_norm": 0.6151601672172546,
      "learning_rate": 8e-05,
      "loss": 1.6255,
      "step": 1183
    },
    {
      "epoch": 0.4321167883211679,
      "grad_norm": 0.5984714031219482,
      "learning_rate": 8e-05,
      "loss": 1.6361,
      "step": 1184
    },
    {
      "epoch": 0.4324817518248175,
      "grad_norm": 0.5950922966003418,
      "learning_rate": 8e-05,
      "loss": 1.5526,
      "step": 1185
    },
    {
      "epoch": 0.43284671532846714,
      "grad_norm": 0.5772922039031982,
      "learning_rate": 8e-05,
      "loss": 1.5498,
      "step": 1186
    },
    {
      "epoch": 0.4332116788321168,
      "grad_norm": 0.6255320310592651,
      "learning_rate": 8e-05,
      "loss": 1.5558,
      "step": 1187
    },
    {
      "epoch": 0.4335766423357664,
      "grad_norm": 0.6104030609130859,
      "learning_rate": 8e-05,
      "loss": 1.5764,
      "step": 1188
    },
    {
      "epoch": 0.43394160583941604,
      "grad_norm": 0.6126958131790161,
      "learning_rate": 8e-05,
      "loss": 1.5997,
      "step": 1189
    },
    {
      "epoch": 0.4343065693430657,
      "grad_norm": 0.5916455388069153,
      "learning_rate": 8e-05,
      "loss": 1.5257,
      "step": 1190
    },
    {
      "epoch": 0.43467153284671534,
      "grad_norm": 0.6079068779945374,
      "learning_rate": 8e-05,
      "loss": 1.5928,
      "step": 1191
    },
    {
      "epoch": 0.43503649635036495,
      "grad_norm": 0.5926124453544617,
      "learning_rate": 8e-05,
      "loss": 1.6028,
      "step": 1192
    },
    {
      "epoch": 0.43540145985401457,
      "grad_norm": 0.5888426303863525,
      "learning_rate": 8e-05,
      "loss": 1.5763,
      "step": 1193
    },
    {
      "epoch": 0.43576642335766425,
      "grad_norm": 0.6042253971099854,
      "learning_rate": 8e-05,
      "loss": 1.5497,
      "step": 1194
    },
    {
      "epoch": 0.43613138686131386,
      "grad_norm": 0.5891628265380859,
      "learning_rate": 8e-05,
      "loss": 1.5193,
      "step": 1195
    },
    {
      "epoch": 0.4364963503649635,
      "grad_norm": 0.6249696016311646,
      "learning_rate": 8e-05,
      "loss": 1.5774,
      "step": 1196
    },
    {
      "epoch": 0.43686131386861315,
      "grad_norm": 0.60911625623703,
      "learning_rate": 8e-05,
      "loss": 1.5795,
      "step": 1197
    },
    {
      "epoch": 0.4372262773722628,
      "grad_norm": 0.609318733215332,
      "learning_rate": 8e-05,
      "loss": 1.579,
      "step": 1198
    },
    {
      "epoch": 0.4375912408759124,
      "grad_norm": 0.6099110841751099,
      "learning_rate": 8e-05,
      "loss": 1.6314,
      "step": 1199
    },
    {
      "epoch": 0.43795620437956206,
      "grad_norm": 0.6297367811203003,
      "learning_rate": 8e-05,
      "loss": 1.5946,
      "step": 1200
    },
    {
      "epoch": 0.4383211678832117,
      "grad_norm": 0.5815389156341553,
      "learning_rate": 8e-05,
      "loss": 1.5207,
      "step": 1201
    },
    {
      "epoch": 0.4386861313868613,
      "grad_norm": 0.619797945022583,
      "learning_rate": 8e-05,
      "loss": 1.6071,
      "step": 1202
    },
    {
      "epoch": 0.439051094890511,
      "grad_norm": 0.5874375104904175,
      "learning_rate": 8e-05,
      "loss": 1.5205,
      "step": 1203
    },
    {
      "epoch": 0.4394160583941606,
      "grad_norm": 0.6307455897331238,
      "learning_rate": 8e-05,
      "loss": 1.5166,
      "step": 1204
    },
    {
      "epoch": 0.4397810218978102,
      "grad_norm": 0.6000075936317444,
      "learning_rate": 8e-05,
      "loss": 1.5446,
      "step": 1205
    },
    {
      "epoch": 0.4401459854014598,
      "grad_norm": 0.5994973182678223,
      "learning_rate": 8e-05,
      "loss": 1.5315,
      "step": 1206
    },
    {
      "epoch": 0.4405109489051095,
      "grad_norm": 0.5909371972084045,
      "learning_rate": 8e-05,
      "loss": 1.5506,
      "step": 1207
    },
    {
      "epoch": 0.4408759124087591,
      "grad_norm": 0.5874548554420471,
      "learning_rate": 8e-05,
      "loss": 1.5238,
      "step": 1208
    },
    {
      "epoch": 0.44124087591240874,
      "grad_norm": 0.5882344245910645,
      "learning_rate": 8e-05,
      "loss": 1.4995,
      "step": 1209
    },
    {
      "epoch": 0.4416058394160584,
      "grad_norm": 0.6112184524536133,
      "learning_rate": 8e-05,
      "loss": 1.5378,
      "step": 1210
    },
    {
      "epoch": 0.44197080291970803,
      "grad_norm": 0.6179437041282654,
      "learning_rate": 8e-05,
      "loss": 1.6442,
      "step": 1211
    },
    {
      "epoch": 0.44233576642335765,
      "grad_norm": 0.5997365713119507,
      "learning_rate": 8e-05,
      "loss": 1.6019,
      "step": 1212
    },
    {
      "epoch": 0.4427007299270073,
      "grad_norm": 0.6360539197921753,
      "learning_rate": 8e-05,
      "loss": 1.6086,
      "step": 1213
    },
    {
      "epoch": 0.44306569343065694,
      "grad_norm": 0.6220836043357849,
      "learning_rate": 8e-05,
      "loss": 1.6451,
      "step": 1214
    },
    {
      "epoch": 0.44343065693430656,
      "grad_norm": 0.6166319847106934,
      "learning_rate": 8e-05,
      "loss": 1.5279,
      "step": 1215
    },
    {
      "epoch": 0.44379562043795623,
      "grad_norm": 0.591195821762085,
      "learning_rate": 8e-05,
      "loss": 1.5542,
      "step": 1216
    },
    {
      "epoch": 0.44416058394160585,
      "grad_norm": 0.6230912804603577,
      "learning_rate": 8e-05,
      "loss": 1.5198,
      "step": 1217
    },
    {
      "epoch": 0.44452554744525546,
      "grad_norm": 0.5877026319503784,
      "learning_rate": 8e-05,
      "loss": 1.541,
      "step": 1218
    },
    {
      "epoch": 0.4448905109489051,
      "grad_norm": 0.6187236309051514,
      "learning_rate": 8e-05,
      "loss": 1.6064,
      "step": 1219
    },
    {
      "epoch": 0.44525547445255476,
      "grad_norm": 0.6261996626853943,
      "learning_rate": 8e-05,
      "loss": 1.5747,
      "step": 1220
    },
    {
      "epoch": 0.4456204379562044,
      "grad_norm": 0.6236152052879333,
      "learning_rate": 8e-05,
      "loss": 1.5782,
      "step": 1221
    },
    {
      "epoch": 0.445985401459854,
      "grad_norm": 0.6320517659187317,
      "learning_rate": 8e-05,
      "loss": 1.522,
      "step": 1222
    },
    {
      "epoch": 0.44635036496350367,
      "grad_norm": 0.600941002368927,
      "learning_rate": 8e-05,
      "loss": 1.548,
      "step": 1223
    },
    {
      "epoch": 0.4467153284671533,
      "grad_norm": 0.5970403552055359,
      "learning_rate": 8e-05,
      "loss": 1.5386,
      "step": 1224
    },
    {
      "epoch": 0.4470802919708029,
      "grad_norm": 0.6295427083969116,
      "learning_rate": 8e-05,
      "loss": 1.5596,
      "step": 1225
    },
    {
      "epoch": 0.4474452554744526,
      "grad_norm": 0.5949487090110779,
      "learning_rate": 8e-05,
      "loss": 1.5505,
      "step": 1226
    },
    {
      "epoch": 0.4478102189781022,
      "grad_norm": 0.6155946254730225,
      "learning_rate": 8e-05,
      "loss": 1.4882,
      "step": 1227
    },
    {
      "epoch": 0.4481751824817518,
      "grad_norm": 0.6015676259994507,
      "learning_rate": 8e-05,
      "loss": 1.5727,
      "step": 1228
    },
    {
      "epoch": 0.4485401459854015,
      "grad_norm": 0.6318968534469604,
      "learning_rate": 8e-05,
      "loss": 1.6065,
      "step": 1229
    },
    {
      "epoch": 0.4489051094890511,
      "grad_norm": 0.6148043870925903,
      "learning_rate": 8e-05,
      "loss": 1.5286,
      "step": 1230
    },
    {
      "epoch": 0.4492700729927007,
      "grad_norm": 0.6204656362533569,
      "learning_rate": 8e-05,
      "loss": 1.5607,
      "step": 1231
    },
    {
      "epoch": 0.44963503649635034,
      "grad_norm": 0.6187996864318848,
      "learning_rate": 8e-05,
      "loss": 1.552,
      "step": 1232
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6107608079910278,
      "learning_rate": 8e-05,
      "loss": 1.5694,
      "step": 1233
    },
    {
      "epoch": 0.45036496350364963,
      "grad_norm": 0.613460123538971,
      "learning_rate": 8e-05,
      "loss": 1.5336,
      "step": 1234
    },
    {
      "epoch": 0.45072992700729925,
      "grad_norm": 0.6071833372116089,
      "learning_rate": 8e-05,
      "loss": 1.5416,
      "step": 1235
    },
    {
      "epoch": 0.4510948905109489,
      "grad_norm": 0.5994610786437988,
      "learning_rate": 8e-05,
      "loss": 1.4716,
      "step": 1236
    },
    {
      "epoch": 0.45145985401459854,
      "grad_norm": 0.5969593524932861,
      "learning_rate": 8e-05,
      "loss": 1.5869,
      "step": 1237
    },
    {
      "epoch": 0.45182481751824816,
      "grad_norm": 0.5902630090713501,
      "learning_rate": 8e-05,
      "loss": 1.4843,
      "step": 1238
    },
    {
      "epoch": 0.45218978102189783,
      "grad_norm": 0.60610032081604,
      "learning_rate": 8e-05,
      "loss": 1.5668,
      "step": 1239
    },
    {
      "epoch": 0.45255474452554745,
      "grad_norm": 0.5943112969398499,
      "learning_rate": 8e-05,
      "loss": 1.5135,
      "step": 1240
    },
    {
      "epoch": 0.45291970802919707,
      "grad_norm": 0.6072136759757996,
      "learning_rate": 8e-05,
      "loss": 1.5442,
      "step": 1241
    },
    {
      "epoch": 0.45328467153284674,
      "grad_norm": 0.6083335280418396,
      "learning_rate": 8e-05,
      "loss": 1.5921,
      "step": 1242
    },
    {
      "epoch": 0.45364963503649636,
      "grad_norm": 0.5845285058021545,
      "learning_rate": 8e-05,
      "loss": 1.5585,
      "step": 1243
    },
    {
      "epoch": 0.454014598540146,
      "grad_norm": 0.590995728969574,
      "learning_rate": 8e-05,
      "loss": 1.616,
      "step": 1244
    },
    {
      "epoch": 0.4543795620437956,
      "grad_norm": 0.5968385934829712,
      "learning_rate": 8e-05,
      "loss": 1.5716,
      "step": 1245
    },
    {
      "epoch": 0.45474452554744527,
      "grad_norm": 0.6002662181854248,
      "learning_rate": 8e-05,
      "loss": 1.5252,
      "step": 1246
    },
    {
      "epoch": 0.4551094890510949,
      "grad_norm": 0.6099027395248413,
      "learning_rate": 8e-05,
      "loss": 1.5824,
      "step": 1247
    },
    {
      "epoch": 0.4554744525547445,
      "grad_norm": 0.6031761169433594,
      "learning_rate": 8e-05,
      "loss": 1.5756,
      "step": 1248
    },
    {
      "epoch": 0.4558394160583942,
      "grad_norm": 0.6003098487854004,
      "learning_rate": 8e-05,
      "loss": 1.5554,
      "step": 1249
    },
    {
      "epoch": 0.4562043795620438,
      "grad_norm": 0.6063555479049683,
      "learning_rate": 8e-05,
      "loss": 1.5805,
      "step": 1250
    },
    {
      "epoch": 0.4565693430656934,
      "grad_norm": 0.6375188231468201,
      "learning_rate": 8e-05,
      "loss": 1.6347,
      "step": 1251
    },
    {
      "epoch": 0.4569343065693431,
      "grad_norm": 0.6224212050437927,
      "learning_rate": 8e-05,
      "loss": 1.581,
      "step": 1252
    },
    {
      "epoch": 0.4572992700729927,
      "grad_norm": 0.6132611036300659,
      "learning_rate": 8e-05,
      "loss": 1.5129,
      "step": 1253
    },
    {
      "epoch": 0.4576642335766423,
      "grad_norm": 0.6127802133560181,
      "learning_rate": 8e-05,
      "loss": 1.5378,
      "step": 1254
    },
    {
      "epoch": 0.458029197080292,
      "grad_norm": 0.6211683750152588,
      "learning_rate": 8e-05,
      "loss": 1.5812,
      "step": 1255
    },
    {
      "epoch": 0.4583941605839416,
      "grad_norm": 0.6363902688026428,
      "learning_rate": 8e-05,
      "loss": 1.5664,
      "step": 1256
    },
    {
      "epoch": 0.45875912408759123,
      "grad_norm": 0.6209169626235962,
      "learning_rate": 8e-05,
      "loss": 1.5045,
      "step": 1257
    },
    {
      "epoch": 0.4591240875912409,
      "grad_norm": 0.6046295166015625,
      "learning_rate": 8e-05,
      "loss": 1.5484,
      "step": 1258
    },
    {
      "epoch": 0.4594890510948905,
      "grad_norm": 0.5904935598373413,
      "learning_rate": 8e-05,
      "loss": 1.5322,
      "step": 1259
    },
    {
      "epoch": 0.45985401459854014,
      "grad_norm": 0.6169421076774597,
      "learning_rate": 8e-05,
      "loss": 1.5543,
      "step": 1260
    },
    {
      "epoch": 0.46021897810218976,
      "grad_norm": 0.5814032554626465,
      "learning_rate": 8e-05,
      "loss": 1.5264,
      "step": 1261
    },
    {
      "epoch": 0.46058394160583943,
      "grad_norm": 0.57820063829422,
      "learning_rate": 8e-05,
      "loss": 1.482,
      "step": 1262
    },
    {
      "epoch": 0.46094890510948905,
      "grad_norm": 0.5807576179504395,
      "learning_rate": 8e-05,
      "loss": 1.4168,
      "step": 1263
    },
    {
      "epoch": 0.46131386861313867,
      "grad_norm": 0.6391890048980713,
      "learning_rate": 8e-05,
      "loss": 1.5445,
      "step": 1264
    },
    {
      "epoch": 0.46167883211678834,
      "grad_norm": 0.6075394749641418,
      "learning_rate": 8e-05,
      "loss": 1.5817,
      "step": 1265
    },
    {
      "epoch": 0.46204379562043796,
      "grad_norm": 0.6136939525604248,
      "learning_rate": 8e-05,
      "loss": 1.5886,
      "step": 1266
    },
    {
      "epoch": 0.4624087591240876,
      "grad_norm": 0.5778914093971252,
      "learning_rate": 8e-05,
      "loss": 1.5599,
      "step": 1267
    },
    {
      "epoch": 0.46277372262773725,
      "grad_norm": 0.622744083404541,
      "learning_rate": 8e-05,
      "loss": 1.5474,
      "step": 1268
    },
    {
      "epoch": 0.46313868613138687,
      "grad_norm": 0.6131471395492554,
      "learning_rate": 8e-05,
      "loss": 1.5373,
      "step": 1269
    },
    {
      "epoch": 0.4635036496350365,
      "grad_norm": 0.6381459832191467,
      "learning_rate": 8e-05,
      "loss": 1.5486,
      "step": 1270
    },
    {
      "epoch": 0.46386861313868616,
      "grad_norm": 0.620707094669342,
      "learning_rate": 8e-05,
      "loss": 1.4822,
      "step": 1271
    },
    {
      "epoch": 0.4642335766423358,
      "grad_norm": 0.5970485806465149,
      "learning_rate": 8e-05,
      "loss": 1.567,
      "step": 1272
    },
    {
      "epoch": 0.4645985401459854,
      "grad_norm": 0.6241363883018494,
      "learning_rate": 8e-05,
      "loss": 1.4927,
      "step": 1273
    },
    {
      "epoch": 0.464963503649635,
      "grad_norm": 0.6068500280380249,
      "learning_rate": 8e-05,
      "loss": 1.6146,
      "step": 1274
    },
    {
      "epoch": 0.4653284671532847,
      "grad_norm": 0.5990890264511108,
      "learning_rate": 8e-05,
      "loss": 1.4758,
      "step": 1275
    },
    {
      "epoch": 0.4656934306569343,
      "grad_norm": 0.6007921695709229,
      "learning_rate": 8e-05,
      "loss": 1.4837,
      "step": 1276
    },
    {
      "epoch": 0.4660583941605839,
      "grad_norm": 0.6038994193077087,
      "learning_rate": 8e-05,
      "loss": 1.5738,
      "step": 1277
    },
    {
      "epoch": 0.4664233576642336,
      "grad_norm": 0.5804620385169983,
      "learning_rate": 8e-05,
      "loss": 1.5761,
      "step": 1278
    },
    {
      "epoch": 0.4667883211678832,
      "grad_norm": 0.6385233998298645,
      "learning_rate": 8e-05,
      "loss": 1.567,
      "step": 1279
    },
    {
      "epoch": 0.46715328467153283,
      "grad_norm": 0.5900548100471497,
      "learning_rate": 8e-05,
      "loss": 1.5369,
      "step": 1280
    },
    {
      "epoch": 0.4675182481751825,
      "grad_norm": 0.5917353630065918,
      "learning_rate": 8e-05,
      "loss": 1.513,
      "step": 1281
    },
    {
      "epoch": 0.4678832116788321,
      "grad_norm": 0.6110081076622009,
      "learning_rate": 8e-05,
      "loss": 1.5752,
      "step": 1282
    },
    {
      "epoch": 0.46824817518248174,
      "grad_norm": 0.5905867218971252,
      "learning_rate": 8e-05,
      "loss": 1.5599,
      "step": 1283
    },
    {
      "epoch": 0.4686131386861314,
      "grad_norm": 0.6227750778198242,
      "learning_rate": 8e-05,
      "loss": 1.5452,
      "step": 1284
    },
    {
      "epoch": 0.46897810218978103,
      "grad_norm": 0.6023094654083252,
      "learning_rate": 8e-05,
      "loss": 1.5259,
      "step": 1285
    },
    {
      "epoch": 0.46934306569343065,
      "grad_norm": 0.6297712326049805,
      "learning_rate": 8e-05,
      "loss": 1.537,
      "step": 1286
    },
    {
      "epoch": 0.46970802919708027,
      "grad_norm": 0.5995941162109375,
      "learning_rate": 8e-05,
      "loss": 1.5599,
      "step": 1287
    },
    {
      "epoch": 0.47007299270072994,
      "grad_norm": 0.6283068060874939,
      "learning_rate": 8e-05,
      "loss": 1.563,
      "step": 1288
    },
    {
      "epoch": 0.47043795620437956,
      "grad_norm": 0.5810991525650024,
      "learning_rate": 8e-05,
      "loss": 1.483,
      "step": 1289
    },
    {
      "epoch": 0.4708029197080292,
      "grad_norm": 0.653920590877533,
      "learning_rate": 8e-05,
      "loss": 1.623,
      "step": 1290
    },
    {
      "epoch": 0.47116788321167885,
      "grad_norm": 0.6088377833366394,
      "learning_rate": 8e-05,
      "loss": 1.6455,
      "step": 1291
    },
    {
      "epoch": 0.47153284671532847,
      "grad_norm": 0.6190731525421143,
      "learning_rate": 8e-05,
      "loss": 1.5828,
      "step": 1292
    },
    {
      "epoch": 0.4718978102189781,
      "grad_norm": 0.5892987251281738,
      "learning_rate": 8e-05,
      "loss": 1.5572,
      "step": 1293
    },
    {
      "epoch": 0.47226277372262776,
      "grad_norm": 0.6086974740028381,
      "learning_rate": 8e-05,
      "loss": 1.5493,
      "step": 1294
    },
    {
      "epoch": 0.4726277372262774,
      "grad_norm": 0.6036272048950195,
      "learning_rate": 8e-05,
      "loss": 1.5418,
      "step": 1295
    },
    {
      "epoch": 0.472992700729927,
      "grad_norm": 0.6243341565132141,
      "learning_rate": 8e-05,
      "loss": 1.5164,
      "step": 1296
    },
    {
      "epoch": 0.47335766423357667,
      "grad_norm": 0.6068741083145142,
      "learning_rate": 8e-05,
      "loss": 1.6053,
      "step": 1297
    },
    {
      "epoch": 0.4737226277372263,
      "grad_norm": 0.6010516881942749,
      "learning_rate": 8e-05,
      "loss": 1.6172,
      "step": 1298
    },
    {
      "epoch": 0.4740875912408759,
      "grad_norm": 0.614109992980957,
      "learning_rate": 8e-05,
      "loss": 1.5095,
      "step": 1299
    },
    {
      "epoch": 0.4744525547445255,
      "grad_norm": 0.5963239669799805,
      "learning_rate": 8e-05,
      "loss": 1.5063,
      "step": 1300
    },
    {
      "epoch": 0.4748175182481752,
      "grad_norm": 0.6301975250244141,
      "learning_rate": 8e-05,
      "loss": 1.5668,
      "step": 1301
    },
    {
      "epoch": 0.4751824817518248,
      "grad_norm": 0.6258288025856018,
      "learning_rate": 8e-05,
      "loss": 1.5507,
      "step": 1302
    },
    {
      "epoch": 0.47554744525547443,
      "grad_norm": 0.6130732297897339,
      "learning_rate": 8e-05,
      "loss": 1.5358,
      "step": 1303
    },
    {
      "epoch": 0.4759124087591241,
      "grad_norm": 0.6059991121292114,
      "learning_rate": 8e-05,
      "loss": 1.5568,
      "step": 1304
    },
    {
      "epoch": 0.4762773722627737,
      "grad_norm": 0.6109252572059631,
      "learning_rate": 8e-05,
      "loss": 1.5848,
      "step": 1305
    },
    {
      "epoch": 0.47664233576642334,
      "grad_norm": 0.6113179922103882,
      "learning_rate": 8e-05,
      "loss": 1.5594,
      "step": 1306
    },
    {
      "epoch": 0.477007299270073,
      "grad_norm": 0.599074125289917,
      "learning_rate": 8e-05,
      "loss": 1.6166,
      "step": 1307
    },
    {
      "epoch": 0.47737226277372263,
      "grad_norm": 0.619619607925415,
      "learning_rate": 8e-05,
      "loss": 1.5951,
      "step": 1308
    },
    {
      "epoch": 0.47773722627737225,
      "grad_norm": 0.6050245761871338,
      "learning_rate": 8e-05,
      "loss": 1.5089,
      "step": 1309
    },
    {
      "epoch": 0.4781021897810219,
      "grad_norm": 0.619701623916626,
      "learning_rate": 8e-05,
      "loss": 1.6392,
      "step": 1310
    },
    {
      "epoch": 0.47846715328467154,
      "grad_norm": 0.6108168363571167,
      "learning_rate": 8e-05,
      "loss": 1.5569,
      "step": 1311
    },
    {
      "epoch": 0.47883211678832116,
      "grad_norm": 0.6189038753509521,
      "learning_rate": 8e-05,
      "loss": 1.6476,
      "step": 1312
    },
    {
      "epoch": 0.4791970802919708,
      "grad_norm": 0.6119335889816284,
      "learning_rate": 8e-05,
      "loss": 1.5471,
      "step": 1313
    },
    {
      "epoch": 0.47956204379562045,
      "grad_norm": 0.6212897300720215,
      "learning_rate": 8e-05,
      "loss": 1.6177,
      "step": 1314
    },
    {
      "epoch": 0.47992700729927007,
      "grad_norm": 0.6297242641448975,
      "learning_rate": 8e-05,
      "loss": 1.5551,
      "step": 1315
    },
    {
      "epoch": 0.4802919708029197,
      "grad_norm": 0.6037872433662415,
      "learning_rate": 8e-05,
      "loss": 1.5226,
      "step": 1316
    },
    {
      "epoch": 0.48065693430656936,
      "grad_norm": 0.6249723434448242,
      "learning_rate": 8e-05,
      "loss": 1.6364,
      "step": 1317
    },
    {
      "epoch": 0.481021897810219,
      "grad_norm": 0.598868191242218,
      "learning_rate": 8e-05,
      "loss": 1.5492,
      "step": 1318
    },
    {
      "epoch": 0.4813868613138686,
      "grad_norm": 0.617393970489502,
      "learning_rate": 8e-05,
      "loss": 1.5158,
      "step": 1319
    },
    {
      "epoch": 0.48175182481751827,
      "grad_norm": 0.5984540581703186,
      "learning_rate": 8e-05,
      "loss": 1.5334,
      "step": 1320
    },
    {
      "epoch": 0.4821167883211679,
      "grad_norm": 0.6307247877120972,
      "learning_rate": 8e-05,
      "loss": 1.5572,
      "step": 1321
    },
    {
      "epoch": 0.4824817518248175,
      "grad_norm": 0.5996445417404175,
      "learning_rate": 8e-05,
      "loss": 1.589,
      "step": 1322
    },
    {
      "epoch": 0.4828467153284672,
      "grad_norm": 0.6355319023132324,
      "learning_rate": 8e-05,
      "loss": 1.6183,
      "step": 1323
    },
    {
      "epoch": 0.4832116788321168,
      "grad_norm": 0.6183661222457886,
      "learning_rate": 8e-05,
      "loss": 1.6194,
      "step": 1324
    },
    {
      "epoch": 0.4835766423357664,
      "grad_norm": 0.6167054176330566,
      "learning_rate": 8e-05,
      "loss": 1.5393,
      "step": 1325
    },
    {
      "epoch": 0.48394160583941603,
      "grad_norm": 0.5747185945510864,
      "learning_rate": 8e-05,
      "loss": 1.5499,
      "step": 1326
    },
    {
      "epoch": 0.4843065693430657,
      "grad_norm": 0.6319423913955688,
      "learning_rate": 8e-05,
      "loss": 1.6448,
      "step": 1327
    },
    {
      "epoch": 0.4846715328467153,
      "grad_norm": 0.5917769074440002,
      "learning_rate": 8e-05,
      "loss": 1.5576,
      "step": 1328
    },
    {
      "epoch": 0.48503649635036494,
      "grad_norm": 0.6044349074363708,
      "learning_rate": 8e-05,
      "loss": 1.5876,
      "step": 1329
    },
    {
      "epoch": 0.4854014598540146,
      "grad_norm": 0.590899646282196,
      "learning_rate": 8e-05,
      "loss": 1.5391,
      "step": 1330
    },
    {
      "epoch": 0.48576642335766423,
      "grad_norm": 0.6194184422492981,
      "learning_rate": 8e-05,
      "loss": 1.5511,
      "step": 1331
    },
    {
      "epoch": 0.48613138686131385,
      "grad_norm": 0.6214600205421448,
      "learning_rate": 8e-05,
      "loss": 1.5883,
      "step": 1332
    },
    {
      "epoch": 0.4864963503649635,
      "grad_norm": 0.6261482238769531,
      "learning_rate": 8e-05,
      "loss": 1.5862,
      "step": 1333
    },
    {
      "epoch": 0.48686131386861314,
      "grad_norm": 0.618566632270813,
      "learning_rate": 8e-05,
      "loss": 1.5859,
      "step": 1334
    },
    {
      "epoch": 0.48722627737226276,
      "grad_norm": 0.6022370457649231,
      "learning_rate": 8e-05,
      "loss": 1.5659,
      "step": 1335
    },
    {
      "epoch": 0.48759124087591244,
      "grad_norm": 0.604587733745575,
      "learning_rate": 8e-05,
      "loss": 1.5258,
      "step": 1336
    },
    {
      "epoch": 0.48795620437956205,
      "grad_norm": 0.601020336151123,
      "learning_rate": 8e-05,
      "loss": 1.4609,
      "step": 1337
    },
    {
      "epoch": 0.48832116788321167,
      "grad_norm": 0.6039317846298218,
      "learning_rate": 8e-05,
      "loss": 1.602,
      "step": 1338
    },
    {
      "epoch": 0.4886861313868613,
      "grad_norm": 0.605198860168457,
      "learning_rate": 8e-05,
      "loss": 1.5782,
      "step": 1339
    },
    {
      "epoch": 0.48905109489051096,
      "grad_norm": 0.6049513816833496,
      "learning_rate": 8e-05,
      "loss": 1.5379,
      "step": 1340
    },
    {
      "epoch": 0.4894160583941606,
      "grad_norm": 0.6107832789421082,
      "learning_rate": 8e-05,
      "loss": 1.5737,
      "step": 1341
    },
    {
      "epoch": 0.4897810218978102,
      "grad_norm": 0.6130779981613159,
      "learning_rate": 8e-05,
      "loss": 1.5817,
      "step": 1342
    },
    {
      "epoch": 0.49014598540145987,
      "grad_norm": 0.6017915606498718,
      "learning_rate": 8e-05,
      "loss": 1.5118,
      "step": 1343
    },
    {
      "epoch": 0.4905109489051095,
      "grad_norm": 0.6047745943069458,
      "learning_rate": 8e-05,
      "loss": 1.5663,
      "step": 1344
    },
    {
      "epoch": 0.4908759124087591,
      "grad_norm": 0.6135331988334656,
      "learning_rate": 8e-05,
      "loss": 1.4874,
      "step": 1345
    },
    {
      "epoch": 0.4912408759124088,
      "grad_norm": 0.6021008491516113,
      "learning_rate": 8e-05,
      "loss": 1.4883,
      "step": 1346
    },
    {
      "epoch": 0.4916058394160584,
      "grad_norm": 0.629456102848053,
      "learning_rate": 8e-05,
      "loss": 1.6008,
      "step": 1347
    },
    {
      "epoch": 0.491970802919708,
      "grad_norm": 0.6053223609924316,
      "learning_rate": 8e-05,
      "loss": 1.6324,
      "step": 1348
    },
    {
      "epoch": 0.4923357664233577,
      "grad_norm": 0.612625241279602,
      "learning_rate": 8e-05,
      "loss": 1.5438,
      "step": 1349
    },
    {
      "epoch": 0.4927007299270073,
      "grad_norm": 0.6034528017044067,
      "learning_rate": 8e-05,
      "loss": 1.6038,
      "step": 1350
    },
    {
      "epoch": 0.4930656934306569,
      "grad_norm": 0.6336878538131714,
      "learning_rate": 8e-05,
      "loss": 1.5972,
      "step": 1351
    },
    {
      "epoch": 0.49343065693430654,
      "grad_norm": 0.6103590726852417,
      "learning_rate": 8e-05,
      "loss": 1.5371,
      "step": 1352
    },
    {
      "epoch": 0.4937956204379562,
      "grad_norm": 0.6265906095504761,
      "learning_rate": 8e-05,
      "loss": 1.5652,
      "step": 1353
    },
    {
      "epoch": 0.49416058394160584,
      "grad_norm": 0.6114044785499573,
      "learning_rate": 8e-05,
      "loss": 1.5132,
      "step": 1354
    },
    {
      "epoch": 0.49452554744525545,
      "grad_norm": 0.6359586119651794,
      "learning_rate": 8e-05,
      "loss": 1.5838,
      "step": 1355
    },
    {
      "epoch": 0.4948905109489051,
      "grad_norm": 0.6073662638664246,
      "learning_rate": 8e-05,
      "loss": 1.5921,
      "step": 1356
    },
    {
      "epoch": 0.49525547445255474,
      "grad_norm": 0.5862885117530823,
      "learning_rate": 8e-05,
      "loss": 1.5223,
      "step": 1357
    },
    {
      "epoch": 0.49562043795620436,
      "grad_norm": 0.6128539443016052,
      "learning_rate": 8e-05,
      "loss": 1.5426,
      "step": 1358
    },
    {
      "epoch": 0.49598540145985404,
      "grad_norm": 0.6147208213806152,
      "learning_rate": 8e-05,
      "loss": 1.4846,
      "step": 1359
    },
    {
      "epoch": 0.49635036496350365,
      "grad_norm": 0.6063293218612671,
      "learning_rate": 8e-05,
      "loss": 1.5196,
      "step": 1360
    },
    {
      "epoch": 0.49671532846715327,
      "grad_norm": 0.5861055850982666,
      "learning_rate": 8e-05,
      "loss": 1.5799,
      "step": 1361
    },
    {
      "epoch": 0.49708029197080295,
      "grad_norm": 0.6179605722427368,
      "learning_rate": 8e-05,
      "loss": 1.5627,
      "step": 1362
    },
    {
      "epoch": 0.49744525547445256,
      "grad_norm": 0.6072041392326355,
      "learning_rate": 8e-05,
      "loss": 1.5376,
      "step": 1363
    },
    {
      "epoch": 0.4978102189781022,
      "grad_norm": 0.6039944291114807,
      "learning_rate": 8e-05,
      "loss": 1.5533,
      "step": 1364
    },
    {
      "epoch": 0.4981751824817518,
      "grad_norm": 0.6122746467590332,
      "learning_rate": 8e-05,
      "loss": 1.5572,
      "step": 1365
    },
    {
      "epoch": 0.4985401459854015,
      "grad_norm": 0.6239768862724304,
      "learning_rate": 8e-05,
      "loss": 1.6288,
      "step": 1366
    },
    {
      "epoch": 0.4989051094890511,
      "grad_norm": 0.6143590807914734,
      "learning_rate": 8e-05,
      "loss": 1.5997,
      "step": 1367
    },
    {
      "epoch": 0.4992700729927007,
      "grad_norm": 0.6064654588699341,
      "learning_rate": 8e-05,
      "loss": 1.5625,
      "step": 1368
    },
    {
      "epoch": 0.4996350364963504,
      "grad_norm": 0.5898908972740173,
      "learning_rate": 8e-05,
      "loss": 1.5874,
      "step": 1369
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6020641326904297,
      "learning_rate": 8e-05,
      "loss": 1.6029,
      "step": 1370
    },
    {
      "epoch": 0.5003649635036497,
      "grad_norm": 0.5883708000183105,
      "learning_rate": 8e-05,
      "loss": 1.5457,
      "step": 1371
    },
    {
      "epoch": 0.5007299270072992,
      "grad_norm": 0.5955607295036316,
      "learning_rate": 8e-05,
      "loss": 1.5465,
      "step": 1372
    },
    {
      "epoch": 0.5010948905109489,
      "grad_norm": 0.620521068572998,
      "learning_rate": 8e-05,
      "loss": 1.5597,
      "step": 1373
    },
    {
      "epoch": 0.5014598540145986,
      "grad_norm": 0.6113860607147217,
      "learning_rate": 8e-05,
      "loss": 1.52,
      "step": 1374
    },
    {
      "epoch": 0.5018248175182481,
      "grad_norm": 0.59090656042099,
      "learning_rate": 8e-05,
      "loss": 1.5402,
      "step": 1375
    },
    {
      "epoch": 0.5021897810218978,
      "grad_norm": 0.6158014535903931,
      "learning_rate": 8e-05,
      "loss": 1.5359,
      "step": 1376
    },
    {
      "epoch": 0.5025547445255475,
      "grad_norm": 0.604422926902771,
      "learning_rate": 8e-05,
      "loss": 1.604,
      "step": 1377
    },
    {
      "epoch": 0.502919708029197,
      "grad_norm": 0.6101378798484802,
      "learning_rate": 8e-05,
      "loss": 1.5657,
      "step": 1378
    },
    {
      "epoch": 0.5032846715328467,
      "grad_norm": 0.6145671606063843,
      "learning_rate": 8e-05,
      "loss": 1.5888,
      "step": 1379
    },
    {
      "epoch": 0.5036496350364964,
      "grad_norm": 0.610755205154419,
      "learning_rate": 8e-05,
      "loss": 1.5345,
      "step": 1380
    },
    {
      "epoch": 0.504014598540146,
      "grad_norm": 0.6151867508888245,
      "learning_rate": 8e-05,
      "loss": 1.5463,
      "step": 1381
    },
    {
      "epoch": 0.5043795620437956,
      "grad_norm": 0.5981408953666687,
      "learning_rate": 8e-05,
      "loss": 1.5357,
      "step": 1382
    },
    {
      "epoch": 0.5047445255474453,
      "grad_norm": 0.5961540937423706,
      "learning_rate": 8e-05,
      "loss": 1.6255,
      "step": 1383
    },
    {
      "epoch": 0.5051094890510949,
      "grad_norm": 0.6153731942176819,
      "learning_rate": 8e-05,
      "loss": 1.5239,
      "step": 1384
    },
    {
      "epoch": 0.5054744525547445,
      "grad_norm": 0.6192904710769653,
      "learning_rate": 8e-05,
      "loss": 1.5267,
      "step": 1385
    },
    {
      "epoch": 0.5058394160583941,
      "grad_norm": 0.5916823744773865,
      "learning_rate": 8e-05,
      "loss": 1.594,
      "step": 1386
    },
    {
      "epoch": 0.5062043795620438,
      "grad_norm": 0.6085542440414429,
      "learning_rate": 8e-05,
      "loss": 1.5926,
      "step": 1387
    },
    {
      "epoch": 0.5065693430656935,
      "grad_norm": 0.6017062067985535,
      "learning_rate": 8e-05,
      "loss": 1.5661,
      "step": 1388
    },
    {
      "epoch": 0.506934306569343,
      "grad_norm": 0.6220904588699341,
      "learning_rate": 8e-05,
      "loss": 1.4615,
      "step": 1389
    },
    {
      "epoch": 0.5072992700729927,
      "grad_norm": 0.6046919226646423,
      "learning_rate": 8e-05,
      "loss": 1.5642,
      "step": 1390
    },
    {
      "epoch": 0.5076642335766424,
      "grad_norm": 0.6339748501777649,
      "learning_rate": 8e-05,
      "loss": 1.5497,
      "step": 1391
    },
    {
      "epoch": 0.5080291970802919,
      "grad_norm": 0.628000795841217,
      "learning_rate": 8e-05,
      "loss": 1.503,
      "step": 1392
    },
    {
      "epoch": 0.5083941605839416,
      "grad_norm": 0.6293385028839111,
      "learning_rate": 8e-05,
      "loss": 1.5914,
      "step": 1393
    },
    {
      "epoch": 0.5087591240875913,
      "grad_norm": 0.6110689640045166,
      "learning_rate": 8e-05,
      "loss": 1.5775,
      "step": 1394
    },
    {
      "epoch": 0.5091240875912408,
      "grad_norm": 0.5912932753562927,
      "learning_rate": 8e-05,
      "loss": 1.5239,
      "step": 1395
    },
    {
      "epoch": 0.5094890510948905,
      "grad_norm": 0.6354655027389526,
      "learning_rate": 8e-05,
      "loss": 1.5941,
      "step": 1396
    },
    {
      "epoch": 0.5098540145985402,
      "grad_norm": 0.6246505975723267,
      "learning_rate": 8e-05,
      "loss": 1.4836,
      "step": 1397
    },
    {
      "epoch": 0.5102189781021897,
      "grad_norm": 0.6085599064826965,
      "learning_rate": 8e-05,
      "loss": 1.4986,
      "step": 1398
    },
    {
      "epoch": 0.5105839416058394,
      "grad_norm": 0.6329077482223511,
      "learning_rate": 8e-05,
      "loss": 1.5828,
      "step": 1399
    },
    {
      "epoch": 0.5109489051094891,
      "grad_norm": 0.6105955243110657,
      "learning_rate": 8e-05,
      "loss": 1.5822,
      "step": 1400
    },
    {
      "epoch": 0.5113138686131387,
      "grad_norm": 0.620098888874054,
      "learning_rate": 8e-05,
      "loss": 1.55,
      "step": 1401
    },
    {
      "epoch": 0.5116788321167883,
      "grad_norm": 0.5896607041358948,
      "learning_rate": 8e-05,
      "loss": 1.4942,
      "step": 1402
    },
    {
      "epoch": 0.512043795620438,
      "grad_norm": 0.6054309010505676,
      "learning_rate": 8e-05,
      "loss": 1.5516,
      "step": 1403
    },
    {
      "epoch": 0.5124087591240876,
      "grad_norm": 0.6112557649612427,
      "learning_rate": 8e-05,
      "loss": 1.6237,
      "step": 1404
    },
    {
      "epoch": 0.5127737226277372,
      "grad_norm": 0.6143733263015747,
      "learning_rate": 8e-05,
      "loss": 1.5841,
      "step": 1405
    },
    {
      "epoch": 0.5131386861313869,
      "grad_norm": 0.5864593386650085,
      "learning_rate": 8e-05,
      "loss": 1.5166,
      "step": 1406
    },
    {
      "epoch": 0.5135036496350365,
      "grad_norm": 0.5794652104377747,
      "learning_rate": 8e-05,
      "loss": 1.5949,
      "step": 1407
    },
    {
      "epoch": 0.5138686131386861,
      "grad_norm": 0.6166441440582275,
      "learning_rate": 8e-05,
      "loss": 1.5481,
      "step": 1408
    },
    {
      "epoch": 0.5142335766423358,
      "grad_norm": 0.6222687363624573,
      "learning_rate": 8e-05,
      "loss": 1.5088,
      "step": 1409
    },
    {
      "epoch": 0.5145985401459854,
      "grad_norm": 0.5894784927368164,
      "learning_rate": 8e-05,
      "loss": 1.4915,
      "step": 1410
    },
    {
      "epoch": 0.5149635036496351,
      "grad_norm": 0.6026252508163452,
      "learning_rate": 8e-05,
      "loss": 1.4845,
      "step": 1411
    },
    {
      "epoch": 0.5153284671532846,
      "grad_norm": 0.6281338930130005,
      "learning_rate": 8e-05,
      "loss": 1.576,
      "step": 1412
    },
    {
      "epoch": 0.5156934306569343,
      "grad_norm": 0.6035892367362976,
      "learning_rate": 8e-05,
      "loss": 1.5259,
      "step": 1413
    },
    {
      "epoch": 0.516058394160584,
      "grad_norm": 0.6323250532150269,
      "learning_rate": 8e-05,
      "loss": 1.5098,
      "step": 1414
    },
    {
      "epoch": 0.5164233576642335,
      "grad_norm": 0.6070728302001953,
      "learning_rate": 8e-05,
      "loss": 1.5848,
      "step": 1415
    },
    {
      "epoch": 0.5167883211678832,
      "grad_norm": 0.588941752910614,
      "learning_rate": 8e-05,
      "loss": 1.5945,
      "step": 1416
    },
    {
      "epoch": 0.5171532846715329,
      "grad_norm": 0.6213650107383728,
      "learning_rate": 8e-05,
      "loss": 1.5751,
      "step": 1417
    },
    {
      "epoch": 0.5175182481751824,
      "grad_norm": 0.6294574737548828,
      "learning_rate": 8e-05,
      "loss": 1.4837,
      "step": 1418
    },
    {
      "epoch": 0.5178832116788321,
      "grad_norm": 0.5860219597816467,
      "learning_rate": 8e-05,
      "loss": 1.4502,
      "step": 1419
    },
    {
      "epoch": 0.5182481751824818,
      "grad_norm": 0.6255736351013184,
      "learning_rate": 8e-05,
      "loss": 1.558,
      "step": 1420
    },
    {
      "epoch": 0.5186131386861313,
      "grad_norm": 0.6210249662399292,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 1421
    },
    {
      "epoch": 0.518978102189781,
      "grad_norm": 0.6203084588050842,
      "learning_rate": 8e-05,
      "loss": 1.5939,
      "step": 1422
    },
    {
      "epoch": 0.5193430656934307,
      "grad_norm": 0.5764344930648804,
      "learning_rate": 8e-05,
      "loss": 1.4267,
      "step": 1423
    },
    {
      "epoch": 0.5197080291970803,
      "grad_norm": 0.6118853092193604,
      "learning_rate": 8e-05,
      "loss": 1.5503,
      "step": 1424
    },
    {
      "epoch": 0.5200729927007299,
      "grad_norm": 0.6290022730827332,
      "learning_rate": 8e-05,
      "loss": 1.6049,
      "step": 1425
    },
    {
      "epoch": 0.5204379562043796,
      "grad_norm": 0.6102381348609924,
      "learning_rate": 8e-05,
      "loss": 1.5519,
      "step": 1426
    },
    {
      "epoch": 0.5208029197080292,
      "grad_norm": 0.6205718517303467,
      "learning_rate": 8e-05,
      "loss": 1.5186,
      "step": 1427
    },
    {
      "epoch": 0.5211678832116788,
      "grad_norm": 0.613690197467804,
      "learning_rate": 8e-05,
      "loss": 1.5302,
      "step": 1428
    },
    {
      "epoch": 0.5215328467153285,
      "grad_norm": 0.6324545741081238,
      "learning_rate": 8e-05,
      "loss": 1.6356,
      "step": 1429
    },
    {
      "epoch": 0.5218978102189781,
      "grad_norm": 0.5924540758132935,
      "learning_rate": 8e-05,
      "loss": 1.5723,
      "step": 1430
    },
    {
      "epoch": 0.5222627737226277,
      "grad_norm": 0.6255541443824768,
      "learning_rate": 8e-05,
      "loss": 1.5504,
      "step": 1431
    },
    {
      "epoch": 0.5226277372262774,
      "grad_norm": 0.6328362226486206,
      "learning_rate": 8e-05,
      "loss": 1.6457,
      "step": 1432
    },
    {
      "epoch": 0.522992700729927,
      "grad_norm": 0.6036691069602966,
      "learning_rate": 8e-05,
      "loss": 1.5589,
      "step": 1433
    },
    {
      "epoch": 0.5233576642335767,
      "grad_norm": 0.6057813167572021,
      "learning_rate": 8e-05,
      "loss": 1.5026,
      "step": 1434
    },
    {
      "epoch": 0.5237226277372263,
      "grad_norm": 0.5974692702293396,
      "learning_rate": 8e-05,
      "loss": 1.5462,
      "step": 1435
    },
    {
      "epoch": 0.5240875912408759,
      "grad_norm": 0.6085463166236877,
      "learning_rate": 8e-05,
      "loss": 1.6247,
      "step": 1436
    },
    {
      "epoch": 0.5244525547445256,
      "grad_norm": 0.6039720177650452,
      "learning_rate": 8e-05,
      "loss": 1.5382,
      "step": 1437
    },
    {
      "epoch": 0.5248175182481751,
      "grad_norm": 0.6360775828361511,
      "learning_rate": 8e-05,
      "loss": 1.5878,
      "step": 1438
    },
    {
      "epoch": 0.5251824817518248,
      "grad_norm": 0.6091302633285522,
      "learning_rate": 8e-05,
      "loss": 1.445,
      "step": 1439
    },
    {
      "epoch": 0.5255474452554745,
      "grad_norm": 0.6063900589942932,
      "learning_rate": 8e-05,
      "loss": 1.5677,
      "step": 1440
    },
    {
      "epoch": 0.525912408759124,
      "grad_norm": 0.6234834790229797,
      "learning_rate": 8e-05,
      "loss": 1.6404,
      "step": 1441
    },
    {
      "epoch": 0.5262773722627737,
      "grad_norm": 0.6177529692649841,
      "learning_rate": 8e-05,
      "loss": 1.5819,
      "step": 1442
    },
    {
      "epoch": 0.5266423357664234,
      "grad_norm": 0.60146164894104,
      "learning_rate": 8e-05,
      "loss": 1.5564,
      "step": 1443
    },
    {
      "epoch": 0.527007299270073,
      "grad_norm": 0.6024057269096375,
      "learning_rate": 8e-05,
      "loss": 1.5649,
      "step": 1444
    },
    {
      "epoch": 0.5273722627737226,
      "grad_norm": 0.6326308846473694,
      "learning_rate": 8e-05,
      "loss": 1.6045,
      "step": 1445
    },
    {
      "epoch": 0.5277372262773723,
      "grad_norm": 0.6194034218788147,
      "learning_rate": 8e-05,
      "loss": 1.5174,
      "step": 1446
    },
    {
      "epoch": 0.5281021897810219,
      "grad_norm": 0.6263889074325562,
      "learning_rate": 8e-05,
      "loss": 1.5482,
      "step": 1447
    },
    {
      "epoch": 0.5284671532846715,
      "grad_norm": 0.5949687957763672,
      "learning_rate": 8e-05,
      "loss": 1.5126,
      "step": 1448
    },
    {
      "epoch": 0.5288321167883212,
      "grad_norm": 0.603587806224823,
      "learning_rate": 8e-05,
      "loss": 1.5079,
      "step": 1449
    },
    {
      "epoch": 0.5291970802919708,
      "grad_norm": 0.6113109588623047,
      "learning_rate": 8e-05,
      "loss": 1.5391,
      "step": 1450
    },
    {
      "epoch": 0.5295620437956204,
      "grad_norm": 0.6083406805992126,
      "learning_rate": 8e-05,
      "loss": 1.5103,
      "step": 1451
    },
    {
      "epoch": 0.5299270072992701,
      "grad_norm": 0.6161326766014099,
      "learning_rate": 8e-05,
      "loss": 1.6173,
      "step": 1452
    },
    {
      "epoch": 0.5302919708029197,
      "grad_norm": 0.6253945827484131,
      "learning_rate": 8e-05,
      "loss": 1.6548,
      "step": 1453
    },
    {
      "epoch": 0.5306569343065694,
      "grad_norm": 0.5806484222412109,
      "learning_rate": 8e-05,
      "loss": 1.4968,
      "step": 1454
    },
    {
      "epoch": 0.531021897810219,
      "grad_norm": 0.5941059589385986,
      "learning_rate": 8e-05,
      "loss": 1.5168,
      "step": 1455
    },
    {
      "epoch": 0.5313868613138686,
      "grad_norm": 0.5991587042808533,
      "learning_rate": 8e-05,
      "loss": 1.5897,
      "step": 1456
    },
    {
      "epoch": 0.5317518248175183,
      "grad_norm": 0.6522781848907471,
      "learning_rate": 8e-05,
      "loss": 1.6072,
      "step": 1457
    },
    {
      "epoch": 0.5321167883211679,
      "grad_norm": 0.6202040314674377,
      "learning_rate": 8e-05,
      "loss": 1.5338,
      "step": 1458
    },
    {
      "epoch": 0.5324817518248175,
      "grad_norm": 0.6165490746498108,
      "learning_rate": 8e-05,
      "loss": 1.649,
      "step": 1459
    },
    {
      "epoch": 0.5328467153284672,
      "grad_norm": 0.6213845014572144,
      "learning_rate": 8e-05,
      "loss": 1.6055,
      "step": 1460
    },
    {
      "epoch": 0.5332116788321168,
      "grad_norm": 0.5973242521286011,
      "learning_rate": 8e-05,
      "loss": 1.5213,
      "step": 1461
    },
    {
      "epoch": 0.5335766423357664,
      "grad_norm": 0.5971398949623108,
      "learning_rate": 8e-05,
      "loss": 1.5246,
      "step": 1462
    },
    {
      "epoch": 0.5339416058394161,
      "grad_norm": 0.5987704992294312,
      "learning_rate": 8e-05,
      "loss": 1.5034,
      "step": 1463
    },
    {
      "epoch": 0.5343065693430656,
      "grad_norm": 0.613171398639679,
      "learning_rate": 8e-05,
      "loss": 1.5287,
      "step": 1464
    },
    {
      "epoch": 0.5346715328467153,
      "grad_norm": 0.6246048808097839,
      "learning_rate": 8e-05,
      "loss": 1.6227,
      "step": 1465
    },
    {
      "epoch": 0.535036496350365,
      "grad_norm": 0.6235468983650208,
      "learning_rate": 8e-05,
      "loss": 1.5919,
      "step": 1466
    },
    {
      "epoch": 0.5354014598540145,
      "grad_norm": 0.614621639251709,
      "learning_rate": 8e-05,
      "loss": 1.5953,
      "step": 1467
    },
    {
      "epoch": 0.5357664233576642,
      "grad_norm": 0.5947418808937073,
      "learning_rate": 8e-05,
      "loss": 1.5854,
      "step": 1468
    },
    {
      "epoch": 0.5361313868613139,
      "grad_norm": 0.5941926836967468,
      "learning_rate": 8e-05,
      "loss": 1.542,
      "step": 1469
    },
    {
      "epoch": 0.5364963503649635,
      "grad_norm": 0.6030572056770325,
      "learning_rate": 8e-05,
      "loss": 1.5685,
      "step": 1470
    },
    {
      "epoch": 0.5368613138686131,
      "grad_norm": 0.6218368411064148,
      "learning_rate": 8e-05,
      "loss": 1.5141,
      "step": 1471
    },
    {
      "epoch": 0.5372262773722628,
      "grad_norm": 0.6143110394477844,
      "learning_rate": 8e-05,
      "loss": 1.5672,
      "step": 1472
    },
    {
      "epoch": 0.5375912408759124,
      "grad_norm": 0.594168484210968,
      "learning_rate": 8e-05,
      "loss": 1.5073,
      "step": 1473
    },
    {
      "epoch": 0.537956204379562,
      "grad_norm": 0.6274348497390747,
      "learning_rate": 8e-05,
      "loss": 1.5957,
      "step": 1474
    },
    {
      "epoch": 0.5383211678832117,
      "grad_norm": 0.6366040110588074,
      "learning_rate": 8e-05,
      "loss": 1.6487,
      "step": 1475
    },
    {
      "epoch": 0.5386861313868613,
      "grad_norm": 0.639330267906189,
      "learning_rate": 8e-05,
      "loss": 1.4988,
      "step": 1476
    },
    {
      "epoch": 0.539051094890511,
      "grad_norm": 0.6010825037956238,
      "learning_rate": 8e-05,
      "loss": 1.533,
      "step": 1477
    },
    {
      "epoch": 0.5394160583941606,
      "grad_norm": 0.6546698212623596,
      "learning_rate": 8e-05,
      "loss": 1.5268,
      "step": 1478
    },
    {
      "epoch": 0.5397810218978102,
      "grad_norm": 0.6196193099021912,
      "learning_rate": 8e-05,
      "loss": 1.6391,
      "step": 1479
    },
    {
      "epoch": 0.5401459854014599,
      "grad_norm": 0.6611493229866028,
      "learning_rate": 8e-05,
      "loss": 1.5647,
      "step": 1480
    },
    {
      "epoch": 0.5405109489051095,
      "grad_norm": 0.61774742603302,
      "learning_rate": 8e-05,
      "loss": 1.5339,
      "step": 1481
    },
    {
      "epoch": 0.5408759124087591,
      "grad_norm": 0.6393983960151672,
      "learning_rate": 8e-05,
      "loss": 1.4878,
      "step": 1482
    },
    {
      "epoch": 0.5412408759124088,
      "grad_norm": 0.631432056427002,
      "learning_rate": 8e-05,
      "loss": 1.5571,
      "step": 1483
    },
    {
      "epoch": 0.5416058394160584,
      "grad_norm": 0.6340087056159973,
      "learning_rate": 8e-05,
      "loss": 1.5734,
      "step": 1484
    },
    {
      "epoch": 0.541970802919708,
      "grad_norm": 0.6249915361404419,
      "learning_rate": 8e-05,
      "loss": 1.606,
      "step": 1485
    },
    {
      "epoch": 0.5423357664233577,
      "grad_norm": 0.5906211733818054,
      "learning_rate": 8e-05,
      "loss": 1.5397,
      "step": 1486
    },
    {
      "epoch": 0.5427007299270074,
      "grad_norm": 0.6861106753349304,
      "learning_rate": 8e-05,
      "loss": 1.5855,
      "step": 1487
    },
    {
      "epoch": 0.5430656934306569,
      "grad_norm": 0.5979976058006287,
      "learning_rate": 8e-05,
      "loss": 1.5336,
      "step": 1488
    },
    {
      "epoch": 0.5434306569343066,
      "grad_norm": 0.6563170552253723,
      "learning_rate": 8e-05,
      "loss": 1.5592,
      "step": 1489
    },
    {
      "epoch": 0.5437956204379562,
      "grad_norm": 0.6453507542610168,
      "learning_rate": 8e-05,
      "loss": 1.5488,
      "step": 1490
    },
    {
      "epoch": 0.5441605839416058,
      "grad_norm": 0.6470266580581665,
      "learning_rate": 8e-05,
      "loss": 1.5623,
      "step": 1491
    },
    {
      "epoch": 0.5445255474452555,
      "grad_norm": 0.6480869650840759,
      "learning_rate": 8e-05,
      "loss": 1.5335,
      "step": 1492
    },
    {
      "epoch": 0.5448905109489051,
      "grad_norm": 0.6149665713310242,
      "learning_rate": 8e-05,
      "loss": 1.5588,
      "step": 1493
    },
    {
      "epoch": 0.5452554744525547,
      "grad_norm": 0.6546028256416321,
      "learning_rate": 8e-05,
      "loss": 1.5876,
      "step": 1494
    },
    {
      "epoch": 0.5456204379562044,
      "grad_norm": 0.6133884191513062,
      "learning_rate": 8e-05,
      "loss": 1.5829,
      "step": 1495
    },
    {
      "epoch": 0.545985401459854,
      "grad_norm": 0.625307559967041,
      "learning_rate": 8e-05,
      "loss": 1.4484,
      "step": 1496
    },
    {
      "epoch": 0.5463503649635036,
      "grad_norm": 0.5806143283843994,
      "learning_rate": 8e-05,
      "loss": 1.5293,
      "step": 1497
    },
    {
      "epoch": 0.5467153284671533,
      "grad_norm": 0.6099637150764465,
      "learning_rate": 8e-05,
      "loss": 1.5277,
      "step": 1498
    },
    {
      "epoch": 0.5470802919708029,
      "grad_norm": 0.6530802249908447,
      "learning_rate": 8e-05,
      "loss": 1.5968,
      "step": 1499
    },
    {
      "epoch": 0.5474452554744526,
      "grad_norm": 0.6003210544586182,
      "learning_rate": 8e-05,
      "loss": 1.5353,
      "step": 1500
    },
    {
      "epoch": 0.5478102189781022,
      "grad_norm": 0.6118854880332947,
      "learning_rate": 8e-05,
      "loss": 1.4802,
      "step": 1501
    },
    {
      "epoch": 0.5481751824817518,
      "grad_norm": 0.6140987873077393,
      "learning_rate": 8e-05,
      "loss": 1.5181,
      "step": 1502
    },
    {
      "epoch": 0.5485401459854015,
      "grad_norm": 0.6120051741600037,
      "learning_rate": 8e-05,
      "loss": 1.5773,
      "step": 1503
    },
    {
      "epoch": 0.5489051094890511,
      "grad_norm": 0.5874427556991577,
      "learning_rate": 8e-05,
      "loss": 1.5287,
      "step": 1504
    },
    {
      "epoch": 0.5492700729927007,
      "grad_norm": 0.6048665642738342,
      "learning_rate": 8e-05,
      "loss": 1.4934,
      "step": 1505
    },
    {
      "epoch": 0.5496350364963504,
      "grad_norm": 0.6078162789344788,
      "learning_rate": 8e-05,
      "loss": 1.5392,
      "step": 1506
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6133869886398315,
      "learning_rate": 8e-05,
      "loss": 1.5835,
      "step": 1507
    },
    {
      "epoch": 0.5503649635036496,
      "grad_norm": 0.586098849773407,
      "learning_rate": 8e-05,
      "loss": 1.5579,
      "step": 1508
    },
    {
      "epoch": 0.5507299270072993,
      "grad_norm": 0.579843282699585,
      "learning_rate": 8e-05,
      "loss": 1.5578,
      "step": 1509
    },
    {
      "epoch": 0.551094890510949,
      "grad_norm": 0.6203240752220154,
      "learning_rate": 8e-05,
      "loss": 1.5882,
      "step": 1510
    },
    {
      "epoch": 0.5514598540145985,
      "grad_norm": 0.6204885840415955,
      "learning_rate": 8e-05,
      "loss": 1.6429,
      "step": 1511
    },
    {
      "epoch": 0.5518248175182482,
      "grad_norm": 0.6232393980026245,
      "learning_rate": 8e-05,
      "loss": 1.5342,
      "step": 1512
    },
    {
      "epoch": 0.5521897810218979,
      "grad_norm": 0.5983826518058777,
      "learning_rate": 8e-05,
      "loss": 1.5503,
      "step": 1513
    },
    {
      "epoch": 0.5525547445255474,
      "grad_norm": 0.6043297052383423,
      "learning_rate": 8e-05,
      "loss": 1.5664,
      "step": 1514
    },
    {
      "epoch": 0.5529197080291971,
      "grad_norm": 0.6112481355667114,
      "learning_rate": 8e-05,
      "loss": 1.4789,
      "step": 1515
    },
    {
      "epoch": 0.5532846715328467,
      "grad_norm": 0.6243418455123901,
      "learning_rate": 8e-05,
      "loss": 1.4917,
      "step": 1516
    },
    {
      "epoch": 0.5536496350364963,
      "grad_norm": 0.623738706111908,
      "learning_rate": 8e-05,
      "loss": 1.6185,
      "step": 1517
    },
    {
      "epoch": 0.554014598540146,
      "grad_norm": 0.613135814666748,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 1518
    },
    {
      "epoch": 0.5543795620437956,
      "grad_norm": 0.6255961656570435,
      "learning_rate": 8e-05,
      "loss": 1.6177,
      "step": 1519
    },
    {
      "epoch": 0.5547445255474452,
      "grad_norm": 0.5996755361557007,
      "learning_rate": 8e-05,
      "loss": 1.4473,
      "step": 1520
    },
    {
      "epoch": 0.5551094890510949,
      "grad_norm": 0.6070869565010071,
      "learning_rate": 8e-05,
      "loss": 1.5625,
      "step": 1521
    },
    {
      "epoch": 0.5554744525547445,
      "grad_norm": 0.6001400351524353,
      "learning_rate": 8e-05,
      "loss": 1.5099,
      "step": 1522
    },
    {
      "epoch": 0.5558394160583942,
      "grad_norm": 0.6052266955375671,
      "learning_rate": 8e-05,
      "loss": 1.5626,
      "step": 1523
    },
    {
      "epoch": 0.5562043795620438,
      "grad_norm": 0.6074388027191162,
      "learning_rate": 8e-05,
      "loss": 1.552,
      "step": 1524
    },
    {
      "epoch": 0.5565693430656934,
      "grad_norm": 0.6406679749488831,
      "learning_rate": 8e-05,
      "loss": 1.5963,
      "step": 1525
    },
    {
      "epoch": 0.5569343065693431,
      "grad_norm": 0.605793297290802,
      "learning_rate": 8e-05,
      "loss": 1.553,
      "step": 1526
    },
    {
      "epoch": 0.5572992700729927,
      "grad_norm": 0.5955184698104858,
      "learning_rate": 8e-05,
      "loss": 1.5394,
      "step": 1527
    },
    {
      "epoch": 0.5576642335766423,
      "grad_norm": 0.6094686985015869,
      "learning_rate": 8e-05,
      "loss": 1.5308,
      "step": 1528
    },
    {
      "epoch": 0.558029197080292,
      "grad_norm": 0.6226038932800293,
      "learning_rate": 8e-05,
      "loss": 1.5472,
      "step": 1529
    },
    {
      "epoch": 0.5583941605839416,
      "grad_norm": 0.6047564148902893,
      "learning_rate": 8e-05,
      "loss": 1.5629,
      "step": 1530
    },
    {
      "epoch": 0.5587591240875912,
      "grad_norm": 0.6408427357673645,
      "learning_rate": 8e-05,
      "loss": 1.5964,
      "step": 1531
    },
    {
      "epoch": 0.5591240875912409,
      "grad_norm": 0.6120206713676453,
      "learning_rate": 8e-05,
      "loss": 1.5684,
      "step": 1532
    },
    {
      "epoch": 0.5594890510948906,
      "grad_norm": 0.5900372266769409,
      "learning_rate": 8e-05,
      "loss": 1.5421,
      "step": 1533
    },
    {
      "epoch": 0.5598540145985401,
      "grad_norm": 0.6182428002357483,
      "learning_rate": 8e-05,
      "loss": 1.5075,
      "step": 1534
    },
    {
      "epoch": 0.5602189781021898,
      "grad_norm": 0.6032414436340332,
      "learning_rate": 8e-05,
      "loss": 1.5303,
      "step": 1535
    },
    {
      "epoch": 0.5605839416058395,
      "grad_norm": 0.5914093255996704,
      "learning_rate": 8e-05,
      "loss": 1.5672,
      "step": 1536
    },
    {
      "epoch": 0.560948905109489,
      "grad_norm": 0.5976667404174805,
      "learning_rate": 8e-05,
      "loss": 1.5192,
      "step": 1537
    },
    {
      "epoch": 0.5613138686131387,
      "grad_norm": 0.5935755372047424,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 1538
    },
    {
      "epoch": 0.5616788321167884,
      "grad_norm": 0.6545381546020508,
      "learning_rate": 8e-05,
      "loss": 1.636,
      "step": 1539
    },
    {
      "epoch": 0.5620437956204379,
      "grad_norm": 0.5922796130180359,
      "learning_rate": 8e-05,
      "loss": 1.5499,
      "step": 1540
    },
    {
      "epoch": 0.5624087591240876,
      "grad_norm": 0.6044419407844543,
      "learning_rate": 8e-05,
      "loss": 1.5879,
      "step": 1541
    },
    {
      "epoch": 0.5627737226277372,
      "grad_norm": 0.5983037948608398,
      "learning_rate": 8e-05,
      "loss": 1.5486,
      "step": 1542
    },
    {
      "epoch": 0.5631386861313868,
      "grad_norm": 0.6006249189376831,
      "learning_rate": 8e-05,
      "loss": 1.5958,
      "step": 1543
    },
    {
      "epoch": 0.5635036496350365,
      "grad_norm": 0.6265309453010559,
      "learning_rate": 8e-05,
      "loss": 1.6062,
      "step": 1544
    },
    {
      "epoch": 0.5638686131386861,
      "grad_norm": 0.5873587131500244,
      "learning_rate": 8e-05,
      "loss": 1.5892,
      "step": 1545
    },
    {
      "epoch": 0.5642335766423358,
      "grad_norm": 0.582075834274292,
      "learning_rate": 8e-05,
      "loss": 1.5426,
      "step": 1546
    },
    {
      "epoch": 0.5645985401459854,
      "grad_norm": 0.5747785568237305,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 1547
    },
    {
      "epoch": 0.564963503649635,
      "grad_norm": 0.5764844417572021,
      "learning_rate": 8e-05,
      "loss": 1.5368,
      "step": 1548
    },
    {
      "epoch": 0.5653284671532847,
      "grad_norm": 0.6406406760215759,
      "learning_rate": 8e-05,
      "loss": 1.6161,
      "step": 1549
    },
    {
      "epoch": 0.5656934306569343,
      "grad_norm": 0.6099917888641357,
      "learning_rate": 8e-05,
      "loss": 1.5772,
      "step": 1550
    },
    {
      "epoch": 0.5660583941605839,
      "grad_norm": 0.5891173481941223,
      "learning_rate": 8e-05,
      "loss": 1.5286,
      "step": 1551
    },
    {
      "epoch": 0.5664233576642336,
      "grad_norm": 0.5927788615226746,
      "learning_rate": 8e-05,
      "loss": 1.4271,
      "step": 1552
    },
    {
      "epoch": 0.5667883211678832,
      "grad_norm": 0.6082319021224976,
      "learning_rate": 8e-05,
      "loss": 1.5269,
      "step": 1553
    },
    {
      "epoch": 0.5671532846715328,
      "grad_norm": 0.6222923994064331,
      "learning_rate": 8e-05,
      "loss": 1.5598,
      "step": 1554
    },
    {
      "epoch": 0.5675182481751825,
      "grad_norm": 0.623330295085907,
      "learning_rate": 8e-05,
      "loss": 1.5676,
      "step": 1555
    },
    {
      "epoch": 0.5678832116788322,
      "grad_norm": 0.5825626254081726,
      "learning_rate": 8e-05,
      "loss": 1.4658,
      "step": 1556
    },
    {
      "epoch": 0.5682481751824817,
      "grad_norm": 0.6367984414100647,
      "learning_rate": 8e-05,
      "loss": 1.5977,
      "step": 1557
    },
    {
      "epoch": 0.5686131386861314,
      "grad_norm": 0.5938089489936829,
      "learning_rate": 8e-05,
      "loss": 1.5849,
      "step": 1558
    },
    {
      "epoch": 0.5689781021897811,
      "grad_norm": 0.626369833946228,
      "learning_rate": 8e-05,
      "loss": 1.5815,
      "step": 1559
    },
    {
      "epoch": 0.5693430656934306,
      "grad_norm": 0.631465494632721,
      "learning_rate": 8e-05,
      "loss": 1.5616,
      "step": 1560
    },
    {
      "epoch": 0.5697080291970803,
      "grad_norm": 0.6106184720993042,
      "learning_rate": 8e-05,
      "loss": 1.5346,
      "step": 1561
    },
    {
      "epoch": 0.57007299270073,
      "grad_norm": 0.6075619459152222,
      "learning_rate": 8e-05,
      "loss": 1.615,
      "step": 1562
    },
    {
      "epoch": 0.5704379562043795,
      "grad_norm": 0.6157915592193604,
      "learning_rate": 8e-05,
      "loss": 1.5211,
      "step": 1563
    },
    {
      "epoch": 0.5708029197080292,
      "grad_norm": 0.6077512502670288,
      "learning_rate": 8e-05,
      "loss": 1.5529,
      "step": 1564
    },
    {
      "epoch": 0.5711678832116789,
      "grad_norm": 0.6013193726539612,
      "learning_rate": 8e-05,
      "loss": 1.5243,
      "step": 1565
    },
    {
      "epoch": 0.5715328467153284,
      "grad_norm": 0.6135619282722473,
      "learning_rate": 8e-05,
      "loss": 1.5491,
      "step": 1566
    },
    {
      "epoch": 0.5718978102189781,
      "grad_norm": 0.5935738682746887,
      "learning_rate": 8e-05,
      "loss": 1.4937,
      "step": 1567
    },
    {
      "epoch": 0.5722627737226277,
      "grad_norm": 0.5984445214271545,
      "learning_rate": 8e-05,
      "loss": 1.4591,
      "step": 1568
    },
    {
      "epoch": 0.5726277372262774,
      "grad_norm": 0.605689525604248,
      "learning_rate": 8e-05,
      "loss": 1.4925,
      "step": 1569
    },
    {
      "epoch": 0.572992700729927,
      "grad_norm": 0.6260815262794495,
      "learning_rate": 8e-05,
      "loss": 1.5691,
      "step": 1570
    },
    {
      "epoch": 0.5733576642335766,
      "grad_norm": 0.588253915309906,
      "learning_rate": 8e-05,
      "loss": 1.5948,
      "step": 1571
    },
    {
      "epoch": 0.5737226277372263,
      "grad_norm": 0.5993397831916809,
      "learning_rate": 8e-05,
      "loss": 1.4878,
      "step": 1572
    },
    {
      "epoch": 0.5740875912408759,
      "grad_norm": 0.5835077166557312,
      "learning_rate": 8e-05,
      "loss": 1.4896,
      "step": 1573
    },
    {
      "epoch": 0.5744525547445255,
      "grad_norm": 0.6270421743392944,
      "learning_rate": 8e-05,
      "loss": 1.568,
      "step": 1574
    },
    {
      "epoch": 0.5748175182481752,
      "grad_norm": 0.5893378853797913,
      "learning_rate": 8e-05,
      "loss": 1.5154,
      "step": 1575
    },
    {
      "epoch": 0.5751824817518248,
      "grad_norm": 0.6440851092338562,
      "learning_rate": 8e-05,
      "loss": 1.572,
      "step": 1576
    },
    {
      "epoch": 0.5755474452554744,
      "grad_norm": 0.5618074536323547,
      "learning_rate": 8e-05,
      "loss": 1.4311,
      "step": 1577
    },
    {
      "epoch": 0.5759124087591241,
      "grad_norm": 0.6004955768585205,
      "learning_rate": 8e-05,
      "loss": 1.5774,
      "step": 1578
    },
    {
      "epoch": 0.5762773722627738,
      "grad_norm": 0.5993953943252563,
      "learning_rate": 8e-05,
      "loss": 1.5163,
      "step": 1579
    },
    {
      "epoch": 0.5766423357664233,
      "grad_norm": 0.6504215598106384,
      "learning_rate": 8e-05,
      "loss": 1.5309,
      "step": 1580
    },
    {
      "epoch": 0.577007299270073,
      "grad_norm": 0.60772705078125,
      "learning_rate": 8e-05,
      "loss": 1.6043,
      "step": 1581
    },
    {
      "epoch": 0.5773722627737227,
      "grad_norm": 0.5933658480644226,
      "learning_rate": 8e-05,
      "loss": 1.4839,
      "step": 1582
    },
    {
      "epoch": 0.5777372262773722,
      "grad_norm": 0.6162964701652527,
      "learning_rate": 8e-05,
      "loss": 1.6083,
      "step": 1583
    },
    {
      "epoch": 0.5781021897810219,
      "grad_norm": 0.5911674499511719,
      "learning_rate": 8e-05,
      "loss": 1.5335,
      "step": 1584
    },
    {
      "epoch": 0.5784671532846716,
      "grad_norm": 0.5850279927253723,
      "learning_rate": 8e-05,
      "loss": 1.5882,
      "step": 1585
    },
    {
      "epoch": 0.5788321167883211,
      "grad_norm": 0.5986894369125366,
      "learning_rate": 8e-05,
      "loss": 1.535,
      "step": 1586
    },
    {
      "epoch": 0.5791970802919708,
      "grad_norm": 0.6071265339851379,
      "learning_rate": 8e-05,
      "loss": 1.5839,
      "step": 1587
    },
    {
      "epoch": 0.5795620437956205,
      "grad_norm": 0.5787128806114197,
      "learning_rate": 8e-05,
      "loss": 1.4682,
      "step": 1588
    },
    {
      "epoch": 0.57992700729927,
      "grad_norm": 0.6185327768325806,
      "learning_rate": 8e-05,
      "loss": 1.4583,
      "step": 1589
    },
    {
      "epoch": 0.5802919708029197,
      "grad_norm": 0.6076833009719849,
      "learning_rate": 8e-05,
      "loss": 1.578,
      "step": 1590
    },
    {
      "epoch": 0.5806569343065694,
      "grad_norm": 0.6115499138832092,
      "learning_rate": 8e-05,
      "loss": 1.4604,
      "step": 1591
    },
    {
      "epoch": 0.581021897810219,
      "grad_norm": 0.6096017360687256,
      "learning_rate": 8e-05,
      "loss": 1.5814,
      "step": 1592
    },
    {
      "epoch": 0.5813868613138686,
      "grad_norm": 0.6449816226959229,
      "learning_rate": 8e-05,
      "loss": 1.6403,
      "step": 1593
    },
    {
      "epoch": 0.5817518248175182,
      "grad_norm": 0.6086476445198059,
      "learning_rate": 8e-05,
      "loss": 1.5982,
      "step": 1594
    },
    {
      "epoch": 0.5821167883211679,
      "grad_norm": 0.584874153137207,
      "learning_rate": 8e-05,
      "loss": 1.5211,
      "step": 1595
    },
    {
      "epoch": 0.5824817518248175,
      "grad_norm": 0.6047146320343018,
      "learning_rate": 8e-05,
      "loss": 1.5373,
      "step": 1596
    },
    {
      "epoch": 0.5828467153284671,
      "grad_norm": 0.577731728553772,
      "learning_rate": 8e-05,
      "loss": 1.5199,
      "step": 1597
    },
    {
      "epoch": 0.5832116788321168,
      "grad_norm": 0.6064661741256714,
      "learning_rate": 8e-05,
      "loss": 1.5632,
      "step": 1598
    },
    {
      "epoch": 0.5835766423357664,
      "grad_norm": 0.6133626699447632,
      "learning_rate": 8e-05,
      "loss": 1.5595,
      "step": 1599
    },
    {
      "epoch": 0.583941605839416,
      "grad_norm": 0.592004656791687,
      "learning_rate": 8e-05,
      "loss": 1.5174,
      "step": 1600
    },
    {
      "epoch": 0.5843065693430657,
      "grad_norm": 0.5967711210250854,
      "learning_rate": 8e-05,
      "loss": 1.5065,
      "step": 1601
    },
    {
      "epoch": 0.5846715328467154,
      "grad_norm": 0.5837851762771606,
      "learning_rate": 8e-05,
      "loss": 1.5155,
      "step": 1602
    },
    {
      "epoch": 0.5850364963503649,
      "grad_norm": 0.5866342186927795,
      "learning_rate": 8e-05,
      "loss": 1.5568,
      "step": 1603
    },
    {
      "epoch": 0.5854014598540146,
      "grad_norm": 0.6242262125015259,
      "learning_rate": 8e-05,
      "loss": 1.5558,
      "step": 1604
    },
    {
      "epoch": 0.5857664233576643,
      "grad_norm": 0.634689211845398,
      "learning_rate": 8e-05,
      "loss": 1.5812,
      "step": 1605
    },
    {
      "epoch": 0.5861313868613138,
      "grad_norm": 0.6132849454879761,
      "learning_rate": 8e-05,
      "loss": 1.5315,
      "step": 1606
    },
    {
      "epoch": 0.5864963503649635,
      "grad_norm": 0.6052902340888977,
      "learning_rate": 8e-05,
      "loss": 1.5751,
      "step": 1607
    },
    {
      "epoch": 0.5868613138686132,
      "grad_norm": 0.6091728210449219,
      "learning_rate": 8e-05,
      "loss": 1.5274,
      "step": 1608
    },
    {
      "epoch": 0.5872262773722627,
      "grad_norm": 0.5966370105743408,
      "learning_rate": 8e-05,
      "loss": 1.5212,
      "step": 1609
    },
    {
      "epoch": 0.5875912408759124,
      "grad_norm": 0.622066855430603,
      "learning_rate": 8e-05,
      "loss": 1.5546,
      "step": 1610
    },
    {
      "epoch": 0.5879562043795621,
      "grad_norm": 0.6207364797592163,
      "learning_rate": 8e-05,
      "loss": 1.5058,
      "step": 1611
    },
    {
      "epoch": 0.5883211678832116,
      "grad_norm": 0.6284182667732239,
      "learning_rate": 8e-05,
      "loss": 1.6127,
      "step": 1612
    },
    {
      "epoch": 0.5886861313868613,
      "grad_norm": 0.6138371229171753,
      "learning_rate": 8e-05,
      "loss": 1.531,
      "step": 1613
    },
    {
      "epoch": 0.589051094890511,
      "grad_norm": 0.6220477223396301,
      "learning_rate": 8e-05,
      "loss": 1.5201,
      "step": 1614
    },
    {
      "epoch": 0.5894160583941606,
      "grad_norm": 0.6418808698654175,
      "learning_rate": 8e-05,
      "loss": 1.5954,
      "step": 1615
    },
    {
      "epoch": 0.5897810218978102,
      "grad_norm": 0.5970908403396606,
      "learning_rate": 8e-05,
      "loss": 1.5528,
      "step": 1616
    },
    {
      "epoch": 0.5901459854014599,
      "grad_norm": 0.611100971698761,
      "learning_rate": 8e-05,
      "loss": 1.5016,
      "step": 1617
    },
    {
      "epoch": 0.5905109489051095,
      "grad_norm": 0.6121522188186646,
      "learning_rate": 8e-05,
      "loss": 1.5493,
      "step": 1618
    },
    {
      "epoch": 0.5908759124087591,
      "grad_norm": 0.59917151927948,
      "learning_rate": 8e-05,
      "loss": 1.5509,
      "step": 1619
    },
    {
      "epoch": 0.5912408759124088,
      "grad_norm": 0.6164079308509827,
      "learning_rate": 8e-05,
      "loss": 1.5223,
      "step": 1620
    },
    {
      "epoch": 0.5916058394160584,
      "grad_norm": 0.5988422632217407,
      "learning_rate": 8e-05,
      "loss": 1.4567,
      "step": 1621
    },
    {
      "epoch": 0.591970802919708,
      "grad_norm": 0.5896238684654236,
      "learning_rate": 8e-05,
      "loss": 1.5714,
      "step": 1622
    },
    {
      "epoch": 0.5923357664233576,
      "grad_norm": 0.6313823461532593,
      "learning_rate": 8e-05,
      "loss": 1.5125,
      "step": 1623
    },
    {
      "epoch": 0.5927007299270073,
      "grad_norm": 0.610775351524353,
      "learning_rate": 8e-05,
      "loss": 1.5377,
      "step": 1624
    },
    {
      "epoch": 0.593065693430657,
      "grad_norm": 0.5942521691322327,
      "learning_rate": 8e-05,
      "loss": 1.5486,
      "step": 1625
    },
    {
      "epoch": 0.5934306569343065,
      "grad_norm": 0.6132884621620178,
      "learning_rate": 8e-05,
      "loss": 1.5063,
      "step": 1626
    },
    {
      "epoch": 0.5937956204379562,
      "grad_norm": 0.5876681208610535,
      "learning_rate": 8e-05,
      "loss": 1.5908,
      "step": 1627
    },
    {
      "epoch": 0.5941605839416059,
      "grad_norm": 0.6401581764221191,
      "learning_rate": 8e-05,
      "loss": 1.6466,
      "step": 1628
    },
    {
      "epoch": 0.5945255474452554,
      "grad_norm": 0.6352970004081726,
      "learning_rate": 8e-05,
      "loss": 1.5053,
      "step": 1629
    },
    {
      "epoch": 0.5948905109489051,
      "grad_norm": 0.6287481188774109,
      "learning_rate": 8e-05,
      "loss": 1.5443,
      "step": 1630
    },
    {
      "epoch": 0.5952554744525548,
      "grad_norm": 0.5935549736022949,
      "learning_rate": 8e-05,
      "loss": 1.5599,
      "step": 1631
    },
    {
      "epoch": 0.5956204379562043,
      "grad_norm": 0.6059964895248413,
      "learning_rate": 8e-05,
      "loss": 1.4954,
      "step": 1632
    },
    {
      "epoch": 0.595985401459854,
      "grad_norm": 0.5886346697807312,
      "learning_rate": 8e-05,
      "loss": 1.4774,
      "step": 1633
    },
    {
      "epoch": 0.5963503649635037,
      "grad_norm": 0.5972250699996948,
      "learning_rate": 8e-05,
      "loss": 1.6053,
      "step": 1634
    },
    {
      "epoch": 0.5967153284671532,
      "grad_norm": 0.6133536100387573,
      "learning_rate": 8e-05,
      "loss": 1.5639,
      "step": 1635
    },
    {
      "epoch": 0.5970802919708029,
      "grad_norm": 0.5932487845420837,
      "learning_rate": 8e-05,
      "loss": 1.591,
      "step": 1636
    },
    {
      "epoch": 0.5974452554744526,
      "grad_norm": 0.5939411520957947,
      "learning_rate": 8e-05,
      "loss": 1.4996,
      "step": 1637
    },
    {
      "epoch": 0.5978102189781022,
      "grad_norm": 0.594953715801239,
      "learning_rate": 8e-05,
      "loss": 1.5073,
      "step": 1638
    },
    {
      "epoch": 0.5981751824817518,
      "grad_norm": 0.6132594347000122,
      "learning_rate": 8e-05,
      "loss": 1.6079,
      "step": 1639
    },
    {
      "epoch": 0.5985401459854015,
      "grad_norm": 0.5856531858444214,
      "learning_rate": 8e-05,
      "loss": 1.4874,
      "step": 1640
    },
    {
      "epoch": 0.5989051094890511,
      "grad_norm": 0.593043327331543,
      "learning_rate": 8e-05,
      "loss": 1.4971,
      "step": 1641
    },
    {
      "epoch": 0.5992700729927007,
      "grad_norm": 0.6367241740226746,
      "learning_rate": 8e-05,
      "loss": 1.5395,
      "step": 1642
    },
    {
      "epoch": 0.5996350364963504,
      "grad_norm": 0.6025196313858032,
      "learning_rate": 8e-05,
      "loss": 1.5425,
      "step": 1643
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5992957949638367,
      "learning_rate": 8e-05,
      "loss": 1.5983,
      "step": 1644
    },
    {
      "epoch": 0.6003649635036497,
      "grad_norm": 0.5979745388031006,
      "learning_rate": 8e-05,
      "loss": 1.519,
      "step": 1645
    },
    {
      "epoch": 0.6007299270072993,
      "grad_norm": 0.5881292819976807,
      "learning_rate": 8e-05,
      "loss": 1.5741,
      "step": 1646
    },
    {
      "epoch": 0.6010948905109489,
      "grad_norm": 0.5942617058753967,
      "learning_rate": 8e-05,
      "loss": 1.4933,
      "step": 1647
    },
    {
      "epoch": 0.6014598540145986,
      "grad_norm": 0.6005037426948547,
      "learning_rate": 8e-05,
      "loss": 1.5388,
      "step": 1648
    },
    {
      "epoch": 0.6018248175182481,
      "grad_norm": 0.6164391040802002,
      "learning_rate": 8e-05,
      "loss": 1.5608,
      "step": 1649
    },
    {
      "epoch": 0.6021897810218978,
      "grad_norm": 0.5987194180488586,
      "learning_rate": 8e-05,
      "loss": 1.5004,
      "step": 1650
    },
    {
      "epoch": 0.6025547445255475,
      "grad_norm": 0.5882399678230286,
      "learning_rate": 8e-05,
      "loss": 1.6305,
      "step": 1651
    },
    {
      "epoch": 0.602919708029197,
      "grad_norm": 0.5909172296524048,
      "learning_rate": 8e-05,
      "loss": 1.575,
      "step": 1652
    },
    {
      "epoch": 0.6032846715328467,
      "grad_norm": 0.5874966382980347,
      "learning_rate": 8e-05,
      "loss": 1.5134,
      "step": 1653
    },
    {
      "epoch": 0.6036496350364964,
      "grad_norm": 0.6185474395751953,
      "learning_rate": 8e-05,
      "loss": 1.5874,
      "step": 1654
    },
    {
      "epoch": 0.6040145985401459,
      "grad_norm": 0.6084437966346741,
      "learning_rate": 8e-05,
      "loss": 1.5552,
      "step": 1655
    },
    {
      "epoch": 0.6043795620437956,
      "grad_norm": 0.6049585938453674,
      "learning_rate": 8e-05,
      "loss": 1.5179,
      "step": 1656
    },
    {
      "epoch": 0.6047445255474453,
      "grad_norm": 0.6141407489776611,
      "learning_rate": 8e-05,
      "loss": 1.5381,
      "step": 1657
    },
    {
      "epoch": 0.6051094890510949,
      "grad_norm": 0.5718379616737366,
      "learning_rate": 8e-05,
      "loss": 1.4887,
      "step": 1658
    },
    {
      "epoch": 0.6054744525547445,
      "grad_norm": 0.6082983016967773,
      "learning_rate": 8e-05,
      "loss": 1.5226,
      "step": 1659
    },
    {
      "epoch": 0.6058394160583942,
      "grad_norm": 0.6113501191139221,
      "learning_rate": 8e-05,
      "loss": 1.4696,
      "step": 1660
    },
    {
      "epoch": 0.6062043795620438,
      "grad_norm": 0.6290274858474731,
      "learning_rate": 8e-05,
      "loss": 1.5644,
      "step": 1661
    },
    {
      "epoch": 0.6065693430656934,
      "grad_norm": 0.5977171659469604,
      "learning_rate": 8e-05,
      "loss": 1.5607,
      "step": 1662
    },
    {
      "epoch": 0.6069343065693431,
      "grad_norm": 0.6125659346580505,
      "learning_rate": 8e-05,
      "loss": 1.5812,
      "step": 1663
    },
    {
      "epoch": 0.6072992700729927,
      "grad_norm": 0.6197786927223206,
      "learning_rate": 8e-05,
      "loss": 1.507,
      "step": 1664
    },
    {
      "epoch": 0.6076642335766423,
      "grad_norm": 0.5816693902015686,
      "learning_rate": 8e-05,
      "loss": 1.5069,
      "step": 1665
    },
    {
      "epoch": 0.608029197080292,
      "grad_norm": 0.6031357645988464,
      "learning_rate": 8e-05,
      "loss": 1.5169,
      "step": 1666
    },
    {
      "epoch": 0.6083941605839416,
      "grad_norm": 0.644127607345581,
      "learning_rate": 8e-05,
      "loss": 1.6003,
      "step": 1667
    },
    {
      "epoch": 0.6087591240875913,
      "grad_norm": 0.6403903365135193,
      "learning_rate": 8e-05,
      "loss": 1.6019,
      "step": 1668
    },
    {
      "epoch": 0.6091240875912409,
      "grad_norm": 0.6061742305755615,
      "learning_rate": 8e-05,
      "loss": 1.5453,
      "step": 1669
    },
    {
      "epoch": 0.6094890510948905,
      "grad_norm": 0.6383361220359802,
      "learning_rate": 8e-05,
      "loss": 1.531,
      "step": 1670
    },
    {
      "epoch": 0.6098540145985402,
      "grad_norm": 0.6292632818222046,
      "learning_rate": 8e-05,
      "loss": 1.5657,
      "step": 1671
    },
    {
      "epoch": 0.6102189781021898,
      "grad_norm": 0.6159451603889465,
      "learning_rate": 8e-05,
      "loss": 1.5553,
      "step": 1672
    },
    {
      "epoch": 0.6105839416058394,
      "grad_norm": 0.6020472645759583,
      "learning_rate": 8e-05,
      "loss": 1.5393,
      "step": 1673
    },
    {
      "epoch": 0.6109489051094891,
      "grad_norm": 0.6056621074676514,
      "learning_rate": 8e-05,
      "loss": 1.59,
      "step": 1674
    },
    {
      "epoch": 0.6113138686131386,
      "grad_norm": 0.6014386415481567,
      "learning_rate": 8e-05,
      "loss": 1.5798,
      "step": 1675
    },
    {
      "epoch": 0.6116788321167883,
      "grad_norm": 0.6073180437088013,
      "learning_rate": 8e-05,
      "loss": 1.5178,
      "step": 1676
    },
    {
      "epoch": 0.612043795620438,
      "grad_norm": 0.6684948205947876,
      "learning_rate": 8e-05,
      "loss": 1.6003,
      "step": 1677
    },
    {
      "epoch": 0.6124087591240875,
      "grad_norm": 0.6163288354873657,
      "learning_rate": 8e-05,
      "loss": 1.6154,
      "step": 1678
    },
    {
      "epoch": 0.6127737226277372,
      "grad_norm": 0.6014469265937805,
      "learning_rate": 8e-05,
      "loss": 1.4941,
      "step": 1679
    },
    {
      "epoch": 0.6131386861313869,
      "grad_norm": 0.5907497406005859,
      "learning_rate": 8e-05,
      "loss": 1.5518,
      "step": 1680
    },
    {
      "epoch": 0.6135036496350365,
      "grad_norm": 0.5778164267539978,
      "learning_rate": 8e-05,
      "loss": 1.466,
      "step": 1681
    },
    {
      "epoch": 0.6138686131386861,
      "grad_norm": 0.5961695313453674,
      "learning_rate": 8e-05,
      "loss": 1.5516,
      "step": 1682
    },
    {
      "epoch": 0.6142335766423358,
      "grad_norm": 0.5909200310707092,
      "learning_rate": 8e-05,
      "loss": 1.5205,
      "step": 1683
    },
    {
      "epoch": 0.6145985401459854,
      "grad_norm": 0.611928403377533,
      "learning_rate": 8e-05,
      "loss": 1.5809,
      "step": 1684
    },
    {
      "epoch": 0.614963503649635,
      "grad_norm": 0.5861421823501587,
      "learning_rate": 8e-05,
      "loss": 1.4888,
      "step": 1685
    },
    {
      "epoch": 0.6153284671532847,
      "grad_norm": 0.5812901258468628,
      "learning_rate": 8e-05,
      "loss": 1.4458,
      "step": 1686
    },
    {
      "epoch": 0.6156934306569343,
      "grad_norm": 0.5931227207183838,
      "learning_rate": 8e-05,
      "loss": 1.4603,
      "step": 1687
    },
    {
      "epoch": 0.6160583941605839,
      "grad_norm": 0.6067311763763428,
      "learning_rate": 8e-05,
      "loss": 1.5545,
      "step": 1688
    },
    {
      "epoch": 0.6164233576642336,
      "grad_norm": 0.614220380783081,
      "learning_rate": 8e-05,
      "loss": 1.5497,
      "step": 1689
    },
    {
      "epoch": 0.6167883211678832,
      "grad_norm": 0.5945826172828674,
      "learning_rate": 8e-05,
      "loss": 1.6371,
      "step": 1690
    },
    {
      "epoch": 0.6171532846715329,
      "grad_norm": 0.6138612031936646,
      "learning_rate": 8e-05,
      "loss": 1.5766,
      "step": 1691
    },
    {
      "epoch": 0.6175182481751825,
      "grad_norm": 0.6365537643432617,
      "learning_rate": 8e-05,
      "loss": 1.65,
      "step": 1692
    },
    {
      "epoch": 0.6178832116788321,
      "grad_norm": 0.6171745657920837,
      "learning_rate": 8e-05,
      "loss": 1.5858,
      "step": 1693
    },
    {
      "epoch": 0.6182481751824818,
      "grad_norm": 0.6162880659103394,
      "learning_rate": 8e-05,
      "loss": 1.4977,
      "step": 1694
    },
    {
      "epoch": 0.6186131386861314,
      "grad_norm": 0.6314560770988464,
      "learning_rate": 8e-05,
      "loss": 1.5462,
      "step": 1695
    },
    {
      "epoch": 0.618978102189781,
      "grad_norm": 0.6251347064971924,
      "learning_rate": 8e-05,
      "loss": 1.5542,
      "step": 1696
    },
    {
      "epoch": 0.6193430656934307,
      "grad_norm": 0.6289848685264587,
      "learning_rate": 8e-05,
      "loss": 1.4999,
      "step": 1697
    },
    {
      "epoch": 0.6197080291970803,
      "grad_norm": 0.5972551107406616,
      "learning_rate": 8e-05,
      "loss": 1.5399,
      "step": 1698
    },
    {
      "epoch": 0.6200729927007299,
      "grad_norm": 0.6111968755722046,
      "learning_rate": 8e-05,
      "loss": 1.5769,
      "step": 1699
    },
    {
      "epoch": 0.6204379562043796,
      "grad_norm": 0.5975327491760254,
      "learning_rate": 8e-05,
      "loss": 1.571,
      "step": 1700
    },
    {
      "epoch": 0.6208029197080291,
      "grad_norm": 0.6084355115890503,
      "learning_rate": 8e-05,
      "loss": 1.5376,
      "step": 1701
    },
    {
      "epoch": 0.6211678832116788,
      "grad_norm": 0.5917645692825317,
      "learning_rate": 8e-05,
      "loss": 1.4619,
      "step": 1702
    },
    {
      "epoch": 0.6215328467153285,
      "grad_norm": 0.6044576168060303,
      "learning_rate": 8e-05,
      "loss": 1.5487,
      "step": 1703
    },
    {
      "epoch": 0.621897810218978,
      "grad_norm": 0.6295365691184998,
      "learning_rate": 8e-05,
      "loss": 1.5188,
      "step": 1704
    },
    {
      "epoch": 0.6222627737226277,
      "grad_norm": 0.6111854910850525,
      "learning_rate": 8e-05,
      "loss": 1.509,
      "step": 1705
    },
    {
      "epoch": 0.6226277372262774,
      "grad_norm": 0.617392361164093,
      "learning_rate": 8e-05,
      "loss": 1.5233,
      "step": 1706
    },
    {
      "epoch": 0.622992700729927,
      "grad_norm": 0.6101032495498657,
      "learning_rate": 8e-05,
      "loss": 1.5225,
      "step": 1707
    },
    {
      "epoch": 0.6233576642335766,
      "grad_norm": 0.6173000335693359,
      "learning_rate": 8e-05,
      "loss": 1.6055,
      "step": 1708
    },
    {
      "epoch": 0.6237226277372263,
      "grad_norm": 0.6041417717933655,
      "learning_rate": 8e-05,
      "loss": 1.515,
      "step": 1709
    },
    {
      "epoch": 0.6240875912408759,
      "grad_norm": 0.605652928352356,
      "learning_rate": 8e-05,
      "loss": 1.5993,
      "step": 1710
    },
    {
      "epoch": 0.6244525547445255,
      "grad_norm": 0.6373372077941895,
      "learning_rate": 8e-05,
      "loss": 1.5291,
      "step": 1711
    },
    {
      "epoch": 0.6248175182481752,
      "grad_norm": 0.6201243996620178,
      "learning_rate": 8e-05,
      "loss": 1.5523,
      "step": 1712
    },
    {
      "epoch": 0.6251824817518248,
      "grad_norm": 0.5996272563934326,
      "learning_rate": 8e-05,
      "loss": 1.5366,
      "step": 1713
    },
    {
      "epoch": 0.6255474452554745,
      "grad_norm": 0.6009505987167358,
      "learning_rate": 8e-05,
      "loss": 1.5441,
      "step": 1714
    },
    {
      "epoch": 0.6259124087591241,
      "grad_norm": 0.6061445474624634,
      "learning_rate": 8e-05,
      "loss": 1.4381,
      "step": 1715
    },
    {
      "epoch": 0.6262773722627737,
      "grad_norm": 0.6321218013763428,
      "learning_rate": 8e-05,
      "loss": 1.5774,
      "step": 1716
    },
    {
      "epoch": 0.6266423357664234,
      "grad_norm": 0.601895272731781,
      "learning_rate": 8e-05,
      "loss": 1.5216,
      "step": 1717
    },
    {
      "epoch": 0.627007299270073,
      "grad_norm": 0.6125845313072205,
      "learning_rate": 8e-05,
      "loss": 1.5359,
      "step": 1718
    },
    {
      "epoch": 0.6273722627737226,
      "grad_norm": 0.5943031907081604,
      "learning_rate": 8e-05,
      "loss": 1.4896,
      "step": 1719
    },
    {
      "epoch": 0.6277372262773723,
      "grad_norm": 0.6226192712783813,
      "learning_rate": 8e-05,
      "loss": 1.5577,
      "step": 1720
    },
    {
      "epoch": 0.628102189781022,
      "grad_norm": 0.59959477186203,
      "learning_rate": 8e-05,
      "loss": 1.5516,
      "step": 1721
    },
    {
      "epoch": 0.6284671532846715,
      "grad_norm": 0.6483146548271179,
      "learning_rate": 8e-05,
      "loss": 1.5575,
      "step": 1722
    },
    {
      "epoch": 0.6288321167883212,
      "grad_norm": 0.6377902626991272,
      "learning_rate": 8e-05,
      "loss": 1.4761,
      "step": 1723
    },
    {
      "epoch": 0.6291970802919709,
      "grad_norm": 0.612968921661377,
      "learning_rate": 8e-05,
      "loss": 1.5225,
      "step": 1724
    },
    {
      "epoch": 0.6295620437956204,
      "grad_norm": 0.6443367600440979,
      "learning_rate": 8e-05,
      "loss": 1.5589,
      "step": 1725
    },
    {
      "epoch": 0.6299270072992701,
      "grad_norm": 0.6200525164604187,
      "learning_rate": 8e-05,
      "loss": 1.5239,
      "step": 1726
    },
    {
      "epoch": 0.6302919708029197,
      "grad_norm": 0.6289393305778503,
      "learning_rate": 8e-05,
      "loss": 1.577,
      "step": 1727
    },
    {
      "epoch": 0.6306569343065693,
      "grad_norm": 0.6155130863189697,
      "learning_rate": 8e-05,
      "loss": 1.5048,
      "step": 1728
    },
    {
      "epoch": 0.631021897810219,
      "grad_norm": 0.5902011394500732,
      "learning_rate": 8e-05,
      "loss": 1.4509,
      "step": 1729
    },
    {
      "epoch": 0.6313868613138686,
      "grad_norm": 0.5971888899803162,
      "learning_rate": 8e-05,
      "loss": 1.4851,
      "step": 1730
    },
    {
      "epoch": 0.6317518248175182,
      "grad_norm": 0.6061726808547974,
      "learning_rate": 8e-05,
      "loss": 1.5764,
      "step": 1731
    },
    {
      "epoch": 0.6321167883211679,
      "grad_norm": 0.5945143103599548,
      "learning_rate": 8e-05,
      "loss": 1.5364,
      "step": 1732
    },
    {
      "epoch": 0.6324817518248175,
      "grad_norm": 0.6122622489929199,
      "learning_rate": 8e-05,
      "loss": 1.4937,
      "step": 1733
    },
    {
      "epoch": 0.6328467153284671,
      "grad_norm": 0.6321825981140137,
      "learning_rate": 8e-05,
      "loss": 1.5066,
      "step": 1734
    },
    {
      "epoch": 0.6332116788321168,
      "grad_norm": 0.6165488362312317,
      "learning_rate": 8e-05,
      "loss": 1.516,
      "step": 1735
    },
    {
      "epoch": 0.6335766423357664,
      "grad_norm": 0.6021655797958374,
      "learning_rate": 8e-05,
      "loss": 1.5039,
      "step": 1736
    },
    {
      "epoch": 0.6339416058394161,
      "grad_norm": 0.6209736466407776,
      "learning_rate": 8e-05,
      "loss": 1.5612,
      "step": 1737
    },
    {
      "epoch": 0.6343065693430657,
      "grad_norm": 0.6020748019218445,
      "learning_rate": 8e-05,
      "loss": 1.5704,
      "step": 1738
    },
    {
      "epoch": 0.6346715328467153,
      "grad_norm": 0.6368135809898376,
      "learning_rate": 8e-05,
      "loss": 1.5784,
      "step": 1739
    },
    {
      "epoch": 0.635036496350365,
      "grad_norm": 0.6251884698867798,
      "learning_rate": 8e-05,
      "loss": 1.5123,
      "step": 1740
    },
    {
      "epoch": 0.6354014598540146,
      "grad_norm": 0.6156403422355652,
      "learning_rate": 8e-05,
      "loss": 1.5625,
      "step": 1741
    },
    {
      "epoch": 0.6357664233576642,
      "grad_norm": 0.6168842911720276,
      "learning_rate": 8e-05,
      "loss": 1.5486,
      "step": 1742
    },
    {
      "epoch": 0.6361313868613139,
      "grad_norm": 0.6110218167304993,
      "learning_rate": 8e-05,
      "loss": 1.546,
      "step": 1743
    },
    {
      "epoch": 0.6364963503649635,
      "grad_norm": 0.6130955815315247,
      "learning_rate": 8e-05,
      "loss": 1.5901,
      "step": 1744
    },
    {
      "epoch": 0.6368613138686131,
      "grad_norm": 0.606529951095581,
      "learning_rate": 8e-05,
      "loss": 1.4736,
      "step": 1745
    },
    {
      "epoch": 0.6372262773722628,
      "grad_norm": 0.627164900302887,
      "learning_rate": 8e-05,
      "loss": 1.5787,
      "step": 1746
    },
    {
      "epoch": 0.6375912408759125,
      "grad_norm": 0.617719829082489,
      "learning_rate": 8e-05,
      "loss": 1.5842,
      "step": 1747
    },
    {
      "epoch": 0.637956204379562,
      "grad_norm": 0.6332477331161499,
      "learning_rate": 8e-05,
      "loss": 1.5614,
      "step": 1748
    },
    {
      "epoch": 0.6383211678832117,
      "grad_norm": 0.6244439482688904,
      "learning_rate": 8e-05,
      "loss": 1.5511,
      "step": 1749
    },
    {
      "epoch": 0.6386861313868614,
      "grad_norm": 0.6149480938911438,
      "learning_rate": 8e-05,
      "loss": 1.5924,
      "step": 1750
    },
    {
      "epoch": 0.6390510948905109,
      "grad_norm": 0.6255936026573181,
      "learning_rate": 8e-05,
      "loss": 1.5574,
      "step": 1751
    },
    {
      "epoch": 0.6394160583941606,
      "grad_norm": 0.5897451043128967,
      "learning_rate": 8e-05,
      "loss": 1.5054,
      "step": 1752
    },
    {
      "epoch": 0.6397810218978102,
      "grad_norm": 0.6491673588752747,
      "learning_rate": 8e-05,
      "loss": 1.6028,
      "step": 1753
    },
    {
      "epoch": 0.6401459854014598,
      "grad_norm": 0.6664703488349915,
      "learning_rate": 8e-05,
      "loss": 1.5962,
      "step": 1754
    },
    {
      "epoch": 0.6405109489051095,
      "grad_norm": 0.6280595064163208,
      "learning_rate": 8e-05,
      "loss": 1.5777,
      "step": 1755
    },
    {
      "epoch": 0.6408759124087591,
      "grad_norm": 0.6052601337432861,
      "learning_rate": 8e-05,
      "loss": 1.587,
      "step": 1756
    },
    {
      "epoch": 0.6412408759124087,
      "grad_norm": 0.5858358144760132,
      "learning_rate": 8e-05,
      "loss": 1.5012,
      "step": 1757
    },
    {
      "epoch": 0.6416058394160584,
      "grad_norm": 0.5901328921318054,
      "learning_rate": 8e-05,
      "loss": 1.5615,
      "step": 1758
    },
    {
      "epoch": 0.641970802919708,
      "grad_norm": 0.60816890001297,
      "learning_rate": 8e-05,
      "loss": 1.5054,
      "step": 1759
    },
    {
      "epoch": 0.6423357664233577,
      "grad_norm": 0.6485531330108643,
      "learning_rate": 8e-05,
      "loss": 1.5272,
      "step": 1760
    },
    {
      "epoch": 0.6427007299270073,
      "grad_norm": 0.5879112482070923,
      "learning_rate": 8e-05,
      "loss": 1.535,
      "step": 1761
    },
    {
      "epoch": 0.6430656934306569,
      "grad_norm": 0.6064136624336243,
      "learning_rate": 8e-05,
      "loss": 1.5093,
      "step": 1762
    },
    {
      "epoch": 0.6434306569343066,
      "grad_norm": 0.5895740985870361,
      "learning_rate": 8e-05,
      "loss": 1.4999,
      "step": 1763
    },
    {
      "epoch": 0.6437956204379562,
      "grad_norm": 0.6073413491249084,
      "learning_rate": 8e-05,
      "loss": 1.5268,
      "step": 1764
    },
    {
      "epoch": 0.6441605839416058,
      "grad_norm": 0.6170517802238464,
      "learning_rate": 8e-05,
      "loss": 1.5377,
      "step": 1765
    },
    {
      "epoch": 0.6445255474452555,
      "grad_norm": 0.6336386203765869,
      "learning_rate": 8e-05,
      "loss": 1.4852,
      "step": 1766
    },
    {
      "epoch": 0.6448905109489051,
      "grad_norm": 0.6248682141304016,
      "learning_rate": 8e-05,
      "loss": 1.4947,
      "step": 1767
    },
    {
      "epoch": 0.6452554744525547,
      "grad_norm": 0.5921686887741089,
      "learning_rate": 8e-05,
      "loss": 1.4756,
      "step": 1768
    },
    {
      "epoch": 0.6456204379562044,
      "grad_norm": 0.6199280023574829,
      "learning_rate": 8e-05,
      "loss": 1.5838,
      "step": 1769
    },
    {
      "epoch": 0.6459854014598541,
      "grad_norm": 0.5977534651756287,
      "learning_rate": 8e-05,
      "loss": 1.464,
      "step": 1770
    },
    {
      "epoch": 0.6463503649635036,
      "grad_norm": 0.6368276476860046,
      "learning_rate": 8e-05,
      "loss": 1.553,
      "step": 1771
    },
    {
      "epoch": 0.6467153284671533,
      "grad_norm": 0.6292896866798401,
      "learning_rate": 8e-05,
      "loss": 1.5383,
      "step": 1772
    },
    {
      "epoch": 0.647080291970803,
      "grad_norm": 0.6392838954925537,
      "learning_rate": 8e-05,
      "loss": 1.4874,
      "step": 1773
    },
    {
      "epoch": 0.6474452554744525,
      "grad_norm": 0.6077881455421448,
      "learning_rate": 8e-05,
      "loss": 1.5145,
      "step": 1774
    },
    {
      "epoch": 0.6478102189781022,
      "grad_norm": 0.605221688747406,
      "learning_rate": 8e-05,
      "loss": 1.5471,
      "step": 1775
    },
    {
      "epoch": 0.6481751824817519,
      "grad_norm": 0.5942598581314087,
      "learning_rate": 8e-05,
      "loss": 1.5517,
      "step": 1776
    },
    {
      "epoch": 0.6485401459854014,
      "grad_norm": 0.6217483878135681,
      "learning_rate": 8e-05,
      "loss": 1.5816,
      "step": 1777
    },
    {
      "epoch": 0.6489051094890511,
      "grad_norm": 0.604706883430481,
      "learning_rate": 8e-05,
      "loss": 1.5528,
      "step": 1778
    },
    {
      "epoch": 0.6492700729927007,
      "grad_norm": 0.6130529046058655,
      "learning_rate": 8e-05,
      "loss": 1.5355,
      "step": 1779
    },
    {
      "epoch": 0.6496350364963503,
      "grad_norm": 0.6232329607009888,
      "learning_rate": 8e-05,
      "loss": 1.6139,
      "step": 1780
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6326515674591064,
      "learning_rate": 8e-05,
      "loss": 1.5353,
      "step": 1781
    },
    {
      "epoch": 0.6503649635036496,
      "grad_norm": 0.6487271189689636,
      "learning_rate": 8e-05,
      "loss": 1.5479,
      "step": 1782
    },
    {
      "epoch": 0.6507299270072993,
      "grad_norm": 0.6166556477546692,
      "learning_rate": 8e-05,
      "loss": 1.5548,
      "step": 1783
    },
    {
      "epoch": 0.6510948905109489,
      "grad_norm": 0.5977707505226135,
      "learning_rate": 8e-05,
      "loss": 1.4601,
      "step": 1784
    },
    {
      "epoch": 0.6514598540145985,
      "grad_norm": 0.5951483249664307,
      "learning_rate": 8e-05,
      "loss": 1.5396,
      "step": 1785
    },
    {
      "epoch": 0.6518248175182482,
      "grad_norm": 0.613756537437439,
      "learning_rate": 8e-05,
      "loss": 1.5938,
      "step": 1786
    },
    {
      "epoch": 0.6521897810218978,
      "grad_norm": 0.5934928059577942,
      "learning_rate": 8e-05,
      "loss": 1.4919,
      "step": 1787
    },
    {
      "epoch": 0.6525547445255474,
      "grad_norm": 0.6027792692184448,
      "learning_rate": 8e-05,
      "loss": 1.5317,
      "step": 1788
    },
    {
      "epoch": 0.6529197080291971,
      "grad_norm": 0.5854480266571045,
      "learning_rate": 8e-05,
      "loss": 1.5685,
      "step": 1789
    },
    {
      "epoch": 0.6532846715328468,
      "grad_norm": 0.6167566180229187,
      "learning_rate": 8e-05,
      "loss": 1.4956,
      "step": 1790
    },
    {
      "epoch": 0.6536496350364963,
      "grad_norm": 0.6108569502830505,
      "learning_rate": 8e-05,
      "loss": 1.5412,
      "step": 1791
    },
    {
      "epoch": 0.654014598540146,
      "grad_norm": 0.619880735874176,
      "learning_rate": 8e-05,
      "loss": 1.5045,
      "step": 1792
    },
    {
      "epoch": 0.6543795620437957,
      "grad_norm": 0.6133451461791992,
      "learning_rate": 8e-05,
      "loss": 1.5831,
      "step": 1793
    },
    {
      "epoch": 0.6547445255474452,
      "grad_norm": 0.5932673215866089,
      "learning_rate": 8e-05,
      "loss": 1.505,
      "step": 1794
    },
    {
      "epoch": 0.6551094890510949,
      "grad_norm": 0.5914117693901062,
      "learning_rate": 8e-05,
      "loss": 1.5143,
      "step": 1795
    },
    {
      "epoch": 0.6554744525547446,
      "grad_norm": 0.6100131869316101,
      "learning_rate": 8e-05,
      "loss": 1.5416,
      "step": 1796
    },
    {
      "epoch": 0.6558394160583941,
      "grad_norm": 0.6019909381866455,
      "learning_rate": 8e-05,
      "loss": 1.4554,
      "step": 1797
    },
    {
      "epoch": 0.6562043795620438,
      "grad_norm": 0.6369754672050476,
      "learning_rate": 8e-05,
      "loss": 1.5683,
      "step": 1798
    },
    {
      "epoch": 0.6565693430656935,
      "grad_norm": 0.6048733592033386,
      "learning_rate": 8e-05,
      "loss": 1.5969,
      "step": 1799
    },
    {
      "epoch": 0.656934306569343,
      "grad_norm": 0.6219709515571594,
      "learning_rate": 8e-05,
      "loss": 1.5258,
      "step": 1800
    },
    {
      "epoch": 0.6572992700729927,
      "grad_norm": 0.6229009628295898,
      "learning_rate": 8e-05,
      "loss": 1.5696,
      "step": 1801
    },
    {
      "epoch": 0.6576642335766424,
      "grad_norm": 0.6374538540840149,
      "learning_rate": 8e-05,
      "loss": 1.5374,
      "step": 1802
    },
    {
      "epoch": 0.658029197080292,
      "grad_norm": 0.5978066921234131,
      "learning_rate": 8e-05,
      "loss": 1.4957,
      "step": 1803
    },
    {
      "epoch": 0.6583941605839416,
      "grad_norm": 0.645973265171051,
      "learning_rate": 8e-05,
      "loss": 1.5977,
      "step": 1804
    },
    {
      "epoch": 0.6587591240875912,
      "grad_norm": 0.6213699579238892,
      "learning_rate": 8e-05,
      "loss": 1.5604,
      "step": 1805
    },
    {
      "epoch": 0.6591240875912409,
      "grad_norm": 0.595508873462677,
      "learning_rate": 8e-05,
      "loss": 1.5283,
      "step": 1806
    },
    {
      "epoch": 0.6594890510948905,
      "grad_norm": 0.5958468914031982,
      "learning_rate": 8e-05,
      "loss": 1.522,
      "step": 1807
    },
    {
      "epoch": 0.6598540145985401,
      "grad_norm": 0.6094446778297424,
      "learning_rate": 8e-05,
      "loss": 1.5907,
      "step": 1808
    },
    {
      "epoch": 0.6602189781021898,
      "grad_norm": 0.5820277333259583,
      "learning_rate": 8e-05,
      "loss": 1.5489,
      "step": 1809
    },
    {
      "epoch": 0.6605839416058394,
      "grad_norm": 0.6001221537590027,
      "learning_rate": 8e-05,
      "loss": 1.4597,
      "step": 1810
    },
    {
      "epoch": 0.660948905109489,
      "grad_norm": 0.6034091711044312,
      "learning_rate": 8e-05,
      "loss": 1.5464,
      "step": 1811
    },
    {
      "epoch": 0.6613138686131387,
      "grad_norm": 0.6267151236534119,
      "learning_rate": 8e-05,
      "loss": 1.554,
      "step": 1812
    },
    {
      "epoch": 0.6616788321167884,
      "grad_norm": 0.6435610055923462,
      "learning_rate": 8e-05,
      "loss": 1.6052,
      "step": 1813
    },
    {
      "epoch": 0.6620437956204379,
      "grad_norm": 0.6583983302116394,
      "learning_rate": 8e-05,
      "loss": 1.542,
      "step": 1814
    },
    {
      "epoch": 0.6624087591240876,
      "grad_norm": 0.6204962134361267,
      "learning_rate": 8e-05,
      "loss": 1.5473,
      "step": 1815
    },
    {
      "epoch": 0.6627737226277373,
      "grad_norm": 0.6591711044311523,
      "learning_rate": 8e-05,
      "loss": 1.5718,
      "step": 1816
    },
    {
      "epoch": 0.6631386861313868,
      "grad_norm": 0.6052622199058533,
      "learning_rate": 8e-05,
      "loss": 1.5189,
      "step": 1817
    },
    {
      "epoch": 0.6635036496350365,
      "grad_norm": 0.6269906163215637,
      "learning_rate": 8e-05,
      "loss": 1.556,
      "step": 1818
    },
    {
      "epoch": 0.6638686131386862,
      "grad_norm": 0.6297800540924072,
      "learning_rate": 8e-05,
      "loss": 1.5823,
      "step": 1819
    },
    {
      "epoch": 0.6642335766423357,
      "grad_norm": 0.607635498046875,
      "learning_rate": 8e-05,
      "loss": 1.5864,
      "step": 1820
    },
    {
      "epoch": 0.6645985401459854,
      "grad_norm": 0.6270447969436646,
      "learning_rate": 8e-05,
      "loss": 1.5806,
      "step": 1821
    },
    {
      "epoch": 0.6649635036496351,
      "grad_norm": 0.5876049399375916,
      "learning_rate": 8e-05,
      "loss": 1.5087,
      "step": 1822
    },
    {
      "epoch": 0.6653284671532846,
      "grad_norm": 0.6676025390625,
      "learning_rate": 8e-05,
      "loss": 1.5939,
      "step": 1823
    },
    {
      "epoch": 0.6656934306569343,
      "grad_norm": 0.6260190010070801,
      "learning_rate": 8e-05,
      "loss": 1.5153,
      "step": 1824
    },
    {
      "epoch": 0.666058394160584,
      "grad_norm": 0.6141613125801086,
      "learning_rate": 8e-05,
      "loss": 1.4683,
      "step": 1825
    },
    {
      "epoch": 0.6664233576642336,
      "grad_norm": 0.6491140127182007,
      "learning_rate": 8e-05,
      "loss": 1.6094,
      "step": 1826
    },
    {
      "epoch": 0.6667883211678832,
      "grad_norm": 0.6140028834342957,
      "learning_rate": 8e-05,
      "loss": 1.5267,
      "step": 1827
    },
    {
      "epoch": 0.6671532846715329,
      "grad_norm": 0.6382254958152771,
      "learning_rate": 8e-05,
      "loss": 1.5867,
      "step": 1828
    },
    {
      "epoch": 0.6675182481751825,
      "grad_norm": 0.6208949685096741,
      "learning_rate": 8e-05,
      "loss": 1.4748,
      "step": 1829
    },
    {
      "epoch": 0.6678832116788321,
      "grad_norm": 0.6202526092529297,
      "learning_rate": 8e-05,
      "loss": 1.5478,
      "step": 1830
    },
    {
      "epoch": 0.6682481751824818,
      "grad_norm": 0.5980104804039001,
      "learning_rate": 8e-05,
      "loss": 1.4803,
      "step": 1831
    },
    {
      "epoch": 0.6686131386861314,
      "grad_norm": 0.5967450141906738,
      "learning_rate": 8e-05,
      "loss": 1.4806,
      "step": 1832
    },
    {
      "epoch": 0.668978102189781,
      "grad_norm": 0.6070608496665955,
      "learning_rate": 8e-05,
      "loss": 1.5115,
      "step": 1833
    },
    {
      "epoch": 0.6693430656934306,
      "grad_norm": 0.6035830974578857,
      "learning_rate": 8e-05,
      "loss": 1.5114,
      "step": 1834
    },
    {
      "epoch": 0.6697080291970803,
      "grad_norm": 0.5820724964141846,
      "learning_rate": 8e-05,
      "loss": 1.4276,
      "step": 1835
    },
    {
      "epoch": 0.67007299270073,
      "grad_norm": 0.6283928155899048,
      "learning_rate": 8e-05,
      "loss": 1.5497,
      "step": 1836
    },
    {
      "epoch": 0.6704379562043795,
      "grad_norm": 0.6105427145957947,
      "learning_rate": 8e-05,
      "loss": 1.543,
      "step": 1837
    },
    {
      "epoch": 0.6708029197080292,
      "grad_norm": 0.5996970534324646,
      "learning_rate": 8e-05,
      "loss": 1.5085,
      "step": 1838
    },
    {
      "epoch": 0.6711678832116789,
      "grad_norm": 0.6159226894378662,
      "learning_rate": 8e-05,
      "loss": 1.5815,
      "step": 1839
    },
    {
      "epoch": 0.6715328467153284,
      "grad_norm": 0.5932183861732483,
      "learning_rate": 8e-05,
      "loss": 1.5089,
      "step": 1840
    },
    {
      "epoch": 0.6718978102189781,
      "grad_norm": 0.5834574699401855,
      "learning_rate": 8e-05,
      "loss": 1.4548,
      "step": 1841
    },
    {
      "epoch": 0.6722627737226278,
      "grad_norm": 0.6057538390159607,
      "learning_rate": 8e-05,
      "loss": 1.515,
      "step": 1842
    },
    {
      "epoch": 0.6726277372262773,
      "grad_norm": 0.6138086915016174,
      "learning_rate": 8e-05,
      "loss": 1.5609,
      "step": 1843
    },
    {
      "epoch": 0.672992700729927,
      "grad_norm": 0.6018279194831848,
      "learning_rate": 8e-05,
      "loss": 1.4153,
      "step": 1844
    },
    {
      "epoch": 0.6733576642335767,
      "grad_norm": 0.6291535496711731,
      "learning_rate": 8e-05,
      "loss": 1.5664,
      "step": 1845
    },
    {
      "epoch": 0.6737226277372262,
      "grad_norm": 0.6403232216835022,
      "learning_rate": 8e-05,
      "loss": 1.5604,
      "step": 1846
    },
    {
      "epoch": 0.6740875912408759,
      "grad_norm": 0.6110405325889587,
      "learning_rate": 8e-05,
      "loss": 1.4772,
      "step": 1847
    },
    {
      "epoch": 0.6744525547445256,
      "grad_norm": 0.6032849550247192,
      "learning_rate": 8e-05,
      "loss": 1.5305,
      "step": 1848
    },
    {
      "epoch": 0.6748175182481752,
      "grad_norm": 0.6000321507453918,
      "learning_rate": 8e-05,
      "loss": 1.5267,
      "step": 1849
    },
    {
      "epoch": 0.6751824817518248,
      "grad_norm": 0.6253083348274231,
      "learning_rate": 8e-05,
      "loss": 1.6074,
      "step": 1850
    },
    {
      "epoch": 0.6755474452554745,
      "grad_norm": 0.5830084085464478,
      "learning_rate": 8e-05,
      "loss": 1.4174,
      "step": 1851
    },
    {
      "epoch": 0.6759124087591241,
      "grad_norm": 0.6089583039283752,
      "learning_rate": 8e-05,
      "loss": 1.4662,
      "step": 1852
    },
    {
      "epoch": 0.6762773722627737,
      "grad_norm": 0.6085020303726196,
      "learning_rate": 8e-05,
      "loss": 1.5368,
      "step": 1853
    },
    {
      "epoch": 0.6766423357664234,
      "grad_norm": 0.6310858130455017,
      "learning_rate": 8e-05,
      "loss": 1.5798,
      "step": 1854
    },
    {
      "epoch": 0.677007299270073,
      "grad_norm": 0.6039320230484009,
      "learning_rate": 8e-05,
      "loss": 1.5184,
      "step": 1855
    },
    {
      "epoch": 0.6773722627737226,
      "grad_norm": 0.668428897857666,
      "learning_rate": 8e-05,
      "loss": 1.6302,
      "step": 1856
    },
    {
      "epoch": 0.6777372262773723,
      "grad_norm": 0.6215937733650208,
      "learning_rate": 8e-05,
      "loss": 1.6173,
      "step": 1857
    },
    {
      "epoch": 0.6781021897810219,
      "grad_norm": 0.616771399974823,
      "learning_rate": 8e-05,
      "loss": 1.4999,
      "step": 1858
    },
    {
      "epoch": 0.6784671532846716,
      "grad_norm": 0.611620306968689,
      "learning_rate": 8e-05,
      "loss": 1.5125,
      "step": 1859
    },
    {
      "epoch": 0.6788321167883211,
      "grad_norm": 0.5985540151596069,
      "learning_rate": 8e-05,
      "loss": 1.537,
      "step": 1860
    },
    {
      "epoch": 0.6791970802919708,
      "grad_norm": 0.6152572631835938,
      "learning_rate": 8e-05,
      "loss": 1.5349,
      "step": 1861
    },
    {
      "epoch": 0.6795620437956205,
      "grad_norm": 0.646914005279541,
      "learning_rate": 8e-05,
      "loss": 1.5787,
      "step": 1862
    },
    {
      "epoch": 0.67992700729927,
      "grad_norm": 0.6165915131568909,
      "learning_rate": 8e-05,
      "loss": 1.4483,
      "step": 1863
    },
    {
      "epoch": 0.6802919708029197,
      "grad_norm": 0.6026243567466736,
      "learning_rate": 8e-05,
      "loss": 1.5724,
      "step": 1864
    },
    {
      "epoch": 0.6806569343065694,
      "grad_norm": 0.6159891486167908,
      "learning_rate": 8e-05,
      "loss": 1.5856,
      "step": 1865
    },
    {
      "epoch": 0.6810218978102189,
      "grad_norm": 0.6172023415565491,
      "learning_rate": 8e-05,
      "loss": 1.6179,
      "step": 1866
    },
    {
      "epoch": 0.6813868613138686,
      "grad_norm": 0.5893047451972961,
      "learning_rate": 8e-05,
      "loss": 1.4669,
      "step": 1867
    },
    {
      "epoch": 0.6817518248175183,
      "grad_norm": 0.6197434663772583,
      "learning_rate": 8e-05,
      "loss": 1.5401,
      "step": 1868
    },
    {
      "epoch": 0.6821167883211678,
      "grad_norm": 0.6236507892608643,
      "learning_rate": 8e-05,
      "loss": 1.5277,
      "step": 1869
    },
    {
      "epoch": 0.6824817518248175,
      "grad_norm": 0.5949559211730957,
      "learning_rate": 8e-05,
      "loss": 1.4306,
      "step": 1870
    },
    {
      "epoch": 0.6828467153284672,
      "grad_norm": 0.6324079036712646,
      "learning_rate": 8e-05,
      "loss": 1.5461,
      "step": 1871
    },
    {
      "epoch": 0.6832116788321168,
      "grad_norm": 0.6102927923202515,
      "learning_rate": 8e-05,
      "loss": 1.5485,
      "step": 1872
    },
    {
      "epoch": 0.6835766423357664,
      "grad_norm": 0.6227355599403381,
      "learning_rate": 8e-05,
      "loss": 1.5549,
      "step": 1873
    },
    {
      "epoch": 0.6839416058394161,
      "grad_norm": 0.6688798069953918,
      "learning_rate": 8e-05,
      "loss": 1.6418,
      "step": 1874
    },
    {
      "epoch": 0.6843065693430657,
      "grad_norm": 0.6254846453666687,
      "learning_rate": 8e-05,
      "loss": 1.4557,
      "step": 1875
    },
    {
      "epoch": 0.6846715328467153,
      "grad_norm": 0.6329821944236755,
      "learning_rate": 8e-05,
      "loss": 1.4996,
      "step": 1876
    },
    {
      "epoch": 0.685036496350365,
      "grad_norm": 0.6269734501838684,
      "learning_rate": 8e-05,
      "loss": 1.5485,
      "step": 1877
    },
    {
      "epoch": 0.6854014598540146,
      "grad_norm": 0.6155433058738708,
      "learning_rate": 8e-05,
      "loss": 1.4549,
      "step": 1878
    },
    {
      "epoch": 0.6857664233576642,
      "grad_norm": 0.6629247069358826,
      "learning_rate": 8e-05,
      "loss": 1.5213,
      "step": 1879
    },
    {
      "epoch": 0.6861313868613139,
      "grad_norm": 0.6341848373413086,
      "learning_rate": 8e-05,
      "loss": 1.582,
      "step": 1880
    },
    {
      "epoch": 0.6864963503649635,
      "grad_norm": 0.6239320635795593,
      "learning_rate": 8e-05,
      "loss": 1.5195,
      "step": 1881
    },
    {
      "epoch": 0.6868613138686132,
      "grad_norm": 0.6170787215232849,
      "learning_rate": 8e-05,
      "loss": 1.5139,
      "step": 1882
    },
    {
      "epoch": 0.6872262773722628,
      "grad_norm": 0.605961263179779,
      "learning_rate": 8e-05,
      "loss": 1.5569,
      "step": 1883
    },
    {
      "epoch": 0.6875912408759124,
      "grad_norm": 0.5736856460571289,
      "learning_rate": 8e-05,
      "loss": 1.4623,
      "step": 1884
    },
    {
      "epoch": 0.6879562043795621,
      "grad_norm": 0.6220670342445374,
      "learning_rate": 8e-05,
      "loss": 1.5652,
      "step": 1885
    },
    {
      "epoch": 0.6883211678832116,
      "grad_norm": 0.6258501410484314,
      "learning_rate": 8e-05,
      "loss": 1.5468,
      "step": 1886
    },
    {
      "epoch": 0.6886861313868613,
      "grad_norm": 0.6135092377662659,
      "learning_rate": 8e-05,
      "loss": 1.563,
      "step": 1887
    },
    {
      "epoch": 0.689051094890511,
      "grad_norm": 0.5866809487342834,
      "learning_rate": 8e-05,
      "loss": 1.4388,
      "step": 1888
    },
    {
      "epoch": 0.6894160583941605,
      "grad_norm": 0.601772665977478,
      "learning_rate": 8e-05,
      "loss": 1.5639,
      "step": 1889
    },
    {
      "epoch": 0.6897810218978102,
      "grad_norm": 0.6229597330093384,
      "learning_rate": 8e-05,
      "loss": 1.5947,
      "step": 1890
    },
    {
      "epoch": 0.6901459854014599,
      "grad_norm": 0.5955885648727417,
      "learning_rate": 8e-05,
      "loss": 1.5623,
      "step": 1891
    },
    {
      "epoch": 0.6905109489051094,
      "grad_norm": 0.614653468132019,
      "learning_rate": 8e-05,
      "loss": 1.5633,
      "step": 1892
    },
    {
      "epoch": 0.6908759124087591,
      "grad_norm": 0.5910507440567017,
      "learning_rate": 8e-05,
      "loss": 1.5333,
      "step": 1893
    },
    {
      "epoch": 0.6912408759124088,
      "grad_norm": 0.6146789789199829,
      "learning_rate": 8e-05,
      "loss": 1.5519,
      "step": 1894
    },
    {
      "epoch": 0.6916058394160584,
      "grad_norm": 0.602333664894104,
      "learning_rate": 8e-05,
      "loss": 1.4745,
      "step": 1895
    },
    {
      "epoch": 0.691970802919708,
      "grad_norm": 0.6150012612342834,
      "learning_rate": 8e-05,
      "loss": 1.5494,
      "step": 1896
    },
    {
      "epoch": 0.6923357664233577,
      "grad_norm": 0.6240334510803223,
      "learning_rate": 8e-05,
      "loss": 1.6027,
      "step": 1897
    },
    {
      "epoch": 0.6927007299270073,
      "grad_norm": 0.6278643012046814,
      "learning_rate": 8e-05,
      "loss": 1.5822,
      "step": 1898
    },
    {
      "epoch": 0.6930656934306569,
      "grad_norm": 0.6020758748054504,
      "learning_rate": 8e-05,
      "loss": 1.5098,
      "step": 1899
    },
    {
      "epoch": 0.6934306569343066,
      "grad_norm": 0.5982431173324585,
      "learning_rate": 8e-05,
      "loss": 1.4632,
      "step": 1900
    },
    {
      "epoch": 0.6937956204379562,
      "grad_norm": 0.5950901508331299,
      "learning_rate": 8e-05,
      "loss": 1.5248,
      "step": 1901
    },
    {
      "epoch": 0.6941605839416058,
      "grad_norm": 0.6185975670814514,
      "learning_rate": 8e-05,
      "loss": 1.6011,
      "step": 1902
    },
    {
      "epoch": 0.6945255474452555,
      "grad_norm": 0.6235859990119934,
      "learning_rate": 8e-05,
      "loss": 1.4938,
      "step": 1903
    },
    {
      "epoch": 0.6948905109489051,
      "grad_norm": 0.6075332760810852,
      "learning_rate": 8e-05,
      "loss": 1.5519,
      "step": 1904
    },
    {
      "epoch": 0.6952554744525548,
      "grad_norm": 0.597064197063446,
      "learning_rate": 8e-05,
      "loss": 1.5427,
      "step": 1905
    },
    {
      "epoch": 0.6956204379562044,
      "grad_norm": 0.6070271730422974,
      "learning_rate": 8e-05,
      "loss": 1.5072,
      "step": 1906
    },
    {
      "epoch": 0.695985401459854,
      "grad_norm": 0.6066896319389343,
      "learning_rate": 8e-05,
      "loss": 1.5274,
      "step": 1907
    },
    {
      "epoch": 0.6963503649635037,
      "grad_norm": 0.6005337238311768,
      "learning_rate": 8e-05,
      "loss": 1.4633,
      "step": 1908
    },
    {
      "epoch": 0.6967153284671533,
      "grad_norm": 0.600947916507721,
      "learning_rate": 8e-05,
      "loss": 1.5172,
      "step": 1909
    },
    {
      "epoch": 0.6970802919708029,
      "grad_norm": 0.6349173784255981,
      "learning_rate": 8e-05,
      "loss": 1.5298,
      "step": 1910
    },
    {
      "epoch": 0.6974452554744526,
      "grad_norm": 0.6228199601173401,
      "learning_rate": 8e-05,
      "loss": 1.5309,
      "step": 1911
    },
    {
      "epoch": 0.6978102189781021,
      "grad_norm": 0.6095629930496216,
      "learning_rate": 8e-05,
      "loss": 1.5349,
      "step": 1912
    },
    {
      "epoch": 0.6981751824817518,
      "grad_norm": 0.6100116968154907,
      "learning_rate": 8e-05,
      "loss": 1.5062,
      "step": 1913
    },
    {
      "epoch": 0.6985401459854015,
      "grad_norm": 0.587786853313446,
      "learning_rate": 8e-05,
      "loss": 1.4771,
      "step": 1914
    },
    {
      "epoch": 0.698905109489051,
      "grad_norm": 0.6061868071556091,
      "learning_rate": 8e-05,
      "loss": 1.4947,
      "step": 1915
    },
    {
      "epoch": 0.6992700729927007,
      "grad_norm": 0.6069613695144653,
      "learning_rate": 8e-05,
      "loss": 1.5285,
      "step": 1916
    },
    {
      "epoch": 0.6996350364963504,
      "grad_norm": 0.5922697186470032,
      "learning_rate": 8e-05,
      "loss": 1.4995,
      "step": 1917
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6330404281616211,
      "learning_rate": 8e-05,
      "loss": 1.5526,
      "step": 1918
    },
    {
      "epoch": 0.7003649635036496,
      "grad_norm": 0.6355457901954651,
      "learning_rate": 8e-05,
      "loss": 1.6095,
      "step": 1919
    },
    {
      "epoch": 0.7007299270072993,
      "grad_norm": 0.5861715078353882,
      "learning_rate": 8e-05,
      "loss": 1.4942,
      "step": 1920
    },
    {
      "epoch": 0.7010948905109489,
      "grad_norm": 0.6185876727104187,
      "learning_rate": 8e-05,
      "loss": 1.5056,
      "step": 1921
    },
    {
      "epoch": 0.7014598540145985,
      "grad_norm": 0.6056010723114014,
      "learning_rate": 8e-05,
      "loss": 1.5436,
      "step": 1922
    },
    {
      "epoch": 0.7018248175182482,
      "grad_norm": 0.6389979124069214,
      "learning_rate": 8e-05,
      "loss": 1.4929,
      "step": 1923
    },
    {
      "epoch": 0.7021897810218978,
      "grad_norm": 0.6134325265884399,
      "learning_rate": 8e-05,
      "loss": 1.5286,
      "step": 1924
    },
    {
      "epoch": 0.7025547445255474,
      "grad_norm": 0.6301871538162231,
      "learning_rate": 8e-05,
      "loss": 1.5737,
      "step": 1925
    },
    {
      "epoch": 0.7029197080291971,
      "grad_norm": 0.583442211151123,
      "learning_rate": 8e-05,
      "loss": 1.5111,
      "step": 1926
    },
    {
      "epoch": 0.7032846715328467,
      "grad_norm": 0.6504889726638794,
      "learning_rate": 8e-05,
      "loss": 1.5871,
      "step": 1927
    },
    {
      "epoch": 0.7036496350364964,
      "grad_norm": 0.6112688183784485,
      "learning_rate": 8e-05,
      "loss": 1.5837,
      "step": 1928
    },
    {
      "epoch": 0.704014598540146,
      "grad_norm": 0.6246935129165649,
      "learning_rate": 8e-05,
      "loss": 1.4999,
      "step": 1929
    },
    {
      "epoch": 0.7043795620437956,
      "grad_norm": 0.6402634382247925,
      "learning_rate": 8e-05,
      "loss": 1.6133,
      "step": 1930
    },
    {
      "epoch": 0.7047445255474453,
      "grad_norm": 0.6295234560966492,
      "learning_rate": 8e-05,
      "loss": 1.5891,
      "step": 1931
    },
    {
      "epoch": 0.7051094890510949,
      "grad_norm": 0.6278117895126343,
      "learning_rate": 8e-05,
      "loss": 1.5713,
      "step": 1932
    },
    {
      "epoch": 0.7054744525547445,
      "grad_norm": 0.6639671325683594,
      "learning_rate": 8e-05,
      "loss": 1.6728,
      "step": 1933
    },
    {
      "epoch": 0.7058394160583942,
      "grad_norm": 0.5869615077972412,
      "learning_rate": 8e-05,
      "loss": 1.4769,
      "step": 1934
    },
    {
      "epoch": 0.7062043795620438,
      "grad_norm": 0.6108523011207581,
      "learning_rate": 8e-05,
      "loss": 1.5899,
      "step": 1935
    },
    {
      "epoch": 0.7065693430656934,
      "grad_norm": 0.6045212149620056,
      "learning_rate": 8e-05,
      "loss": 1.5,
      "step": 1936
    },
    {
      "epoch": 0.7069343065693431,
      "grad_norm": 0.637267529964447,
      "learning_rate": 8e-05,
      "loss": 1.4671,
      "step": 1937
    },
    {
      "epoch": 0.7072992700729926,
      "grad_norm": 0.6178795695304871,
      "learning_rate": 8e-05,
      "loss": 1.5204,
      "step": 1938
    },
    {
      "epoch": 0.7076642335766423,
      "grad_norm": 0.6209700107574463,
      "learning_rate": 8e-05,
      "loss": 1.506,
      "step": 1939
    },
    {
      "epoch": 0.708029197080292,
      "grad_norm": 0.6018100380897522,
      "learning_rate": 8e-05,
      "loss": 1.5079,
      "step": 1940
    },
    {
      "epoch": 0.7083941605839416,
      "grad_norm": 0.623070478439331,
      "learning_rate": 8e-05,
      "loss": 1.4686,
      "step": 1941
    },
    {
      "epoch": 0.7087591240875912,
      "grad_norm": 0.6248634457588196,
      "learning_rate": 8e-05,
      "loss": 1.4449,
      "step": 1942
    },
    {
      "epoch": 0.7091240875912409,
      "grad_norm": 0.6112472414970398,
      "learning_rate": 8e-05,
      "loss": 1.4518,
      "step": 1943
    },
    {
      "epoch": 0.7094890510948905,
      "grad_norm": 0.6253452897071838,
      "learning_rate": 8e-05,
      "loss": 1.5193,
      "step": 1944
    },
    {
      "epoch": 0.7098540145985401,
      "grad_norm": 0.6030800938606262,
      "learning_rate": 8e-05,
      "loss": 1.4906,
      "step": 1945
    },
    {
      "epoch": 0.7102189781021898,
      "grad_norm": 0.6328217387199402,
      "learning_rate": 8e-05,
      "loss": 1.5482,
      "step": 1946
    },
    {
      "epoch": 0.7105839416058394,
      "grad_norm": 0.6071476936340332,
      "learning_rate": 8e-05,
      "loss": 1.4718,
      "step": 1947
    },
    {
      "epoch": 0.710948905109489,
      "grad_norm": 0.6140018105506897,
      "learning_rate": 8e-05,
      "loss": 1.5452,
      "step": 1948
    },
    {
      "epoch": 0.7113138686131387,
      "grad_norm": 0.6163918375968933,
      "learning_rate": 8e-05,
      "loss": 1.5969,
      "step": 1949
    },
    {
      "epoch": 0.7116788321167883,
      "grad_norm": 0.611481249332428,
      "learning_rate": 8e-05,
      "loss": 1.5386,
      "step": 1950
    },
    {
      "epoch": 0.712043795620438,
      "grad_norm": 0.6297085285186768,
      "learning_rate": 8e-05,
      "loss": 1.5227,
      "step": 1951
    },
    {
      "epoch": 0.7124087591240876,
      "grad_norm": 0.6245521903038025,
      "learning_rate": 8e-05,
      "loss": 1.5077,
      "step": 1952
    },
    {
      "epoch": 0.7127737226277372,
      "grad_norm": 0.5968251824378967,
      "learning_rate": 8e-05,
      "loss": 1.5151,
      "step": 1953
    },
    {
      "epoch": 0.7131386861313869,
      "grad_norm": 0.6344943642616272,
      "learning_rate": 8e-05,
      "loss": 1.4924,
      "step": 1954
    },
    {
      "epoch": 0.7135036496350365,
      "grad_norm": 0.6099545359611511,
      "learning_rate": 8e-05,
      "loss": 1.4867,
      "step": 1955
    },
    {
      "epoch": 0.7138686131386861,
      "grad_norm": 0.6117342114448547,
      "learning_rate": 8e-05,
      "loss": 1.5303,
      "step": 1956
    },
    {
      "epoch": 0.7142335766423358,
      "grad_norm": 0.6096351742744446,
      "learning_rate": 8e-05,
      "loss": 1.4827,
      "step": 1957
    },
    {
      "epoch": 0.7145985401459855,
      "grad_norm": 0.6033279895782471,
      "learning_rate": 8e-05,
      "loss": 1.5704,
      "step": 1958
    },
    {
      "epoch": 0.714963503649635,
      "grad_norm": 0.6308004856109619,
      "learning_rate": 8e-05,
      "loss": 1.5455,
      "step": 1959
    },
    {
      "epoch": 0.7153284671532847,
      "grad_norm": 0.616935133934021,
      "learning_rate": 8e-05,
      "loss": 1.5798,
      "step": 1960
    },
    {
      "epoch": 0.7156934306569344,
      "grad_norm": 0.6046237349510193,
      "learning_rate": 8e-05,
      "loss": 1.5288,
      "step": 1961
    },
    {
      "epoch": 0.7160583941605839,
      "grad_norm": 0.6721352338790894,
      "learning_rate": 8e-05,
      "loss": 1.5456,
      "step": 1962
    },
    {
      "epoch": 0.7164233576642336,
      "grad_norm": 0.6139997243881226,
      "learning_rate": 8e-05,
      "loss": 1.5448,
      "step": 1963
    },
    {
      "epoch": 0.7167883211678832,
      "grad_norm": 0.5988743305206299,
      "learning_rate": 8e-05,
      "loss": 1.4493,
      "step": 1964
    },
    {
      "epoch": 0.7171532846715328,
      "grad_norm": 0.6307419538497925,
      "learning_rate": 8e-05,
      "loss": 1.5933,
      "step": 1965
    },
    {
      "epoch": 0.7175182481751825,
      "grad_norm": 0.6028372049331665,
      "learning_rate": 8e-05,
      "loss": 1.495,
      "step": 1966
    },
    {
      "epoch": 0.7178832116788321,
      "grad_norm": 0.6100740432739258,
      "learning_rate": 8e-05,
      "loss": 1.5635,
      "step": 1967
    },
    {
      "epoch": 0.7182481751824817,
      "grad_norm": 0.623656690120697,
      "learning_rate": 8e-05,
      "loss": 1.5346,
      "step": 1968
    },
    {
      "epoch": 0.7186131386861314,
      "grad_norm": 0.6276271939277649,
      "learning_rate": 8e-05,
      "loss": 1.5795,
      "step": 1969
    },
    {
      "epoch": 0.718978102189781,
      "grad_norm": 0.6080697178840637,
      "learning_rate": 8e-05,
      "loss": 1.5421,
      "step": 1970
    },
    {
      "epoch": 0.7193430656934306,
      "grad_norm": 0.6221030354499817,
      "learning_rate": 8e-05,
      "loss": 1.5016,
      "step": 1971
    },
    {
      "epoch": 0.7197080291970803,
      "grad_norm": 0.5943694114685059,
      "learning_rate": 8e-05,
      "loss": 1.4958,
      "step": 1972
    },
    {
      "epoch": 0.7200729927007299,
      "grad_norm": 0.5819162726402283,
      "learning_rate": 8e-05,
      "loss": 1.5346,
      "step": 1973
    },
    {
      "epoch": 0.7204379562043796,
      "grad_norm": 0.6025733351707458,
      "learning_rate": 8e-05,
      "loss": 1.4832,
      "step": 1974
    },
    {
      "epoch": 0.7208029197080292,
      "grad_norm": 0.60799640417099,
      "learning_rate": 8e-05,
      "loss": 1.54,
      "step": 1975
    },
    {
      "epoch": 0.7211678832116788,
      "grad_norm": 0.615833044052124,
      "learning_rate": 8e-05,
      "loss": 1.551,
      "step": 1976
    },
    {
      "epoch": 0.7215328467153285,
      "grad_norm": 0.6179541349411011,
      "learning_rate": 8e-05,
      "loss": 1.5919,
      "step": 1977
    },
    {
      "epoch": 0.7218978102189781,
      "grad_norm": 0.6050903797149658,
      "learning_rate": 8e-05,
      "loss": 1.5367,
      "step": 1978
    },
    {
      "epoch": 0.7222627737226277,
      "grad_norm": 0.6024841070175171,
      "learning_rate": 8e-05,
      "loss": 1.5539,
      "step": 1979
    },
    {
      "epoch": 0.7226277372262774,
      "grad_norm": 0.6087439060211182,
      "learning_rate": 8e-05,
      "loss": 1.5233,
      "step": 1980
    },
    {
      "epoch": 0.722992700729927,
      "grad_norm": 0.632060170173645,
      "learning_rate": 8e-05,
      "loss": 1.5707,
      "step": 1981
    },
    {
      "epoch": 0.7233576642335766,
      "grad_norm": 0.6053739190101624,
      "learning_rate": 8e-05,
      "loss": 1.5622,
      "step": 1982
    },
    {
      "epoch": 0.7237226277372263,
      "grad_norm": 0.6147251129150391,
      "learning_rate": 8e-05,
      "loss": 1.5636,
      "step": 1983
    },
    {
      "epoch": 0.724087591240876,
      "grad_norm": 0.6775200366973877,
      "learning_rate": 8e-05,
      "loss": 1.6113,
      "step": 1984
    },
    {
      "epoch": 0.7244525547445255,
      "grad_norm": 0.6196555495262146,
      "learning_rate": 8e-05,
      "loss": 1.5108,
      "step": 1985
    },
    {
      "epoch": 0.7248175182481752,
      "grad_norm": 0.6108691096305847,
      "learning_rate": 8e-05,
      "loss": 1.5023,
      "step": 1986
    },
    {
      "epoch": 0.7251824817518249,
      "grad_norm": 0.6130443215370178,
      "learning_rate": 8e-05,
      "loss": 1.4621,
      "step": 1987
    },
    {
      "epoch": 0.7255474452554744,
      "grad_norm": 0.6481626033782959,
      "learning_rate": 8e-05,
      "loss": 1.5762,
      "step": 1988
    },
    {
      "epoch": 0.7259124087591241,
      "grad_norm": 0.6390963196754456,
      "learning_rate": 8e-05,
      "loss": 1.5768,
      "step": 1989
    },
    {
      "epoch": 0.7262773722627737,
      "grad_norm": 0.6178163886070251,
      "learning_rate": 8e-05,
      "loss": 1.5393,
      "step": 1990
    },
    {
      "epoch": 0.7266423357664233,
      "grad_norm": 0.6022170186042786,
      "learning_rate": 8e-05,
      "loss": 1.5664,
      "step": 1991
    },
    {
      "epoch": 0.727007299270073,
      "grad_norm": 0.622410237789154,
      "learning_rate": 8e-05,
      "loss": 1.5283,
      "step": 1992
    },
    {
      "epoch": 0.7273722627737226,
      "grad_norm": 0.598388135433197,
      "learning_rate": 8e-05,
      "loss": 1.4415,
      "step": 1993
    },
    {
      "epoch": 0.7277372262773723,
      "grad_norm": 0.6056691408157349,
      "learning_rate": 8e-05,
      "loss": 1.4742,
      "step": 1994
    },
    {
      "epoch": 0.7281021897810219,
      "grad_norm": 0.6156701445579529,
      "learning_rate": 8e-05,
      "loss": 1.5407,
      "step": 1995
    },
    {
      "epoch": 0.7284671532846715,
      "grad_norm": 0.5882695913314819,
      "learning_rate": 8e-05,
      "loss": 1.5147,
      "step": 1996
    },
    {
      "epoch": 0.7288321167883212,
      "grad_norm": 0.601129949092865,
      "learning_rate": 8e-05,
      "loss": 1.4685,
      "step": 1997
    },
    {
      "epoch": 0.7291970802919708,
      "grad_norm": 0.6222327947616577,
      "learning_rate": 8e-05,
      "loss": 1.5759,
      "step": 1998
    },
    {
      "epoch": 0.7295620437956204,
      "grad_norm": 0.627479612827301,
      "learning_rate": 8e-05,
      "loss": 1.5861,
      "step": 1999
    },
    {
      "epoch": 0.7299270072992701,
      "grad_norm": 0.5930818915367126,
      "learning_rate": 8e-05,
      "loss": 1.4378,
      "step": 2000
    }
  ],
  "logging_steps": 1,
  "max_steps": 5480,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.1370101282439168e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}