{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 83.38095238095238,
  "eval_steps": 500,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.19047619047619047,
      "grad_norm": 33.78459548950195,
      "learning_rate": 1e-05,
      "loss": 14.2748,
      "mean_token_accuracy": 0.4245416074991226,
      "step": 1
    },
    {
      "epoch": 0.38095238095238093,
      "grad_norm": 34.141048431396484,
      "learning_rate": 2e-05,
      "loss": 14.9063,
      "mean_token_accuracy": 0.42434193193912506,
      "step": 2
    },
    {
      "epoch": 0.5714285714285714,
      "grad_norm": 33.89708709716797,
      "learning_rate": 3e-05,
      "loss": 14.4293,
      "mean_token_accuracy": 0.42967987805604935,
      "step": 3
    },
    {
      "epoch": 0.7619047619047619,
      "grad_norm": 21.82135009765625,
      "learning_rate": 4e-05,
      "loss": 13.1187,
      "mean_token_accuracy": 0.4886682406067848,
      "step": 4
    },
    {
      "epoch": 0.9523809523809523,
      "grad_norm": 19.052448272705078,
      "learning_rate": 5e-05,
      "loss": 11.6617,
      "mean_token_accuracy": 0.5300922393798828,
      "step": 5
    },
    {
      "epoch": 1.0,
      "grad_norm": 10.372604370117188,
      "learning_rate": 4.98989898989899e-05,
      "loss": 1.9845,
      "mean_token_accuracy": 0.6190476417541504,
      "step": 6
    },
    {
      "epoch": 1.1904761904761905,
      "grad_norm": 18.249330520629883,
      "learning_rate": 4.97979797979798e-05,
      "loss": 9.8237,
      "mean_token_accuracy": 0.58917336165905,
      "step": 7
    },
    {
      "epoch": 1.380952380952381,
      "grad_norm": 18.177717208862305,
      "learning_rate": 4.9696969696969694e-05,
      "loss": 9.7575,
      "mean_token_accuracy": 0.5883309841156006,
      "step": 8
    },
    {
      "epoch": 1.5714285714285714,
      "grad_norm": 16.09309196472168,
      "learning_rate": 4.9595959595959594e-05,
      "loss": 9.3943,
      "mean_token_accuracy": 0.6104246228933334,
      "step": 9
    },
    {
      "epoch": 1.7619047619047619,
      "grad_norm": 14.678476333618164,
      "learning_rate": 4.94949494949495e-05,
      "loss": 8.6018,
      "mean_token_accuracy": 0.6411420404911041,
      "step": 10
    },
    {
      "epoch": 1.9523809523809523,
      "grad_norm": 12.80629825592041,
      "learning_rate": 4.93939393939394e-05,
      "loss": 7.9568,
      "mean_token_accuracy": 0.6764184236526489,
      "step": 11
    },
    {
      "epoch": 2.0,
      "grad_norm": 9.918559074401855,
      "learning_rate": 4.92929292929293e-05,
      "loss": 1.4247,
      "mean_token_accuracy": 0.75,
      "step": 12
    },
    {
      "epoch": 2.1904761904761907,
      "grad_norm": 11.65300464630127,
      "learning_rate": 4.919191919191919e-05,
      "loss": 7.3849,
      "mean_token_accuracy": 0.6941855251789093,
      "step": 13
    },
    {
      "epoch": 2.380952380952381,
      "grad_norm": 11.127327919006348,
      "learning_rate": 4.909090909090909e-05,
      "loss": 6.7104,
      "mean_token_accuracy": 0.7069735676050186,
      "step": 14
    },
    {
      "epoch": 2.571428571428571,
      "grad_norm": 11.559555053710938,
      "learning_rate": 4.898989898989899e-05,
      "loss": 7.0902,
      "mean_token_accuracy": 0.709569051861763,
      "step": 15
    },
    {
      "epoch": 2.761904761904762,
      "grad_norm": 10.838669776916504,
      "learning_rate": 4.888888888888889e-05,
      "loss": 6.7901,
      "mean_token_accuracy": 0.713655412197113,
      "step": 16
    },
    {
      "epoch": 2.9523809523809526,
      "grad_norm": 10.266611099243164,
      "learning_rate": 4.878787878787879e-05,
      "loss": 6.4548,
      "mean_token_accuracy": 0.7244278490543365,
      "step": 17
    },
    {
      "epoch": 3.0,
      "grad_norm": 5.915023326873779,
      "learning_rate": 4.868686868686869e-05,
      "loss": 0.636,
      "mean_token_accuracy": 0.8730158805847168,
      "step": 18
    },
    {
      "epoch": 3.1904761904761907,
      "grad_norm": 9.826017379760742,
      "learning_rate": 4.858585858585859e-05,
      "loss": 5.6655,
      "mean_token_accuracy": 0.7555368840694427,
      "step": 19
    },
    {
      "epoch": 3.380952380952381,
      "grad_norm": 9.213407516479492,
      "learning_rate": 4.848484848484849e-05,
      "loss": 6.4954,
      "mean_token_accuracy": 0.7222279012203217,
      "step": 20
    },
    {
      "epoch": 3.571428571428571,
      "grad_norm": 9.642789840698242,
      "learning_rate": 4.838383838383839e-05,
      "loss": 5.1397,
      "mean_token_accuracy": 0.7691315412521362,
      "step": 21
    },
    {
      "epoch": 3.761904761904762,
      "grad_norm": 8.594555854797363,
      "learning_rate": 4.828282828282829e-05,
      "loss": 5.4342,
      "mean_token_accuracy": 0.7607319056987762,
      "step": 22
    },
    {
      "epoch": 3.9523809523809526,
      "grad_norm": 8.79131031036377,
      "learning_rate": 4.8181818181818186e-05,
      "loss": 5.7146,
      "mean_token_accuracy": 0.7484780848026276,
      "step": 23
    },
    {
      "epoch": 4.0,
      "grad_norm": 6.953114032745361,
      "learning_rate": 4.808080808080808e-05,
      "loss": 1.4211,
      "mean_token_accuracy": 0.7580645084381104,
      "step": 24
    },
    {
      "epoch": 4.190476190476191,
      "grad_norm": 8.912933349609375,
      "learning_rate": 4.797979797979798e-05,
      "loss": 4.9729,
      "mean_token_accuracy": 0.7652112394571304,
      "step": 25
    },
    {
      "epoch": 4.380952380952381,
      "grad_norm": 9.128190994262695,
      "learning_rate": 4.787878787878788e-05,
      "loss": 4.9376,
      "mean_token_accuracy": 0.7736384719610214,
      "step": 26
    },
    {
      "epoch": 4.571428571428571,
      "grad_norm": 9.021340370178223,
      "learning_rate": 4.7777777777777784e-05,
      "loss": 5.1022,
      "mean_token_accuracy": 0.7747573852539062,
      "step": 27
    },
    {
      "epoch": 4.761904761904762,
      "grad_norm": 8.445326805114746,
      "learning_rate": 4.7676767676767684e-05,
      "loss": 4.4903,
      "mean_token_accuracy": 0.8014376759529114,
      "step": 28
    },
    {
      "epoch": 4.9523809523809526,
      "grad_norm": 8.269598960876465,
      "learning_rate": 4.7575757575757576e-05,
      "loss": 4.7027,
      "mean_token_accuracy": 0.7928940802812576,
      "step": 29
    },
    {
      "epoch": 5.0,
      "grad_norm": 4.256129264831543,
      "learning_rate": 4.7474747474747476e-05,
      "loss": 1.1768,
      "mean_token_accuracy": 0.8405796885490417,
      "step": 30
    },
    {
      "epoch": 5.190476190476191,
      "grad_norm": 7.8270978927612305,
      "learning_rate": 4.7373737373737375e-05,
      "loss": 4.2699,
      "mean_token_accuracy": 0.8052034825086594,
      "step": 31
    },
    {
      "epoch": 5.380952380952381,
      "grad_norm": 7.741850852966309,
      "learning_rate": 4.7272727272727275e-05,
      "loss": 3.9571,
      "mean_token_accuracy": 0.8226524442434311,
      "step": 32
    },
    {
      "epoch": 5.571428571428571,
      "grad_norm": 7.062904357910156,
      "learning_rate": 4.7171717171717174e-05,
      "loss": 4.1547,
      "mean_token_accuracy": 0.8154689371585846,
      "step": 33
    },
    {
      "epoch": 5.761904761904762,
      "grad_norm": 7.048011779785156,
      "learning_rate": 4.7070707070707074e-05,
      "loss": 4.4063,
      "mean_token_accuracy": 0.8031313121318817,
      "step": 34
    },
    {
      "epoch": 5.9523809523809526,
      "grad_norm": 7.0800580978393555,
      "learning_rate": 4.696969696969697e-05,
      "loss": 3.6279,
      "mean_token_accuracy": 0.8297399282455444,
      "step": 35
    },
    {
      "epoch": 6.0,
      "grad_norm": 7.842761993408203,
      "learning_rate": 4.686868686868687e-05,
      "loss": 1.2107,
      "mean_token_accuracy": 0.8068181872367859,
      "step": 36
    },
    {
      "epoch": 6.190476190476191,
      "grad_norm": 7.796157360076904,
      "learning_rate": 4.676767676767677e-05,
      "loss": 3.3978,
      "mean_token_accuracy": 0.8329954296350479,
      "step": 37
    },
    {
      "epoch": 6.380952380952381,
      "grad_norm": 6.457103252410889,
      "learning_rate": 4.666666666666667e-05,
      "loss": 3.451,
      "mean_token_accuracy": 0.8273660093545914,
      "step": 38
    },
    {
      "epoch": 6.571428571428571,
      "grad_norm": 6.003915786743164,
      "learning_rate": 4.656565656565657e-05,
      "loss": 3.5587,
      "mean_token_accuracy": 0.83831487596035,
      "step": 39
    },
    {
      "epoch": 6.761904761904762,
      "grad_norm": 6.043710231781006,
      "learning_rate": 4.6464646464646464e-05,
      "loss": 3.5422,
      "mean_token_accuracy": 0.8222462385892868,
      "step": 40
    },
    {
      "epoch": 6.9523809523809526,
      "grad_norm": 6.391598701477051,
      "learning_rate": 4.636363636363636e-05,
      "loss": 3.2658,
      "mean_token_accuracy": 0.856766939163208,
      "step": 41
    },
    {
      "epoch": 7.0,
      "grad_norm": 5.940098285675049,
      "learning_rate": 4.626262626262626e-05,
      "loss": 0.7579,
      "mean_token_accuracy": 0.8301886916160583,
      "step": 42
    },
    {
      "epoch": 7.190476190476191,
      "grad_norm": 6.040279388427734,
      "learning_rate": 4.616161616161616e-05,
      "loss": 2.7243,
      "mean_token_accuracy": 0.8692310005426407,
      "step": 43
    },
    {
      "epoch": 7.380952380952381,
      "grad_norm": 5.645506858825684,
      "learning_rate": 4.606060606060607e-05,
      "loss": 2.701,
      "mean_token_accuracy": 0.8647979497909546,
      "step": 44
    },
    {
      "epoch": 7.571428571428571,
      "grad_norm": 5.126684188842773,
      "learning_rate": 4.595959595959596e-05,
      "loss": 2.8655,
      "mean_token_accuracy": 0.8684723079204559,
      "step": 45
    },
    {
      "epoch": 7.761904761904762,
      "grad_norm": 8.235642433166504,
      "learning_rate": 4.585858585858586e-05,
      "loss": 2.9052,
      "mean_token_accuracy": 0.8446438163518906,
      "step": 46
    },
    {
      "epoch": 7.9523809523809526,
      "grad_norm": 6.074913501739502,
      "learning_rate": 4.575757575757576e-05,
      "loss": 2.8831,
      "mean_token_accuracy": 0.857246458530426,
      "step": 47
    },
    {
      "epoch": 8.0,
      "grad_norm": 4.886857986450195,
      "learning_rate": 4.565656565656566e-05,
      "loss": 0.8029,
      "mean_token_accuracy": 0.8294573426246643,
      "step": 48
    },
    {
      "epoch": 8.19047619047619,
      "grad_norm": 6.794694900512695,
      "learning_rate": 4.555555555555556e-05,
      "loss": 2.4927,
      "mean_token_accuracy": 0.8782062977552414,
      "step": 49
    },
    {
      "epoch": 8.380952380952381,
      "grad_norm": 5.690680503845215,
      "learning_rate": 4.545454545454546e-05,
      "loss": 1.9744,
      "mean_token_accuracy": 0.8949980139732361,
      "step": 50
    },
    {
      "epoch": 8.571428571428571,
      "grad_norm": 9.415908813476562,
      "learning_rate": 4.535353535353535e-05,
      "loss": 2.2432,
      "mean_token_accuracy": 0.8826991468667984,
      "step": 51
    },
    {
      "epoch": 8.761904761904763,
      "grad_norm": 7.901670932769775,
      "learning_rate": 4.525252525252526e-05,
      "loss": 2.2805,
      "mean_token_accuracy": 0.8890593945980072,
      "step": 52
    },
    {
      "epoch": 8.952380952380953,
      "grad_norm": 6.918704986572266,
      "learning_rate": 4.515151515151516e-05,
      "loss": 2.5343,
      "mean_token_accuracy": 0.8712608069181442,
      "step": 53
    },
    {
      "epoch": 9.0,
      "grad_norm": 12.76561450958252,
      "learning_rate": 4.5050505050505056e-05,
      "loss": 0.576,
      "mean_token_accuracy": 0.8529411554336548,
      "step": 54
    },
    {
      "epoch": 9.19047619047619,
      "grad_norm": 6.143138408660889,
      "learning_rate": 4.494949494949495e-05,
      "loss": 1.878,
      "mean_token_accuracy": 0.9020879119634628,
      "step": 55
    },
    {
      "epoch": 9.380952380952381,
      "grad_norm": 7.497737884521484,
      "learning_rate": 4.484848484848485e-05,
      "loss": 1.9871,
      "mean_token_accuracy": 0.8944180905818939,
      "step": 56
    },
    {
      "epoch": 9.571428571428571,
      "grad_norm": 5.427354335784912,
      "learning_rate": 4.474747474747475e-05,
      "loss": 1.9095,
      "mean_token_accuracy": 0.9023730456829071,
      "step": 57
    },
    {
      "epoch": 9.761904761904763,
      "grad_norm": 5.814023017883301,
      "learning_rate": 4.464646464646465e-05,
      "loss": 1.8084,
      "mean_token_accuracy": 0.9020061939954758,
      "step": 58
    },
    {
      "epoch": 9.952380952380953,
      "grad_norm": 6.965571403503418,
      "learning_rate": 4.454545454545455e-05,
      "loss": 1.7746,
      "mean_token_accuracy": 0.9095794558525085,
      "step": 59
    },
    {
      "epoch": 10.0,
      "grad_norm": 6.048158168792725,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 0.4674,
      "mean_token_accuracy": 0.9152542352676392,
      "step": 60
    },
    {
      "epoch": 10.19047619047619,
      "grad_norm": 6.400238513946533,
      "learning_rate": 4.4343434343434346e-05,
      "loss": 1.4747,
      "mean_token_accuracy": 0.9173053950071335,
      "step": 61
    },
    {
      "epoch": 10.380952380952381,
      "grad_norm": 5.616025924682617,
      "learning_rate": 4.4242424242424246e-05,
      "loss": 1.4234,
      "mean_token_accuracy": 0.9245103895664215,
      "step": 62
    },
    {
      "epoch": 10.571428571428571,
      "grad_norm": 6.788946628570557,
      "learning_rate": 4.4141414141414145e-05,
      "loss": 1.6027,
      "mean_token_accuracy": 0.9176820814609528,
      "step": 63
    },
    {
      "epoch": 10.761904761904763,
      "grad_norm": 6.084983825683594,
      "learning_rate": 4.4040404040404044e-05,
      "loss": 1.4259,
      "mean_token_accuracy": 0.9250814765691757,
      "step": 64
    },
    {
      "epoch": 10.952380952380953,
      "grad_norm": 10.394392967224121,
      "learning_rate": 4.3939393939393944e-05,
      "loss": 1.2998,
      "mean_token_accuracy": 0.9314595013856888,
      "step": 65
    },
    {
      "epoch": 11.0,
      "grad_norm": 4.715174198150635,
      "learning_rate": 4.383838383838384e-05,
      "loss": 0.2015,
      "mean_token_accuracy": 0.9506173133850098,
      "step": 66
    },
    {
      "epoch": 11.19047619047619,
      "grad_norm": 4.792293071746826,
      "learning_rate": 4.3737373737373736e-05,
      "loss": 1.2582,
      "mean_token_accuracy": 0.9351158142089844,
      "step": 67
    },
    {
      "epoch": 11.380952380952381,
      "grad_norm": 7.185492515563965,
      "learning_rate": 4.3636363636363636e-05,
      "loss": 1.025,
      "mean_token_accuracy": 0.9418339878320694,
      "step": 68
    },
    {
      "epoch": 11.571428571428571,
      "grad_norm": 6.083255290985107,
      "learning_rate": 4.3535353535353535e-05,
      "loss": 1.0012,
      "mean_token_accuracy": 0.9446901679039001,
      "step": 69
    },
    {
      "epoch": 11.761904761904763,
      "grad_norm": 8.141711235046387,
      "learning_rate": 4.343434343434344e-05,
      "loss": 1.2278,
      "mean_token_accuracy": 0.9310520589351654,
      "step": 70
    },
    {
      "epoch": 11.952380952380953,
      "grad_norm": 9.146880149841309,
      "learning_rate": 4.3333333333333334e-05,
      "loss": 1.0842,
      "mean_token_accuracy": 0.9404759407043457,
      "step": 71
    },
    {
      "epoch": 12.0,
      "grad_norm": 3.645364761352539,
      "learning_rate": 4.3232323232323234e-05,
      "loss": 0.1553,
      "mean_token_accuracy": 0.9714285731315613,
      "step": 72
    },
    {
      "epoch": 12.19047619047619,
      "grad_norm": 7.048225402832031,
      "learning_rate": 4.313131313131313e-05,
      "loss": 1.0319,
      "mean_token_accuracy": 0.9446324110031128,
      "step": 73
    },
    {
      "epoch": 12.380952380952381,
      "grad_norm": 6.668647289276123,
      "learning_rate": 4.303030303030303e-05,
      "loss": 0.8348,
      "mean_token_accuracy": 0.9561943113803864,
      "step": 74
    },
    {
      "epoch": 12.571428571428571,
      "grad_norm": 7.347132205963135,
      "learning_rate": 4.292929292929293e-05,
      "loss": 0.8571,
      "mean_token_accuracy": 0.9449830502271652,
      "step": 75
    },
    {
      "epoch": 12.761904761904763,
      "grad_norm": 5.543299674987793,
      "learning_rate": 4.282828282828283e-05,
      "loss": 0.9421,
      "mean_token_accuracy": 0.9508587419986725,
      "step": 76
    },
    {
      "epoch": 12.952380952380953,
      "grad_norm": 6.999424934387207,
      "learning_rate": 4.2727272727272724e-05,
      "loss": 0.6839,
      "mean_token_accuracy": 0.9609730541706085,
      "step": 77
    },
    {
      "epoch": 13.0,
      "grad_norm": 2.92433762550354,
      "learning_rate": 4.262626262626263e-05,
      "loss": 0.1323,
      "mean_token_accuracy": 0.9838709831237793,
      "step": 78
    },
    {
      "epoch": 13.19047619047619,
      "grad_norm": 5.790960311889648,
      "learning_rate": 4.252525252525253e-05,
      "loss": 0.7111,
      "mean_token_accuracy": 0.9593389332294464,
      "step": 79
    },
    {
      "epoch": 13.380952380952381,
      "grad_norm": 5.800691604614258,
      "learning_rate": 4.242424242424243e-05,
      "loss": 0.6327,
      "mean_token_accuracy": 0.9631912261247635,
      "step": 80
    },
    {
      "epoch": 13.571428571428571,
      "grad_norm": 5.627686977386475,
      "learning_rate": 4.232323232323233e-05,
      "loss": 0.6079,
      "mean_token_accuracy": 0.961370512843132,
      "step": 81
    },
    {
      "epoch": 13.761904761904763,
      "grad_norm": 7.996088027954102,
      "learning_rate": 4.222222222222222e-05,
      "loss": 0.578,
      "mean_token_accuracy": 0.9649683386087418,
      "step": 82
    },
    {
      "epoch": 13.952380952380953,
      "grad_norm": 6.650062084197998,
      "learning_rate": 4.212121212121212e-05,
      "loss": 0.738,
      "mean_token_accuracy": 0.9565856605768204,
      "step": 83
    },
    {
      "epoch": 14.0,
      "grad_norm": 3.682978630065918,
      "learning_rate": 4.202020202020202e-05,
      "loss": 0.1826,
      "mean_token_accuracy": 0.9818181991577148,
      "step": 84
    },
    {
      "epoch": 14.19047619047619,
      "grad_norm": 4.094846725463867,
      "learning_rate": 4.191919191919192e-05,
      "loss": 0.4917,
      "mean_token_accuracy": 0.9723720699548721,
      "step": 85
    },
    {
      "epoch": 14.380952380952381,
      "grad_norm": 5.953057289123535,
      "learning_rate": 4.181818181818182e-05,
      "loss": 0.4787,
      "mean_token_accuracy": 0.9700902253389359,
      "step": 86
    },
    {
      "epoch": 14.571428571428571,
      "grad_norm": 4.5836591720581055,
      "learning_rate": 4.171717171717172e-05,
      "loss": 0.5792,
      "mean_token_accuracy": 0.9712613523006439,
      "step": 87
    },
    {
      "epoch": 14.761904761904763,
      "grad_norm": 4.867373943328857,
      "learning_rate": 4.161616161616162e-05,
      "loss": 0.4702,
      "mean_token_accuracy": 0.9780033379793167,
      "step": 88
    },
    {
      "epoch": 14.952380952380953,
      "grad_norm": 7.761333465576172,
      "learning_rate": 4.151515151515152e-05,
      "loss": 0.6332,
      "mean_token_accuracy": 0.9641157388687134,
      "step": 89
    },
    {
      "epoch": 15.0,
      "grad_norm": 4.875545501708984,
      "learning_rate": 4.141414141414142e-05,
      "loss": 0.1378,
      "mean_token_accuracy": 0.98591548204422,
      "step": 90
    },
    {
      "epoch": 15.19047619047619,
      "grad_norm": 4.117421627044678,
      "learning_rate": 4.131313131313132e-05,
      "loss": 0.4463,
      "mean_token_accuracy": 0.9724489748477936,
      "step": 91
    },
    {
      "epoch": 15.380952380952381,
      "grad_norm": 3.252460241317749,
      "learning_rate": 4.1212121212121216e-05,
      "loss": 0.3858,
      "mean_token_accuracy": 0.9809663742780685,
      "step": 92
    },
    {
      "epoch": 15.571428571428571,
      "grad_norm": 4.330794334411621,
      "learning_rate": 4.111111111111111e-05,
      "loss": 0.4585,
      "mean_token_accuracy": 0.9748548269271851,
      "step": 93
    },
    {
      "epoch": 15.761904761904763,
      "grad_norm": 5.096158027648926,
      "learning_rate": 4.101010101010101e-05,
      "loss": 0.4829,
      "mean_token_accuracy": 0.9708511531352997,
      "step": 94
    },
    {
      "epoch": 15.952380952380953,
      "grad_norm": 6.11644172668457,
      "learning_rate": 4.0909090909090915e-05,
      "loss": 0.4374,
      "mean_token_accuracy": 0.974689856171608,
      "step": 95
    },
    {
      "epoch": 16.0,
      "grad_norm": 2.1705079078674316,
      "learning_rate": 4.0808080808080814e-05,
      "loss": 0.0851,
      "mean_token_accuracy": 0.9838709831237793,
      "step": 96
    },
    {
      "epoch": 16.19047619047619,
      "grad_norm": 3.2492971420288086,
      "learning_rate": 4.070707070707071e-05,
      "loss": 0.3638,
      "mean_token_accuracy": 0.9768412113189697,
      "step": 97
    },
    {
      "epoch": 16.38095238095238,
      "grad_norm": 2.8683860301971436,
      "learning_rate": 4.0606060606060606e-05,
      "loss": 0.3437,
      "mean_token_accuracy": 0.9768141210079193,
      "step": 98
    },
    {
      "epoch": 16.571428571428573,
      "grad_norm": 3.508230686187744,
      "learning_rate": 4.0505050505050506e-05,
      "loss": 0.354,
      "mean_token_accuracy": 0.9778662770986557,
      "step": 99
    },
    {
      "epoch": 16.761904761904763,
      "grad_norm": 3.8338069915771484,
      "learning_rate": 4.0404040404040405e-05,
      "loss": 0.3948,
      "mean_token_accuracy": 0.973381832242012,
      "step": 100
    },
    {
      "epoch": 16.952380952380953,
      "grad_norm": 4.676501750946045,
      "learning_rate": 4.0303030303030305e-05,
      "loss": 0.3893,
      "mean_token_accuracy": 0.9753514975309372,
      "step": 101
    },
    {
      "epoch": 17.0,
      "grad_norm": 4.8052287101745605,
      "learning_rate": 4.0202020202020204e-05,
      "loss": 0.1183,
      "mean_token_accuracy": 0.9649122953414917,
      "step": 102
    },
    {
      "epoch": 17.19047619047619,
      "grad_norm": 3.2596077919006348,
      "learning_rate": 4.01010101010101e-05,
      "loss": 0.3596,
      "mean_token_accuracy": 0.9725935012102127,
      "step": 103
    },
    {
      "epoch": 17.38095238095238,
      "grad_norm": 2.6120784282684326,
      "learning_rate": 4e-05,
      "loss": 0.3414,
      "mean_token_accuracy": 0.9788288474082947,
      "step": 104
    },
    {
      "epoch": 17.571428571428573,
      "grad_norm": 3.26759934425354,
      "learning_rate": 3.98989898989899e-05,
      "loss": 0.3576,
      "mean_token_accuracy": 0.9772270619869232,
      "step": 105
    },
    {
      "epoch": 17.761904761904763,
      "grad_norm": 3.644747734069824,
      "learning_rate": 3.97979797979798e-05,
      "loss": 0.3324,
      "mean_token_accuracy": 0.9781567454338074,
      "step": 106
    },
    {
      "epoch": 17.952380952380953,
      "grad_norm": 4.441091537475586,
      "learning_rate": 3.96969696969697e-05,
      "loss": 0.3747,
      "mean_token_accuracy": 0.9714739322662354,
      "step": 107
    },
    {
      "epoch": 18.0,
      "grad_norm": 2.743286371231079,
      "learning_rate": 3.9595959595959594e-05,
      "loss": 0.0975,
      "mean_token_accuracy": 0.9696969985961914,
      "step": 108
    },
    {
      "epoch": 18.19047619047619,
      "grad_norm": 3.2830970287323,
      "learning_rate": 3.9494949494949494e-05,
      "loss": 0.3028,
      "mean_token_accuracy": 0.9811016768217087,
      "step": 109
    },
    {
      "epoch": 18.38095238095238,
      "grad_norm": 2.505868673324585,
      "learning_rate": 3.939393939393939e-05,
      "loss": 0.3186,
      "mean_token_accuracy": 0.9771904498338699,
      "step": 110
    },
    {
      "epoch": 18.571428571428573,
      "grad_norm": 2.6549816131591797,
      "learning_rate": 3.929292929292929e-05,
      "loss": 0.3141,
      "mean_token_accuracy": 0.9759136885404587,
      "step": 111
    },
    {
      "epoch": 18.761904761904763,
      "grad_norm": 3.7054269313812256,
      "learning_rate": 3.91919191919192e-05,
      "loss": 0.3736,
      "mean_token_accuracy": 0.9732943773269653,
      "step": 112
    },
    {
      "epoch": 18.952380952380953,
      "grad_norm": 3.014618158340454,
      "learning_rate": 3.909090909090909e-05,
      "loss": 0.3676,
      "mean_token_accuracy": 0.9800769239664078,
      "step": 113
    },
    {
      "epoch": 19.0,
      "grad_norm": 4.232401371002197,
      "learning_rate": 3.898989898989899e-05,
      "loss": 0.1268,
      "mean_token_accuracy": 0.9577465057373047,
      "step": 114
    },
    {
      "epoch": 19.19047619047619,
      "grad_norm": 1.8361284732818604,
      "learning_rate": 3.888888888888889e-05,
      "loss": 0.2937,
      "mean_token_accuracy": 0.9818844795227051,
      "step": 115
    },
    {
      "epoch": 19.38095238095238,
      "grad_norm": 3.4175708293914795,
      "learning_rate": 3.878787878787879e-05,
      "loss": 0.2919,
      "mean_token_accuracy": 0.9831363707780838,
      "step": 116
    },
    {
      "epoch": 19.571428571428573,
      "grad_norm": 3.504340887069702,
      "learning_rate": 3.868686868686869e-05,
      "loss": 0.3739,
      "mean_token_accuracy": 0.9758433997631073,
      "step": 117
    },
    {
      "epoch": 19.761904761904763,
      "grad_norm": 3.542600154876709,
      "learning_rate": 3.858585858585859e-05,
      "loss": 0.3247,
      "mean_token_accuracy": 0.9753479957580566,
      "step": 118
    },
    {
      "epoch": 19.952380952380953,
      "grad_norm": 2.5886898040771484,
      "learning_rate": 3.848484848484848e-05,
      "loss": 0.3257,
      "mean_token_accuracy": 0.9774775803089142,
      "step": 119
    },
    {
      "epoch": 20.0,
      "grad_norm": 2.6909375190734863,
      "learning_rate": 3.838383838383838e-05,
      "loss": 0.0882,
      "mean_token_accuracy": 0.9682539701461792,
      "step": 120
    },
    {
      "epoch": 20.19047619047619,
      "grad_norm": 2.958399772644043,
      "learning_rate": 3.828282828282829e-05,
      "loss": 0.3205,
      "mean_token_accuracy": 0.9724349826574326,
      "step": 121
    },
    {
      "epoch": 20.38095238095238,
      "grad_norm": 2.2972922325134277,
      "learning_rate": 3.818181818181819e-05,
      "loss": 0.2829,
      "mean_token_accuracy": 0.9813934862613678,
      "step": 122
    },
    {
      "epoch": 20.571428571428573,
      "grad_norm": 2.2647204399108887,
      "learning_rate": 3.8080808080808087e-05,
      "loss": 0.3087,
      "mean_token_accuracy": 0.9758166968822479,
      "step": 123
    },
    {
      "epoch": 20.761904761904763,
      "grad_norm": 2.4949004650115967,
      "learning_rate": 3.797979797979798e-05,
      "loss": 0.3143,
      "mean_token_accuracy": 0.9777243584394455,
      "step": 124
    },
    {
      "epoch": 20.952380952380953,
      "grad_norm": 2.5387442111968994,
      "learning_rate": 3.787878787878788e-05,
      "loss": 0.326,
      "mean_token_accuracy": 0.9755249470472336,
      "step": 125
    },
    {
      "epoch": 21.0,
      "grad_norm": 2.745015859603882,
      "learning_rate": 3.777777777777778e-05,
      "loss": 0.0842,
      "mean_token_accuracy": 0.9714285731315613,
      "step": 126
    },
    {
      "epoch": 21.19047619047619,
      "grad_norm": 1.7736639976501465,
      "learning_rate": 3.767676767676768e-05,
      "loss": 0.2777,
      "mean_token_accuracy": 0.9804743677377701,
      "step": 127
    },
    {
      "epoch": 21.38095238095238,
      "grad_norm": 2.391968011856079,
      "learning_rate": 3.757575757575758e-05,
      "loss": 0.2969,
      "mean_token_accuracy": 0.9765493422746658,
      "step": 128
    },
    {
      "epoch": 21.571428571428573,
      "grad_norm": 1.9384799003601074,
      "learning_rate": 3.747474747474748e-05,
      "loss": 0.2764,
      "mean_token_accuracy": 0.978370875120163,
      "step": 129
    },
    {
      "epoch": 21.761904761904763,
      "grad_norm": 2.363274097442627,
      "learning_rate": 3.7373737373737376e-05,
      "loss": 0.3086,
      "mean_token_accuracy": 0.9715951085090637,
      "step": 130
    },
    {
      "epoch": 21.952380952380953,
      "grad_norm": 2.90826416015625,
      "learning_rate": 3.7272727272727276e-05,
      "loss": 0.3241,
      "mean_token_accuracy": 0.9738913327455521,
      "step": 131
    },
    {
      "epoch": 22.0,
      "grad_norm": 1.8676457405090332,
      "learning_rate": 3.7171717171717175e-05,
      "loss": 0.0867,
      "mean_token_accuracy": 0.9830508232116699,
      "step": 132
    },
    {
      "epoch": 22.19047619047619,
      "grad_norm": 2.1423661708831787,
      "learning_rate": 3.7070707070707075e-05,
      "loss": 0.2691,
      "mean_token_accuracy": 0.9791481345891953,
      "step": 133
    },
    {
      "epoch": 22.38095238095238,
      "grad_norm": 2.0479485988616943,
      "learning_rate": 3.6969696969696974e-05,
      "loss": 0.2898,
      "mean_token_accuracy": 0.9813213050365448,
      "step": 134
    },
    {
      "epoch": 22.571428571428573,
      "grad_norm": 2.566549777984619,
      "learning_rate": 3.686868686868687e-05,
      "loss": 0.3174,
      "mean_token_accuracy": 0.975700318813324,
      "step": 135
    },
    {
      "epoch": 22.761904761904763,
      "grad_norm": 2.541551351547241,
      "learning_rate": 3.6767676767676766e-05,
      "loss": 0.3205,
      "mean_token_accuracy": 0.978480726480484,
      "step": 136
    },
    {
      "epoch": 22.952380952380953,
      "grad_norm": 2.037262201309204,
      "learning_rate": 3.6666666666666666e-05,
      "loss": 0.2741,
      "mean_token_accuracy": 0.9802869260311127,
      "step": 137
    },
    {
      "epoch": 23.0,
      "grad_norm": 2.753689765930176,
      "learning_rate": 3.656565656565657e-05,
      "loss": 0.0844,
      "mean_token_accuracy": 0.9841269850730896,
      "step": 138
    },
    {
      "epoch": 23.19047619047619,
      "grad_norm": 1.9929062128067017,
      "learning_rate": 3.6464646464646465e-05,
      "loss": 0.2798,
      "mean_token_accuracy": 0.9800110459327698,
      "step": 139
    },
    {
      "epoch": 23.38095238095238,
      "grad_norm": 2.7327589988708496,
      "learning_rate": 3.6363636363636364e-05,
      "loss": 0.2671,
      "mean_token_accuracy": 0.9807360470294952,
      "step": 140
    },
    {
      "epoch": 23.571428571428573,
      "grad_norm": 1.7482175827026367,
      "learning_rate": 3.6262626262626264e-05,
      "loss": 0.2965,
      "mean_token_accuracy": 0.9796760976314545,
      "step": 141
    },
    {
      "epoch": 23.761904761904763,
      "grad_norm": 2.599804639816284,
      "learning_rate": 3.616161616161616e-05,
      "loss": 0.3154,
      "mean_token_accuracy": 0.977075606584549,
      "step": 142
    },
    {
      "epoch": 23.952380952380953,
      "grad_norm": 2.482060194015503,
      "learning_rate": 3.606060606060606e-05,
      "loss": 0.3009,
      "mean_token_accuracy": 0.9737012088298798,
      "step": 143
    },
    {
      "epoch": 24.0,
      "grad_norm": 3.389758825302124,
      "learning_rate": 3.595959595959596e-05,
      "loss": 0.1225,
      "mean_token_accuracy": 0.9636363387107849,
      "step": 144
    },
    {
      "epoch": 24.19047619047619,
      "grad_norm": 1.8538786172866821,
      "learning_rate": 3.5858585858585855e-05,
      "loss": 0.2625,
      "mean_token_accuracy": 0.9796436280012131,
      "step": 145
    },
    {
      "epoch": 24.38095238095238,
      "grad_norm": 1.6289573907852173,
      "learning_rate": 3.575757575757576e-05,
      "loss": 0.2616,
      "mean_token_accuracy": 0.9804391115903854,
      "step": 146
    },
    {
      "epoch": 24.571428571428573,
      "grad_norm": 2.4140396118164062,
      "learning_rate": 3.565656565656566e-05,
      "loss": 0.3128,
      "mean_token_accuracy": 0.979373887181282,
      "step": 147
    },
    {
      "epoch": 24.761904761904763,
      "grad_norm": 2.182692766189575,
      "learning_rate": 3.555555555555556e-05,
      "loss": 0.2983,
      "mean_token_accuracy": 0.9793859571218491,
      "step": 148
    },
    {
      "epoch": 24.952380952380953,
      "grad_norm": 2.800553560256958,
      "learning_rate": 3.545454545454546e-05,
      "loss": 0.3566,
      "mean_token_accuracy": 0.9733032137155533,
      "step": 149
    },
    {
      "epoch": 25.0,
      "grad_norm": 1.8961296081542969,
      "learning_rate": 3.535353535353535e-05,
      "loss": 0.0623,
      "mean_token_accuracy": 0.9797979593276978,
      "step": 150
    },
    {
      "epoch": 25.19047619047619,
      "grad_norm": 2.6031830310821533,
      "learning_rate": 3.525252525252525e-05,
      "loss": 0.307,
      "mean_token_accuracy": 0.9759431630373001,
      "step": 151
    },
    {
      "epoch": 25.38095238095238,
      "grad_norm": 1.7213940620422363,
      "learning_rate": 3.515151515151515e-05,
      "loss": 0.2605,
      "mean_token_accuracy": 0.9829924404621124,
      "step": 152
    },
    {
      "epoch": 25.571428571428573,
      "grad_norm": 2.169405221939087,
      "learning_rate": 3.505050505050505e-05,
      "loss": 0.2833,
      "mean_token_accuracy": 0.976715162396431,
      "step": 153
    },
    {
      "epoch": 25.761904761904763,
      "grad_norm": 2.126295566558838,
      "learning_rate": 3.494949494949495e-05,
      "loss": 0.2836,
      "mean_token_accuracy": 0.9775257259607315,
      "step": 154
    },
    {
      "epoch": 25.952380952380953,
      "grad_norm": 2.112752914428711,
      "learning_rate": 3.484848484848485e-05,
      "loss": 0.3001,
      "mean_token_accuracy": 0.9795974045991898,
      "step": 155
    },
    {
      "epoch": 26.0,
      "grad_norm": 2.9405832290649414,
      "learning_rate": 3.474747474747475e-05,
      "loss": 0.1069,
      "mean_token_accuracy": 0.9824561476707458,
      "step": 156
    },
    {
      "epoch": 26.19047619047619,
      "grad_norm": 1.8124560117721558,
      "learning_rate": 3.464646464646465e-05,
      "loss": 0.2694,
      "mean_token_accuracy": 0.982256755232811,
      "step": 157
    },
    {
      "epoch": 26.38095238095238,
      "grad_norm": 1.8597822189331055,
      "learning_rate": 3.454545454545455e-05,
      "loss": 0.2558,
      "mean_token_accuracy": 0.98062863945961,
      "step": 158
    },
    {
      "epoch": 26.571428571428573,
      "grad_norm": 1.6446207761764526,
      "learning_rate": 3.444444444444445e-05,
      "loss": 0.2587,
      "mean_token_accuracy": 0.9779441952705383,
      "step": 159
    },
    {
      "epoch": 26.761904761904763,
      "grad_norm": 2.2227869033813477,
      "learning_rate": 3.434343434343435e-05,
      "loss": 0.3241,
      "mean_token_accuracy": 0.9747696965932846,
      "step": 160
    },
    {
      "epoch": 26.952380952380953,
      "grad_norm": 1.6738312244415283,
      "learning_rate": 3.424242424242424e-05,
      "loss": 0.2779,
      "mean_token_accuracy": 0.9778714776039124,
      "step": 161
    },
    {
      "epoch": 27.0,
      "grad_norm": 1.4880234003067017,
      "learning_rate": 3.414141414141414e-05,
      "loss": 0.0801,
      "mean_token_accuracy": 0.9838709831237793,
      "step": 162
    },
    {
      "epoch": 27.19047619047619,
      "grad_norm": 1.5148252248764038,
      "learning_rate": 3.4040404040404045e-05,
      "loss": 0.2581,
      "mean_token_accuracy": 0.980286031961441,
      "step": 163
    },
    {
      "epoch": 27.38095238095238,
      "grad_norm": 1.833160400390625,
      "learning_rate": 3.3939393939393945e-05,
      "loss": 0.2724,
      "mean_token_accuracy": 0.9760157763957977,
      "step": 164
    },
    {
      "epoch": 27.571428571428573,
      "grad_norm": 2.1366348266601562,
      "learning_rate": 3.3838383838383844e-05,
      "loss": 0.2916,
      "mean_token_accuracy": 0.9787898063659668,
      "step": 165
    },
    {
      "epoch": 27.761904761904763,
      "grad_norm": 2.5082993507385254,
      "learning_rate": 3.373737373737374e-05,
      "loss": 0.2929,
      "mean_token_accuracy": 0.9774486720561981,
      "step": 166
    },
    {
      "epoch": 27.952380952380953,
      "grad_norm": 2.1355273723602295,
      "learning_rate": 3.3636363636363636e-05,
      "loss": 0.2856,
      "mean_token_accuracy": 0.9789445698261261,
      "step": 167
    },
    {
      "epoch": 28.0,
      "grad_norm": 1.970436930656433,
      "learning_rate": 3.3535353535353536e-05,
      "loss": 0.0806,
      "mean_token_accuracy": 0.9692307710647583,
      "step": 168
    },
    {
      "epoch": 28.19047619047619,
      "grad_norm": 2.1435768604278564,
      "learning_rate": 3.3434343434343435e-05,
      "loss": 0.2658,
      "mean_token_accuracy": 0.9759610444307327,
      "step": 169
    },
    {
      "epoch": 28.38095238095238,
      "grad_norm": 1.6564626693725586,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.2548,
      "mean_token_accuracy": 0.9793960750102997,
      "step": 170
    },
    {
      "epoch": 28.571428571428573,
      "grad_norm": 1.7106664180755615,
      "learning_rate": 3.3232323232323234e-05,
      "loss": 0.255,
      "mean_token_accuracy": 0.9787760227918625,
      "step": 171
    },
    {
      "epoch": 28.761904761904763,
      "grad_norm": 2.1820991039276123,
      "learning_rate": 3.3131313131313134e-05,
      "loss": 0.3227,
      "mean_token_accuracy": 0.973702073097229,
      "step": 172
    },
    {
      "epoch": 28.952380952380953,
      "grad_norm": 1.7227038145065308,
      "learning_rate": 3.303030303030303e-05,
      "loss": 0.2653,
      "mean_token_accuracy": 0.9788563847541809,
      "step": 173
    },
    {
      "epoch": 29.0,
      "grad_norm": 1.6985877752304077,
      "learning_rate": 3.292929292929293e-05,
      "loss": 0.0653,
      "mean_token_accuracy": 0.9756097793579102,
      "step": 174
    },
    {
      "epoch": 29.19047619047619,
      "grad_norm": 1.70681631565094,
      "learning_rate": 3.282828282828283e-05,
      "loss": 0.2621,
      "mean_token_accuracy": 0.9808604121208191,
      "step": 175
    },
    {
      "epoch": 29.38095238095238,
      "grad_norm": 1.5982296466827393,
      "learning_rate": 3.272727272727273e-05,
      "loss": 0.2444,
      "mean_token_accuracy": 0.9789219200611115,
      "step": 176
    },
    {
      "epoch": 29.571428571428573,
      "grad_norm": 1.4115501642227173,
      "learning_rate": 3.2626262626262624e-05,
      "loss": 0.2386,
      "mean_token_accuracy": 0.9839699417352676,
      "step": 177
    },
    {
      "epoch": 29.761904761904763,
      "grad_norm": 2.2143611907958984,
      "learning_rate": 3.2525252525252524e-05,
      "loss": 0.3214,
      "mean_token_accuracy": 0.9736231416463852,
      "step": 178
    },
    {
      "epoch": 29.952380952380953,
      "grad_norm": 2.329328775405884,
      "learning_rate": 3.2424242424242423e-05,
      "loss": 0.2899,
      "mean_token_accuracy": 0.974274680018425,
      "step": 179
    },
    {
      "epoch": 30.0,
      "grad_norm": 1.8894615173339844,
      "learning_rate": 3.232323232323233e-05,
      "loss": 0.0873,
      "mean_token_accuracy": 0.970588207244873,
      "step": 180
    },
    {
      "epoch": 30.19047619047619,
      "grad_norm": 1.8685792684555054,
      "learning_rate": 3.222222222222223e-05,
      "loss": 0.2713,
      "mean_token_accuracy": 0.9793071448802948,
      "step": 181
    },
    {
      "epoch": 30.38095238095238,
      "grad_norm": 1.6303725242614746,
      "learning_rate": 3.212121212121212e-05,
      "loss": 0.2602,
      "mean_token_accuracy": 0.978649765253067,
      "step": 182
    },
    {
      "epoch": 30.571428571428573,
      "grad_norm": 1.5414835214614868,
      "learning_rate": 3.202020202020202e-05,
      "loss": 0.2507,
      "mean_token_accuracy": 0.9816054552793503,
      "step": 183
    },
    {
      "epoch": 30.761904761904763,
      "grad_norm": 1.9461543560028076,
      "learning_rate": 3.191919191919192e-05,
      "loss": 0.2622,
      "mean_token_accuracy": 0.9799721091985703,
      "step": 184
    },
    {
      "epoch": 30.952380952380953,
      "grad_norm": 2.4515039920806885,
      "learning_rate": 3.181818181818182e-05,
      "loss": 0.316,
      "mean_token_accuracy": 0.9738900065422058,
      "step": 185
    },
    {
      "epoch": 31.0,
      "grad_norm": 2.3152859210968018,
      "learning_rate": 3.171717171717172e-05,
      "loss": 0.0924,
      "mean_token_accuracy": 0.9666666388511658,
      "step": 186
    },
    {
      "epoch": 31.19047619047619,
      "grad_norm": 1.5827226638793945,
      "learning_rate": 3.161616161616161e-05,
      "loss": 0.2548,
      "mean_token_accuracy": 0.9807614088058472,
      "step": 187
    },
    {
      "epoch": 31.38095238095238,
      "grad_norm": 1.5467098951339722,
      "learning_rate": 3.151515151515151e-05,
      "loss": 0.2567,
      "mean_token_accuracy": 0.9772002995014191,
      "step": 188
    },
    {
      "epoch": 31.571428571428573,
      "grad_norm": 1.5654078722000122,
      "learning_rate": 3.141414141414142e-05,
      "loss": 0.2523,
      "mean_token_accuracy": 0.9784552752971649,
      "step": 189
    },
    {
      "epoch": 31.761904761904763,
      "grad_norm": 1.6791102886199951,
      "learning_rate": 3.131313131313132e-05,
      "loss": 0.2749,
      "mean_token_accuracy": 0.9773024320602417,
      "step": 190
    },
    {
      "epoch": 31.952380952380953,
      "grad_norm": 1.864105224609375,
      "learning_rate": 3.121212121212122e-05,
      "loss": 0.2938,
      "mean_token_accuracy": 0.9765942692756653,
      "step": 191
    },
    {
      "epoch": 32.0,
      "grad_norm": 1.214571475982666,
      "learning_rate": 3.111111111111111e-05,
      "loss": 0.0665,
      "mean_token_accuracy": 0.987500011920929,
      "step": 192
    },
    {
      "epoch": 32.19047619047619,
      "grad_norm": 1.4030119180679321,
      "learning_rate": 3.101010101010101e-05,
      "loss": 0.2415,
      "mean_token_accuracy": 0.9817796945571899,
      "step": 193
    },
    {
      "epoch": 32.38095238095238,
      "grad_norm": 1.6708261966705322,
      "learning_rate": 3.090909090909091e-05,
      "loss": 0.2582,
      "mean_token_accuracy": 0.9801040887832642,
      "step": 194
    },
    {
      "epoch": 32.57142857142857,
      "grad_norm": 1.4296513795852661,
      "learning_rate": 3.080808080808081e-05,
      "loss": 0.2493,
      "mean_token_accuracy": 0.9811757057905197,
      "step": 195
    },
    {
      "epoch": 32.76190476190476,
      "grad_norm": 1.7713197469711304,
      "learning_rate": 3.070707070707071e-05,
      "loss": 0.2823,
      "mean_token_accuracy": 0.9782667905092239,
      "step": 196
    },
    {
      "epoch": 32.95238095238095,
      "grad_norm": 2.032137632369995,
      "learning_rate": 3.060606060606061e-05,
      "loss": 0.294,
      "mean_token_accuracy": 0.9734672009944916,
      "step": 197
    },
    {
      "epoch": 33.0,
      "grad_norm": 2.334019660949707,
      "learning_rate": 3.050505050505051e-05,
      "loss": 0.0861,
      "mean_token_accuracy": 0.9726027250289917,
      "step": 198
    },
    {
      "epoch": 33.19047619047619,
      "grad_norm": 1.4779608249664307,
      "learning_rate": 3.0404040404040406e-05,
      "loss": 0.2537,
      "mean_token_accuracy": 0.981317549943924,
      "step": 199
    },
    {
      "epoch": 33.38095238095238,
      "grad_norm": 1.435577392578125,
      "learning_rate": 3.0303030303030306e-05,
      "loss": 0.2544,
      "mean_token_accuracy": 0.9813797920942307,
      "step": 200
    },
    {
      "epoch": 33.57142857142857,
      "grad_norm": 1.8126311302185059,
      "learning_rate": 3.0202020202020205e-05,
      "loss": 0.2705,
      "mean_token_accuracy": 0.9765264093875885,
      "step": 201
    },
    {
      "epoch": 33.76190476190476,
      "grad_norm": 1.5598095655441284,
      "learning_rate": 3.01010101010101e-05,
      "loss": 0.2723,
      "mean_token_accuracy": 0.978124126791954,
      "step": 202
    },
    {
      "epoch": 33.95238095238095,
      "grad_norm": 1.8001117706298828,
      "learning_rate": 3e-05,
      "loss": 0.271,
      "mean_token_accuracy": 0.9785387814044952,
      "step": 203
    },
    {
      "epoch": 34.0,
      "grad_norm": 1.7313034534454346,
      "learning_rate": 2.98989898989899e-05,
      "loss": 0.0652,
      "mean_token_accuracy": 0.9746835231781006,
      "step": 204
    },
    {
      "epoch": 34.19047619047619,
      "grad_norm": 1.389072060585022,
      "learning_rate": 2.9797979797979796e-05,
      "loss": 0.242,
      "mean_token_accuracy": 0.9788109809160233,
      "step": 205
    },
    {
      "epoch": 34.38095238095238,
      "grad_norm": 1.434044599533081,
      "learning_rate": 2.96969696969697e-05,
      "loss": 0.2426,
      "mean_token_accuracy": 0.979528471827507,
      "step": 206
    },
    {
      "epoch": 34.57142857142857,
      "grad_norm": 1.9448174238204956,
      "learning_rate": 2.95959595959596e-05,
      "loss": 0.2695,
      "mean_token_accuracy": 0.9793160408735275,
      "step": 207
    },
    {
      "epoch": 34.76190476190476,
      "grad_norm": 1.85161554813385,
      "learning_rate": 2.9494949494949498e-05,
      "loss": 0.293,
      "mean_token_accuracy": 0.9727693498134613,
      "step": 208
    },
    {
      "epoch": 34.95238095238095,
      "grad_norm": 1.7662495374679565,
      "learning_rate": 2.9393939393939394e-05,
      "loss": 0.2817,
      "mean_token_accuracy": 0.9758803397417068,
      "step": 209
    },
    {
      "epoch": 35.0,
      "grad_norm": 1.3624759912490845,
      "learning_rate": 2.9292929292929294e-05,
      "loss": 0.0738,
      "mean_token_accuracy": 0.9848484992980957,
      "step": 210
    },
    {
      "epoch": 35.19047619047619,
      "grad_norm": 1.622554063796997,
      "learning_rate": 2.9191919191919193e-05,
      "loss": 0.2493,
      "mean_token_accuracy": 0.9789364635944366,
      "step": 211
    },
    {
      "epoch": 35.38095238095238,
      "grad_norm": 1.7415611743927002,
      "learning_rate": 2.909090909090909e-05,
      "loss": 0.2849,
      "mean_token_accuracy": 0.9779055863618851,
      "step": 212
    },
    {
      "epoch": 35.57142857142857,
      "grad_norm": 1.585845947265625,
      "learning_rate": 2.898989898989899e-05,
      "loss": 0.2497,
      "mean_token_accuracy": 0.9807179868221283,
      "step": 213
    },
    {
      "epoch": 35.76190476190476,
      "grad_norm": 1.5177557468414307,
      "learning_rate": 2.8888888888888888e-05,
      "loss": 0.264,
      "mean_token_accuracy": 0.9775202721357346,
      "step": 214
    },
    {
      "epoch": 35.95238095238095,
      "grad_norm": 1.8757683038711548,
      "learning_rate": 2.878787878787879e-05,
      "loss": 0.2589,
      "mean_token_accuracy": 0.9773915261030197,
      "step": 215
    },
    {
      "epoch": 36.0,
      "grad_norm": 2.2826578617095947,
      "learning_rate": 2.868686868686869e-05,
      "loss": 0.0933,
      "mean_token_accuracy": 0.9491525292396545,
      "step": 216
    },
    {
      "epoch": 36.19047619047619,
      "grad_norm": 1.3637081384658813,
      "learning_rate": 2.8585858585858587e-05,
      "loss": 0.245,
      "mean_token_accuracy": 0.9781962931156158,
      "step": 217
    },
    {
      "epoch": 36.38095238095238,
      "grad_norm": 1.4664133787155151,
      "learning_rate": 2.8484848484848486e-05,
      "loss": 0.2521,
      "mean_token_accuracy": 0.9817428290843964,
      "step": 218
    },
    {
      "epoch": 36.57142857142857,
      "grad_norm": 1.5265666246414185,
      "learning_rate": 2.8383838383838386e-05,
      "loss": 0.2615,
      "mean_token_accuracy": 0.9806021302938461,
      "step": 219
    },
    {
      "epoch": 36.76190476190476,
      "grad_norm": 1.4322954416275024,
      "learning_rate": 2.8282828282828282e-05,
      "loss": 0.2599,
      "mean_token_accuracy": 0.9800188541412354,
      "step": 220
    },
    {
      "epoch": 36.95238095238095,
      "grad_norm": 1.76764976978302,
      "learning_rate": 2.818181818181818e-05,
      "loss": 0.292,
      "mean_token_accuracy": 0.9746560305356979,
      "step": 221
    },
    {
      "epoch": 37.0,
      "grad_norm": 2.1554458141326904,
      "learning_rate": 2.808080808080808e-05,
      "loss": 0.0865,
      "mean_token_accuracy": 0.9682539701461792,
      "step": 222
    },
    {
      "epoch": 37.19047619047619,
      "grad_norm": 1.4079774618148804,
      "learning_rate": 2.7979797979797984e-05,
      "loss": 0.2359,
      "mean_token_accuracy": 0.9809356033802032,
      "step": 223
    },
    {
      "epoch": 37.38095238095238,
      "grad_norm": 1.8873682022094727,
      "learning_rate": 2.7878787878787883e-05,
      "loss": 0.2731,
      "mean_token_accuracy": 0.9777008444070816,
      "step": 224
    },
    {
      "epoch": 37.57142857142857,
      "grad_norm": 1.7195765972137451,
      "learning_rate": 2.777777777777778e-05,
      "loss": 0.2557,
      "mean_token_accuracy": 0.980317622423172,
      "step": 225
    },
    {
      "epoch": 37.76190476190476,
      "grad_norm": 1.5935289859771729,
      "learning_rate": 2.767676767676768e-05,
      "loss": 0.2663,
      "mean_token_accuracy": 0.9756544232368469,
      "step": 226
    },
    {
      "epoch": 37.95238095238095,
      "grad_norm": 1.626733660697937,
      "learning_rate": 2.7575757575757578e-05,
      "loss": 0.2668,
      "mean_token_accuracy": 0.9801195561885834,
      "step": 227
    },
    {
      "epoch": 38.0,
      "grad_norm": 2.378291368484497,
      "learning_rate": 2.7474747474747474e-05,
      "loss": 0.0872,
      "mean_token_accuracy": 0.9718309640884399,
      "step": 228
    },
    {
      "epoch": 38.19047619047619,
      "grad_norm": 1.4580754041671753,
      "learning_rate": 2.7373737373737374e-05,
      "loss": 0.243,
      "mean_token_accuracy": 0.9807321429252625,
      "step": 229
    },
    {
      "epoch": 38.38095238095238,
      "grad_norm": 1.3259878158569336,
      "learning_rate": 2.7272727272727273e-05,
      "loss": 0.2479,
      "mean_token_accuracy": 0.9801591485738754,
      "step": 230
    },
    {
      "epoch": 38.57142857142857,
      "grad_norm": 1.43174147605896,
      "learning_rate": 2.717171717171717e-05,
      "loss": 0.2477,
      "mean_token_accuracy": 0.9830300509929657,
      "step": 231
    },
    {
      "epoch": 38.76190476190476,
      "grad_norm": 1.6294718980789185,
      "learning_rate": 2.7070707070707075e-05,
      "loss": 0.2666,
      "mean_token_accuracy": 0.9755284339189529,
      "step": 232
    },
    {
      "epoch": 38.95238095238095,
      "grad_norm": 2.30196213722229,
      "learning_rate": 2.696969696969697e-05,
      "loss": 0.2929,
      "mean_token_accuracy": 0.9752500951290131,
      "step": 233
    },
    {
      "epoch": 39.0,
      "grad_norm": 1.96921968460083,
      "learning_rate": 2.686868686868687e-05,
      "loss": 0.0762,
      "mean_token_accuracy": 0.9722222089767456,
      "step": 234
    },
    {
      "epoch": 39.19047619047619,
      "grad_norm": 1.3506882190704346,
      "learning_rate": 2.676767676767677e-05,
      "loss": 0.2359,
      "mean_token_accuracy": 0.9817389249801636,
      "step": 235
    },
    {
      "epoch": 39.38095238095238,
      "grad_norm": 1.4548856019973755,
      "learning_rate": 2.6666666666666667e-05,
      "loss": 0.2456,
      "mean_token_accuracy": 0.9811435043811798,
      "step": 236
    },
    {
      "epoch": 39.57142857142857,
      "grad_norm": 1.5215767621994019,
      "learning_rate": 2.6565656565656566e-05,
      "loss": 0.2575,
      "mean_token_accuracy": 0.9797980934381485,
      "step": 237
    },
    {
      "epoch": 39.76190476190476,
      "grad_norm": 1.8254742622375488,
      "learning_rate": 2.6464646464646466e-05,
      "loss": 0.2889,
      "mean_token_accuracy": 0.9770003706216812,
      "step": 238
    },
    {
      "epoch": 39.95238095238095,
      "grad_norm": 1.818259596824646,
      "learning_rate": 2.636363636363636e-05,
      "loss": 0.2897,
      "mean_token_accuracy": 0.976064071059227,
      "step": 239
    },
    {
      "epoch": 40.0,
      "grad_norm": 1.3236188888549805,
      "learning_rate": 2.6262626262626268e-05,
      "loss": 0.0774,
      "mean_token_accuracy": 0.9838709831237793,
      "step": 240
    },
    {
      "epoch": 40.19047619047619,
      "grad_norm": 1.5586050748825073,
      "learning_rate": 2.6161616161616164e-05,
      "loss": 0.2731,
      "mean_token_accuracy": 0.9815535992383957,
      "step": 241
    },
    {
      "epoch": 40.38095238095238,
      "grad_norm": 1.5174766778945923,
      "learning_rate": 2.6060606060606063e-05,
      "loss": 0.2473,
      "mean_token_accuracy": 0.9786833673715591,
      "step": 242
    },
    {
      "epoch": 40.57142857142857,
      "grad_norm": 1.3981167078018188,
      "learning_rate": 2.5959595959595963e-05,
      "loss": 0.2531,
      "mean_token_accuracy": 0.9792415052652359,
      "step": 243
    },
    {
      "epoch": 40.76190476190476,
      "grad_norm": 1.5628103017807007,
      "learning_rate": 2.585858585858586e-05,
      "loss": 0.257,
      "mean_token_accuracy": 0.9798375219106674,
      "step": 244
    },
    {
      "epoch": 40.95238095238095,
      "grad_norm": 1.5515220165252686,
      "learning_rate": 2.575757575757576e-05,
      "loss": 0.2669,
      "mean_token_accuracy": 0.9787022620439529,
      "step": 245
    },
    {
      "epoch": 41.0,
      "grad_norm": 1.8415720462799072,
      "learning_rate": 2.5656565656565658e-05,
      "loss": 0.0799,
      "mean_token_accuracy": 0.9682539701461792,
      "step": 246
    },
    {
      "epoch": 41.19047619047619,
      "grad_norm": 1.423293113708496,
      "learning_rate": 2.5555555555555554e-05,
      "loss": 0.2393,
      "mean_token_accuracy": 0.9812082797288895,
      "step": 247
    },
    {
      "epoch": 41.38095238095238,
      "grad_norm": 1.394112467765808,
      "learning_rate": 2.5454545454545454e-05,
      "loss": 0.2521,
      "mean_token_accuracy": 0.9827133864164352,
      "step": 248
    },
    {
      "epoch": 41.57142857142857,
      "grad_norm": 1.6987677812576294,
      "learning_rate": 2.5353535353535356e-05,
      "loss": 0.2671,
      "mean_token_accuracy": 0.9742349684238434,
      "step": 249
    },
    {
      "epoch": 41.76190476190476,
      "grad_norm": 1.6028631925582886,
      "learning_rate": 2.5252525252525256e-05,
      "loss": 0.2602,
      "mean_token_accuracy": 0.9791279435157776,
      "step": 250
    },
    {
      "epoch": 41.95238095238095,
      "grad_norm": 1.8165968656539917,
      "learning_rate": 2.5151515151515155e-05,
      "loss": 0.2826,
      "mean_token_accuracy": 0.9778096079826355,
      "step": 251
    },
    {
      "epoch": 42.0,
      "grad_norm": 0.9838045835494995,
      "learning_rate": 2.505050505050505e-05,
      "loss": 0.0517,
      "mean_token_accuracy": 0.9902912378311157,
      "step": 252
    },
    {
      "epoch": 42.19047619047619,
      "grad_norm": 1.3776968717575073,
      "learning_rate": 2.494949494949495e-05,
      "loss": 0.2612,
      "mean_token_accuracy": 0.9751808941364288,
      "step": 253
    },
    {
      "epoch": 42.38095238095238,
      "grad_norm": 1.5808742046356201,
      "learning_rate": 2.4848484848484847e-05,
      "loss": 0.2466,
      "mean_token_accuracy": 0.9846099317073822,
      "step": 254
    },
    {
      "epoch": 42.57142857142857,
      "grad_norm": 1.2304980754852295,
      "learning_rate": 2.474747474747475e-05,
      "loss": 0.2344,
      "mean_token_accuracy": 0.9795664101839066,
      "step": 255
    },
    {
      "epoch": 42.76190476190476,
      "grad_norm": 1.6060268878936768,
      "learning_rate": 2.464646464646465e-05,
      "loss": 0.2817,
      "mean_token_accuracy": 0.9776766449213028,
      "step": 256
    },
    {
      "epoch": 42.95238095238095,
      "grad_norm": 1.6796001195907593,
      "learning_rate": 2.4545454545454545e-05,
      "loss": 0.2489,
      "mean_token_accuracy": 0.9769842028617859,
      "step": 257
    },
    {
      "epoch": 43.0,
      "grad_norm": 1.4542969465255737,
      "learning_rate": 2.4444444444444445e-05,
      "loss": 0.0595,
      "mean_token_accuracy": 0.9753086566925049,
      "step": 258
    },
    {
      "epoch": 43.19047619047619,
      "grad_norm": 1.4857451915740967,
      "learning_rate": 2.4343434343434344e-05,
      "loss": 0.2527,
      "mean_token_accuracy": 0.97712042927742,
      "step": 259
    },
    {
      "epoch": 43.38095238095238,
      "grad_norm": 1.306619644165039,
      "learning_rate": 2.4242424242424244e-05,
      "loss": 0.2363,
      "mean_token_accuracy": 0.980791300535202,
      "step": 260
    },
    {
      "epoch": 43.57142857142857,
      "grad_norm": 1.6846957206726074,
      "learning_rate": 2.4141414141414143e-05,
      "loss": 0.259,
      "mean_token_accuracy": 0.9791981130838394,
      "step": 261
    },
    {
      "epoch": 43.76190476190476,
      "grad_norm": 1.4038276672363281,
      "learning_rate": 2.404040404040404e-05,
      "loss": 0.251,
      "mean_token_accuracy": 0.9791757315397263,
      "step": 262
    },
    {
      "epoch": 43.95238095238095,
      "grad_norm": 1.5158367156982422,
      "learning_rate": 2.393939393939394e-05,
      "loss": 0.2702,
      "mean_token_accuracy": 0.9788329601287842,
      "step": 263
    },
    {
      "epoch": 44.0,
      "grad_norm": 1.7850970029830933,
      "learning_rate": 2.3838383838383842e-05,
      "loss": 0.0728,
      "mean_token_accuracy": 0.9759036302566528,
      "step": 264
    },
    {
      "epoch": 44.19047619047619,
      "grad_norm": 1.1887112855911255,
      "learning_rate": 2.3737373737373738e-05,
      "loss": 0.2319,
      "mean_token_accuracy": 0.9812621474266052,
      "step": 265
    },
    {
      "epoch": 44.38095238095238,
      "grad_norm": 1.4217466115951538,
      "learning_rate": 2.3636363636363637e-05,
      "loss": 0.238,
      "mean_token_accuracy": 0.9808095693588257,
      "step": 266
    },
    {
      "epoch": 44.57142857142857,
      "grad_norm": 1.7025716304779053,
      "learning_rate": 2.3535353535353537e-05,
      "loss": 0.2537,
      "mean_token_accuracy": 0.9779138118028641,
      "step": 267
    },
    {
      "epoch": 44.76190476190476,
      "grad_norm": 1.7018096446990967,
      "learning_rate": 2.3434343434343436e-05,
      "loss": 0.274,
      "mean_token_accuracy": 0.9743378162384033,
      "step": 268
    },
    {
      "epoch": 44.95238095238095,
      "grad_norm": 1.7380796670913696,
      "learning_rate": 2.3333333333333336e-05,
      "loss": 0.2768,
      "mean_token_accuracy": 0.9779854416847229,
      "step": 269
    },
    {
      "epoch": 45.0,
      "grad_norm": 1.0162783861160278,
      "learning_rate": 2.3232323232323232e-05,
      "loss": 0.051,
      "mean_token_accuracy": 0.9898989796638489,
      "step": 270
    },
    {
      "epoch": 45.19047619047619,
      "grad_norm": 1.322588562965393,
      "learning_rate": 2.313131313131313e-05,
      "loss": 0.2384,
      "mean_token_accuracy": 0.9804540276527405,
      "step": 271
    },
    {
      "epoch": 45.38095238095238,
      "grad_norm": 1.294411301612854,
      "learning_rate": 2.3030303030303034e-05,
      "loss": 0.2342,
      "mean_token_accuracy": 0.9810962080955505,
      "step": 272
    },
    {
      "epoch": 45.57142857142857,
      "grad_norm": 1.4505170583724976,
      "learning_rate": 2.292929292929293e-05,
      "loss": 0.2572,
      "mean_token_accuracy": 0.9756149500608444,
      "step": 273
    },
    {
      "epoch": 45.76190476190476,
      "grad_norm": 1.6599575281143188,
      "learning_rate": 2.282828282828283e-05,
      "loss": 0.2678,
      "mean_token_accuracy": 0.9741277694702148,
      "step": 274
    },
    {
      "epoch": 45.95238095238095,
      "grad_norm": 1.4780550003051758,
      "learning_rate": 2.272727272727273e-05,
      "loss": 0.2647,
      "mean_token_accuracy": 0.9768411070108414,
      "step": 275
    },
    {
      "epoch": 46.0,
      "grad_norm": 1.1366266012191772,
      "learning_rate": 2.262626262626263e-05,
      "loss": 0.0557,
      "mean_token_accuracy": 0.9878048896789551,
      "step": 276
    },
    {
      "epoch": 46.19047619047619,
      "grad_norm": 1.3346896171569824,
      "learning_rate": 2.2525252525252528e-05,
      "loss": 0.2325,
      "mean_token_accuracy": 0.979757234454155,
      "step": 277
    },
    {
      "epoch": 46.38095238095238,
      "grad_norm": 1.4182461500167847,
      "learning_rate": 2.2424242424242424e-05,
      "loss": 0.2331,
      "mean_token_accuracy": 0.9792613536119461,
      "step": 278
    },
    {
      "epoch": 46.57142857142857,
      "grad_norm": 1.5474402904510498,
      "learning_rate": 2.2323232323232324e-05,
      "loss": 0.2641,
      "mean_token_accuracy": 0.9776208251714706,
      "step": 279
    },
    {
      "epoch": 46.76190476190476,
      "grad_norm": 1.8437175750732422,
      "learning_rate": 2.2222222222222223e-05,
      "loss": 0.2841,
      "mean_token_accuracy": 0.9759227335453033,
      "step": 280
    },
    {
      "epoch": 46.95238095238095,
      "grad_norm": 1.8677905797958374,
      "learning_rate": 2.2121212121212123e-05,
      "loss": 0.2611,
      "mean_token_accuracy": 0.9794552326202393,
      "step": 281
    },
    {
      "epoch": 47.0,
      "grad_norm": 1.7438082695007324,
      "learning_rate": 2.2020202020202022e-05,
      "loss": 0.0768,
      "mean_token_accuracy": 0.9701492786407471,
      "step": 282
    },
    {
      "epoch": 47.19047619047619,
      "grad_norm": 1.38357675075531,
      "learning_rate": 2.191919191919192e-05,
      "loss": 0.2514,
      "mean_token_accuracy": 0.9804678857326508,
      "step": 283
    },
    {
      "epoch": 47.38095238095238,
      "grad_norm": 1.3532003164291382,
      "learning_rate": 2.1818181818181818e-05,
      "loss": 0.233,
      "mean_token_accuracy": 0.9824511855840683,
      "step": 284
    },
    {
      "epoch": 47.57142857142857,
      "grad_norm": 1.6904886960983276,
      "learning_rate": 2.171717171717172e-05,
      "loss": 0.249,
      "mean_token_accuracy": 0.9747414886951447,
      "step": 285
    },
    {
      "epoch": 47.76190476190476,
      "grad_norm": 1.4693493843078613,
      "learning_rate": 2.1616161616161617e-05,
      "loss": 0.2637,
      "mean_token_accuracy": 0.9777188897132874,
      "step": 286
    },
    {
      "epoch": 47.95238095238095,
      "grad_norm": 1.4712016582489014,
      "learning_rate": 2.1515151515151516e-05,
      "loss": 0.2641,
      "mean_token_accuracy": 0.9823849946260452,
      "step": 287
    },
    {
      "epoch": 48.0,
      "grad_norm": 2.5622308254241943,
      "learning_rate": 2.1414141414141416e-05,
      "loss": 0.0963,
      "mean_token_accuracy": 0.9473684430122375,
      "step": 288
    },
    {
      "epoch": 48.19047619047619,
      "grad_norm": 1.4440287351608276,
      "learning_rate": 2.1313131313131315e-05,
      "loss": 0.2439,
      "mean_token_accuracy": 0.9802645593881607,
      "step": 289
    },
    {
      "epoch": 48.38095238095238,
      "grad_norm": 1.373253583908081,
      "learning_rate": 2.1212121212121215e-05,
      "loss": 0.2437,
      "mean_token_accuracy": 0.9763128757476807,
      "step": 290
    },
    {
      "epoch": 48.57142857142857,
      "grad_norm": 1.6184741258621216,
      "learning_rate": 2.111111111111111e-05,
      "loss": 0.2654,
      "mean_token_accuracy": 0.9782317876815796,
      "step": 291
    },
    {
      "epoch": 48.76190476190476,
      "grad_norm": 1.3039287328720093,
      "learning_rate": 2.101010101010101e-05,
      "loss": 0.2395,
      "mean_token_accuracy": 0.9821481555700302,
      "step": 292
    },
    {
      "epoch": 48.95238095238095,
      "grad_norm": 1.394302487373352,
      "learning_rate": 2.090909090909091e-05,
      "loss": 0.2645,
      "mean_token_accuracy": 0.9776430726051331,
      "step": 293
    },
    {
      "epoch": 49.0,
      "grad_norm": 1.0925865173339844,
      "learning_rate": 2.080808080808081e-05,
      "loss": 0.0562,
      "mean_token_accuracy": 0.9878048896789551,
      "step": 294
    },
    {
      "epoch": 49.19047619047619,
      "grad_norm": 1.3069161176681519,
      "learning_rate": 2.070707070707071e-05,
      "loss": 0.2455,
      "mean_token_accuracy": 0.97951839864254,
      "step": 295
    },
    {
      "epoch": 49.38095238095238,
      "grad_norm": 1.3214561939239502,
      "learning_rate": 2.0606060606060608e-05,
      "loss": 0.2381,
      "mean_token_accuracy": 0.9809810966253281,
      "step": 296
    },
    {
      "epoch": 49.57142857142857,
      "grad_norm": 1.3639582395553589,
      "learning_rate": 2.0505050505050504e-05,
      "loss": 0.2535,
      "mean_token_accuracy": 0.9802620708942413,
      "step": 297
    },
    {
      "epoch": 49.76190476190476,
      "grad_norm": 1.4789013862609863,
      "learning_rate": 2.0404040404040407e-05,
      "loss": 0.2622,
      "mean_token_accuracy": 0.9760318547487259,
      "step": 298
    },
    {
      "epoch": 49.95238095238095,
      "grad_norm": 1.5978738069534302,
      "learning_rate": 2.0303030303030303e-05,
      "loss": 0.2756,
      "mean_token_accuracy": 0.9767571240663528,
      "step": 299
    },
    {
      "epoch": 50.0,
      "grad_norm": 0.994212806224823,
      "learning_rate": 2.0202020202020203e-05,
      "loss": 0.0477,
      "mean_token_accuracy": 0.9837398529052734,
      "step": 300
    },
    {
      "epoch": 50.19047619047619,
      "grad_norm": 1.257419228553772,
      "learning_rate": 2.0101010101010102e-05,
      "loss": 0.2437,
      "mean_token_accuracy": 0.9815521091222763,
      "step": 301
    },
    {
      "epoch": 50.38095238095238,
      "grad_norm": 1.2623318433761597,
      "learning_rate": 2e-05,
      "loss": 0.2467,
      "mean_token_accuracy": 0.9801167845726013,
      "step": 302
    },
    {
      "epoch": 50.57142857142857,
      "grad_norm": 1.3023744821548462,
      "learning_rate": 1.98989898989899e-05,
      "loss": 0.2498,
      "mean_token_accuracy": 0.9767654687166214,
      "step": 303
    },
    {
      "epoch": 50.76190476190476,
      "grad_norm": 1.4939366579055786,
      "learning_rate": 1.9797979797979797e-05,
      "loss": 0.276,
      "mean_token_accuracy": 0.9766338616609573,
      "step": 304
    },
    {
      "epoch": 50.95238095238095,
      "grad_norm": 1.2986633777618408,
      "learning_rate": 1.9696969696969697e-05,
      "loss": 0.2431,
      "mean_token_accuracy": 0.9812084436416626,
      "step": 305
    },
    {
      "epoch": 51.0,
      "grad_norm": 2.027116298675537,
      "learning_rate": 1.95959595959596e-05,
      "loss": 0.0666,
      "mean_token_accuracy": 0.9629629850387573,
      "step": 306
    },
    {
      "epoch": 51.19047619047619,
      "grad_norm": 1.4073251485824585,
      "learning_rate": 1.9494949494949496e-05,
      "loss": 0.2457,
      "mean_token_accuracy": 0.9779722541570663,
      "step": 307
    },
    {
      "epoch": 51.38095238095238,
      "grad_norm": 1.383111834526062,
      "learning_rate": 1.9393939393939395e-05,
      "loss": 0.2377,
      "mean_token_accuracy": 0.9842050075531006,
      "step": 308
    },
    {
      "epoch": 51.57142857142857,
      "grad_norm": 1.4835509061813354,
      "learning_rate": 1.9292929292929295e-05,
      "loss": 0.2503,
      "mean_token_accuracy": 0.9771096408367157,
      "step": 309
    },
    {
      "epoch": 51.76190476190476,
      "grad_norm": 1.756462812423706,
      "learning_rate": 1.919191919191919e-05,
      "loss": 0.2544,
      "mean_token_accuracy": 0.9787980318069458,
      "step": 310
    },
    {
      "epoch": 51.95238095238095,
      "grad_norm": 1.5173331499099731,
      "learning_rate": 1.9090909090909094e-05,
      "loss": 0.2593,
      "mean_token_accuracy": 0.9801317751407623,
      "step": 311
    },
    {
      "epoch": 52.0,
      "grad_norm": 2.2640252113342285,
      "learning_rate": 1.898989898989899e-05,
      "loss": 0.087,
      "mean_token_accuracy": 0.9558823704719543,
      "step": 312
    },
    {
      "epoch": 52.19047619047619,
      "grad_norm": 1.4061003923416138,
      "learning_rate": 1.888888888888889e-05,
      "loss": 0.2364,
      "mean_token_accuracy": 0.9783814698457718,
      "step": 313
    },
    {
      "epoch": 52.38095238095238,
      "grad_norm": 1.2146430015563965,
      "learning_rate": 1.878787878787879e-05,
      "loss": 0.2265,
      "mean_token_accuracy": 0.9835509955883026,
      "step": 314
    },
    {
      "epoch": 52.57142857142857,
      "grad_norm": 1.5701649188995361,
      "learning_rate": 1.8686868686868688e-05,
      "loss": 0.2637,
      "mean_token_accuracy": 0.9780102521181107,
      "step": 315
    },
    {
      "epoch": 52.76190476190476,
      "grad_norm": 1.5340619087219238,
      "learning_rate": 1.8585858585858588e-05,
      "loss": 0.2627,
      "mean_token_accuracy": 0.9796072393655777,
      "step": 316
    },
    {
      "epoch": 52.95238095238095,
      "grad_norm": 1.6451423168182373,
      "learning_rate": 1.8484848484848487e-05,
      "loss": 0.2599,
      "mean_token_accuracy": 0.9780296385288239,
      "step": 317
    },
    {
      "epoch": 53.0,
      "grad_norm": 1.1250572204589844,
      "learning_rate": 1.8383838383838383e-05,
      "loss": 0.0599,
      "mean_token_accuracy": 0.987500011920929,
      "step": 318
    },
    {
      "epoch": 53.19047619047619,
      "grad_norm": 1.382422924041748,
      "learning_rate": 1.8282828282828286e-05,
      "loss": 0.2615,
      "mean_token_accuracy": 0.9795158058404922,
      "step": 319
    },
    {
      "epoch": 53.38095238095238,
      "grad_norm": 1.434237003326416,
      "learning_rate": 1.8181818181818182e-05,
      "loss": 0.2226,
      "mean_token_accuracy": 0.9817993342876434,
      "step": 320
    },
    {
      "epoch": 53.57142857142857,
      "grad_norm": 1.3543226718902588,
      "learning_rate": 1.808080808080808e-05,
      "loss": 0.2455,
      "mean_token_accuracy": 0.9820217341184616,
      "step": 321
    },
    {
      "epoch": 53.76190476190476,
      "grad_norm": 1.5558395385742188,
      "learning_rate": 1.797979797979798e-05,
      "loss": 0.2473,
      "mean_token_accuracy": 0.9786651730537415,
      "step": 322
    },
    {
      "epoch": 53.95238095238095,
      "grad_norm": 1.998782992362976,
      "learning_rate": 1.787878787878788e-05,
      "loss": 0.2808,
      "mean_token_accuracy": 0.9743632227182388,
      "step": 323
    },
    {
      "epoch": 54.0,
      "grad_norm": 1.8470655679702759,
      "learning_rate": 1.777777777777778e-05,
      "loss": 0.0674,
      "mean_token_accuracy": 0.978723406791687,
      "step": 324
    },
    {
      "epoch": 54.19047619047619,
      "grad_norm": 1.557365894317627,
      "learning_rate": 1.7676767676767676e-05,
      "loss": 0.2485,
      "mean_token_accuracy": 0.9763985723257065,
      "step": 325
    },
    {
      "epoch": 54.38095238095238,
      "grad_norm": 1.2708889245986938,
      "learning_rate": 1.7575757575757576e-05,
      "loss": 0.2396,
      "mean_token_accuracy": 0.9807141125202179,
      "step": 326
    },
    {
      "epoch": 54.57142857142857,
      "grad_norm": 1.574637770652771,
      "learning_rate": 1.7474747474747475e-05,
      "loss": 0.2552,
      "mean_token_accuracy": 0.9784888029098511,
      "step": 327
    },
    {
      "epoch": 54.76190476190476,
      "grad_norm": 1.5815781354904175,
      "learning_rate": 1.7373737373737375e-05,
      "loss": 0.2516,
      "mean_token_accuracy": 0.9797972589731216,
      "step": 328
    },
    {
      "epoch": 54.95238095238095,
      "grad_norm": 1.4875643253326416,
      "learning_rate": 1.7272727272727274e-05,
      "loss": 0.253,
      "mean_token_accuracy": 0.9805921763181686,
      "step": 329
    },
    {
      "epoch": 55.0,
      "grad_norm": 1.404120922088623,
      "learning_rate": 1.7171717171717173e-05,
      "loss": 0.0607,
      "mean_token_accuracy": 0.9756097793579102,
      "step": 330
    },
    {
      "epoch": 55.19047619047619,
      "grad_norm": 1.1672003269195557,
      "learning_rate": 1.707070707070707e-05,
      "loss": 0.226,
      "mean_token_accuracy": 0.9818458557128906,
      "step": 331
    },
    {
      "epoch": 55.38095238095238,
      "grad_norm": 1.3702583312988281,
      "learning_rate": 1.6969696969696972e-05,
      "loss": 0.2285,
      "mean_token_accuracy": 0.9818858057260513,
      "step": 332
    },
    {
      "epoch": 55.57142857142857,
      "grad_norm": 1.567103624343872,
      "learning_rate": 1.686868686868687e-05,
      "loss": 0.2592,
      "mean_token_accuracy": 0.9774815589189529,
      "step": 333
    },
    {
      "epoch": 55.76190476190476,
      "grad_norm": 1.5476545095443726,
      "learning_rate": 1.6767676767676768e-05,
      "loss": 0.2693,
      "mean_token_accuracy": 0.9761824756860733,
      "step": 334
    },
    {
      "epoch": 55.95238095238095,
      "grad_norm": 1.7951135635375977,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.2627,
      "mean_token_accuracy": 0.9772898554801941,
      "step": 335
    },
    {
      "epoch": 56.0,
      "grad_norm": 1.5311144590377808,
      "learning_rate": 1.6565656565656567e-05,
      "loss": 0.0607,
      "mean_token_accuracy": 0.9750000238418579,
      "step": 336
    },
    {
      "epoch": 56.19047619047619,
      "grad_norm": 1.4896326065063477,
      "learning_rate": 1.6464646464646466e-05,
      "loss": 0.2483,
      "mean_token_accuracy": 0.9790806472301483,
      "step": 337
    },
    {
      "epoch": 56.38095238095238,
      "grad_norm": 1.385233998298645,
      "learning_rate": 1.6363636363636366e-05,
      "loss": 0.2471,
      "mean_token_accuracy": 0.9801070243120193,
      "step": 338
    },
    {
      "epoch": 56.57142857142857,
      "grad_norm": 1.5755606889724731,
      "learning_rate": 1.6262626262626262e-05,
      "loss": 0.2462,
      "mean_token_accuracy": 0.9776095598936081,
      "step": 339
    },
    {
      "epoch": 56.76190476190476,
      "grad_norm": 1.4080952405929565,
      "learning_rate": 1.6161616161616165e-05,
      "loss": 0.2559,
      "mean_token_accuracy": 0.9763025045394897,
      "step": 340
    },
    {
      "epoch": 56.95238095238095,
      "grad_norm": 1.2759824991226196,
      "learning_rate": 1.606060606060606e-05,
      "loss": 0.2429,
      "mean_token_accuracy": 0.9811924993991852,
      "step": 341
    },
    {
      "epoch": 57.0,
      "grad_norm": 1.4365907907485962,
      "learning_rate": 1.595959595959596e-05,
      "loss": 0.0744,
      "mean_token_accuracy": 0.9836065769195557,
      "step": 342
    },
    {
      "epoch": 57.19047619047619,
      "grad_norm": 1.4234627485275269,
      "learning_rate": 1.585858585858586e-05,
      "loss": 0.2353,
      "mean_token_accuracy": 0.9792965203523636,
      "step": 343
    },
    {
      "epoch": 57.38095238095238,
      "grad_norm": 1.3555465936660767,
      "learning_rate": 1.5757575757575756e-05,
      "loss": 0.2494,
      "mean_token_accuracy": 0.9825381934642792,
      "step": 344
    },
    {
      "epoch": 57.57142857142857,
      "grad_norm": 1.4413907527923584,
      "learning_rate": 1.565656565656566e-05,
      "loss": 0.2534,
      "mean_token_accuracy": 0.979871854186058,
      "step": 345
    },
    {
      "epoch": 57.76190476190476,
      "grad_norm": 1.4927953481674194,
      "learning_rate": 1.5555555555555555e-05,
      "loss": 0.2305,
      "mean_token_accuracy": 0.9812074899673462,
      "step": 346
    },
    {
      "epoch": 57.95238095238095,
      "grad_norm": 1.7719610929489136,
      "learning_rate": 1.5454545454545454e-05,
      "loss": 0.2633,
      "mean_token_accuracy": 0.9754152894020081,
      "step": 347
    },
    {
      "epoch": 58.0,
      "grad_norm": 0.9548564553260803,
      "learning_rate": 1.5353535353535354e-05,
      "loss": 0.0521,
      "mean_token_accuracy": 0.9885057210922241,
      "step": 348
    },
    {
      "epoch": 58.19047619047619,
      "grad_norm": 1.4914696216583252,
      "learning_rate": 1.5252525252525255e-05,
      "loss": 0.2591,
      "mean_token_accuracy": 0.9796448796987534,
      "step": 349
    },
    {
      "epoch": 58.38095238095238,
      "grad_norm": 1.4677958488464355,
      "learning_rate": 1.5151515151515153e-05,
      "loss": 0.2468,
      "mean_token_accuracy": 0.9798107296228409,
      "step": 350
    },
    {
      "epoch": 58.57142857142857,
      "grad_norm": 1.3141554594039917,
      "learning_rate": 1.505050505050505e-05,
      "loss": 0.2325,
      "mean_token_accuracy": 0.9803733974695206,
      "step": 351
    },
    {
      "epoch": 58.76190476190476,
      "grad_norm": 1.3697947263717651,
      "learning_rate": 1.494949494949495e-05,
      "loss": 0.2598,
      "mean_token_accuracy": 0.9749108999967575,
      "step": 352
    },
    {
      "epoch": 58.95238095238095,
      "grad_norm": 1.252795696258545,
      "learning_rate": 1.484848484848485e-05,
      "loss": 0.2361,
      "mean_token_accuracy": 0.9824285060167313,
      "step": 353
    },
    {
      "epoch": 59.0,
      "grad_norm": 1.830544114112854,
      "learning_rate": 1.4747474747474749e-05,
      "loss": 0.0772,
      "mean_token_accuracy": 0.9682539701461792,
      "step": 354
    },
    {
      "epoch": 59.19047619047619,
      "grad_norm": 1.266861081123352,
      "learning_rate": 1.4646464646464647e-05,
      "loss": 0.236,
      "mean_token_accuracy": 0.9807495921850204,
      "step": 355
    },
    {
      "epoch": 59.38095238095238,
      "grad_norm": 1.5132209062576294,
      "learning_rate": 1.4545454545454545e-05,
      "loss": 0.2498,
      "mean_token_accuracy": 0.9786520302295685,
      "step": 356
    },
    {
      "epoch": 59.57142857142857,
      "grad_norm": 1.259032964706421,
      "learning_rate": 1.4444444444444444e-05,
      "loss": 0.2223,
      "mean_token_accuracy": 0.9812145084142685,
      "step": 357
    },
    {
      "epoch": 59.76190476190476,
      "grad_norm": 1.5718448162078857,
      "learning_rate": 1.4343434343434345e-05,
      "loss": 0.2627,
      "mean_token_accuracy": 0.9778482913970947,
      "step": 358
    },
    {
      "epoch": 59.95238095238095,
      "grad_norm": 1.4775868654251099,
      "learning_rate": 1.4242424242424243e-05,
      "loss": 0.2587,
      "mean_token_accuracy": 0.9746824651956558,
      "step": 359
    },
    {
      "epoch": 60.0,
      "grad_norm": 1.638393521308899,
      "learning_rate": 1.4141414141414141e-05,
      "loss": 0.0824,
      "mean_token_accuracy": 0.9824561476707458,
      "step": 360
    },
    {
      "epoch": 60.19047619047619,
      "grad_norm": 1.3080830574035645,
      "learning_rate": 1.404040404040404e-05,
      "loss": 0.2382,
      "mean_token_accuracy": 0.9818608462810516,
      "step": 361
    },
    {
      "epoch": 60.38095238095238,
      "grad_norm": 1.1936572790145874,
      "learning_rate": 1.3939393939393942e-05,
      "loss": 0.2333,
      "mean_token_accuracy": 0.9817762225866318,
      "step": 362
    },
    {
      "epoch": 60.57142857142857,
      "grad_norm": 1.5468491315841675,
      "learning_rate": 1.383838383838384e-05,
      "loss": 0.2653,
      "mean_token_accuracy": 0.9788466989994049,
      "step": 363
    },
    {
      "epoch": 60.76190476190476,
      "grad_norm": 1.3440382480621338,
      "learning_rate": 1.3737373737373737e-05,
      "loss": 0.2495,
      "mean_token_accuracy": 0.9803344905376434,
      "step": 364
    },
    {
      "epoch": 60.95238095238095,
      "grad_norm": 1.5807853937149048,
      "learning_rate": 1.3636363636363637e-05,
      "loss": 0.2399,
      "mean_token_accuracy": 0.977335661649704,
      "step": 365
    },
    {
      "epoch": 61.0,
      "grad_norm": 1.8642648458480835,
      "learning_rate": 1.3535353535353538e-05,
      "loss": 0.0675,
      "mean_token_accuracy": 0.9610389471054077,
      "step": 366
    },
    {
      "epoch": 61.19047619047619,
      "grad_norm": 1.4595698118209839,
      "learning_rate": 1.3434343434343436e-05,
      "loss": 0.2433,
      "mean_token_accuracy": 0.9782412499189377,
      "step": 367
    },
    {
      "epoch": 61.38095238095238,
      "grad_norm": 1.7195943593978882,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 0.2283,
      "mean_token_accuracy": 0.98487289249897,
      "step": 368
    },
    {
      "epoch": 61.57142857142857,
      "grad_norm": 1.6731146574020386,
      "learning_rate": 1.3232323232323233e-05,
      "loss": 0.2481,
      "mean_token_accuracy": 0.9755380898714066,
      "step": 369
    },
    {
      "epoch": 61.76190476190476,
      "grad_norm": 1.3162552118301392,
      "learning_rate": 1.3131313131313134e-05,
      "loss": 0.2682,
      "mean_token_accuracy": 0.9773096293210983,
      "step": 370
    },
    {
      "epoch": 61.95238095238095,
      "grad_norm": 1.5763328075408936,
      "learning_rate": 1.3030303030303032e-05,
      "loss": 0.247,
      "mean_token_accuracy": 0.9791599065065384,
      "step": 371
    },
    {
      "epoch": 62.0,
      "grad_norm": 1.8567732572555542,
      "learning_rate": 1.292929292929293e-05,
      "loss": 0.0676,
      "mean_token_accuracy": 0.970588207244873,
      "step": 372
    },
    {
      "epoch": 62.19047619047619,
      "grad_norm": 1.322481393814087,
      "learning_rate": 1.2828282828282829e-05,
      "loss": 0.2385,
      "mean_token_accuracy": 0.979724794626236,
      "step": 373
    },
    {
      "epoch": 62.38095238095238,
      "grad_norm": 1.4246753454208374,
      "learning_rate": 1.2727272727272727e-05,
      "loss": 0.2467,
      "mean_token_accuracy": 0.9777331054210663,
      "step": 374
    },
    {
      "epoch": 62.57142857142857,
      "grad_norm": 1.4530190229415894,
      "learning_rate": 1.2626262626262628e-05,
      "loss": 0.2377,
      "mean_token_accuracy": 0.9767781794071198,
      "step": 375
    },
    {
      "epoch": 62.76190476190476,
      "grad_norm": 1.4946351051330566,
      "learning_rate": 1.2525252525252526e-05,
      "loss": 0.2547,
      "mean_token_accuracy": 0.9767863899469376,
      "step": 376
    },
    {
      "epoch": 62.95238095238095,
      "grad_norm": 1.442986011505127,
      "learning_rate": 1.2424242424242424e-05,
      "loss": 0.2575,
      "mean_token_accuracy": 0.9808852076530457,
      "step": 377
    },
    {
      "epoch": 63.0,
      "grad_norm": 2.1069142818450928,
      "learning_rate": 1.2323232323232325e-05,
      "loss": 0.0682,
      "mean_token_accuracy": 0.9726027250289917,
      "step": 378
    },
    {
      "epoch": 63.19047619047619,
      "grad_norm": 1.4386465549468994,
      "learning_rate": 1.2222222222222222e-05,
      "loss": 0.2472,
      "mean_token_accuracy": 0.9808338433504105,
      "step": 379
    },
    {
      "epoch": 63.38095238095238,
      "grad_norm": 1.5726056098937988,
      "learning_rate": 1.2121212121212122e-05,
      "loss": 0.2488,
      "mean_token_accuracy": 0.9816757142543793,
      "step": 380
    },
    {
      "epoch": 63.57142857142857,
      "grad_norm": 1.6537950038909912,
      "learning_rate": 1.202020202020202e-05,
      "loss": 0.2471,
      "mean_token_accuracy": 0.9798701107501984,
      "step": 381
    },
    {
      "epoch": 63.76190476190476,
      "grad_norm": 1.4154284000396729,
      "learning_rate": 1.1919191919191921e-05,
      "loss": 0.2483,
      "mean_token_accuracy": 0.9786428213119507,
      "step": 382
    },
    {
      "epoch": 63.95238095238095,
      "grad_norm": 1.493235468864441,
      "learning_rate": 1.1818181818181819e-05,
      "loss": 0.2499,
      "mean_token_accuracy": 0.9752872586250305,
      "step": 383
    },
    {
      "epoch": 64.0,
      "grad_norm": 0.9331473112106323,
      "learning_rate": 1.1717171717171718e-05,
      "loss": 0.0481,
      "mean_token_accuracy": 0.9902912378311157,
      "step": 384
    },
    {
      "epoch": 64.19047619047619,
      "grad_norm": 1.5490996837615967,
      "learning_rate": 1.1616161616161616e-05,
      "loss": 0.2544,
      "mean_token_accuracy": 0.9750427901744843,
      "step": 385
    },
    {
      "epoch": 64.38095238095238,
      "grad_norm": 1.2337415218353271,
      "learning_rate": 1.1515151515151517e-05,
      "loss": 0.2372,
      "mean_token_accuracy": 0.9794412702322006,
      "step": 386
    },
    {
      "epoch": 64.57142857142857,
      "grad_norm": 1.3450168371200562,
      "learning_rate": 1.1414141414141415e-05,
      "loss": 0.251,
      "mean_token_accuracy": 0.9808587580919266,
      "step": 387
    },
    {
      "epoch": 64.76190476190476,
      "grad_norm": 1.4372197389602661,
      "learning_rate": 1.1313131313131314e-05,
      "loss": 0.2541,
      "mean_token_accuracy": 0.9765901118516922,
      "step": 388
    },
    {
      "epoch": 64.95238095238095,
      "grad_norm": 1.3596030473709106,
      "learning_rate": 1.1212121212121212e-05,
      "loss": 0.2327,
      "mean_token_accuracy": 0.9819456040859222,
      "step": 389
    },
    {
      "epoch": 65.0,
      "grad_norm": 1.2771663665771484,
      "learning_rate": 1.1111111111111112e-05,
      "loss": 0.0615,
      "mean_token_accuracy": 0.9871794581413269,
      "step": 390
    },
    {
      "epoch": 65.19047619047619,
      "grad_norm": 1.3283063173294067,
      "learning_rate": 1.1010101010101011e-05,
      "loss": 0.2431,
      "mean_token_accuracy": 0.9796550124883652,
      "step": 391
    },
    {
      "epoch": 65.38095238095238,
      "grad_norm": 1.4404308795928955,
      "learning_rate": 1.0909090909090909e-05,
      "loss": 0.242,
      "mean_token_accuracy": 0.9827671945095062,
      "step": 392
    },
    {
      "epoch": 65.57142857142857,
      "grad_norm": 1.322653889656067,
      "learning_rate": 1.0808080808080808e-05,
      "loss": 0.235,
      "mean_token_accuracy": 0.9791911989450455,
      "step": 393
    },
    {
      "epoch": 65.76190476190476,
      "grad_norm": 1.346421718597412,
      "learning_rate": 1.0707070707070708e-05,
      "loss": 0.2602,
      "mean_token_accuracy": 0.9792519062757492,
      "step": 394
    },
    {
      "epoch": 65.95238095238095,
      "grad_norm": 1.361152172088623,
      "learning_rate": 1.0606060606060607e-05,
      "loss": 0.2404,
      "mean_token_accuracy": 0.9787698835134506,
      "step": 395
    },
    {
      "epoch": 66.0,
      "grad_norm": 1.4586611986160278,
      "learning_rate": 1.0505050505050505e-05,
      "loss": 0.0681,
      "mean_token_accuracy": 0.970588207244873,
      "step": 396
    },
    {
      "epoch": 66.19047619047619,
      "grad_norm": 1.4977368116378784,
      "learning_rate": 1.0404040404040405e-05,
      "loss": 0.2359,
      "mean_token_accuracy": 0.9806597381830215,
      "step": 397
    },
    {
      "epoch": 66.38095238095238,
      "grad_norm": 1.2351692914962769,
      "learning_rate": 1.0303030303030304e-05,
      "loss": 0.2508,
      "mean_token_accuracy": 0.977878749370575,
      "step": 398
    },
    {
      "epoch": 66.57142857142857,
      "grad_norm": 1.3478460311889648,
      "learning_rate": 1.0202020202020204e-05,
      "loss": 0.2321,
      "mean_token_accuracy": 0.9855255037546158,
      "step": 399
    },
    {
      "epoch": 66.76190476190476,
      "grad_norm": 1.618532419204712,
      "learning_rate": 1.0101010101010101e-05,
      "loss": 0.2658,
      "mean_token_accuracy": 0.9772535562515259,
      "step": 400
    },
    {
      "epoch": 66.95238095238095,
      "grad_norm": 1.5389485359191895,
      "learning_rate": 1e-05,
      "loss": 0.2465,
      "mean_token_accuracy": 0.9769544303417206,
      "step": 401
    },
    {
      "epoch": 67.0,
      "grad_norm": 0.9716305732727051,
      "learning_rate": 9.898989898989899e-06,
      "loss": 0.0529,
      "mean_token_accuracy": 0.9885057210922241,
      "step": 402
    },
    {
      "epoch": 67.19047619047619,
      "grad_norm": 1.4950332641601562,
      "learning_rate": 9.7979797979798e-06,
      "loss": 0.249,
      "mean_token_accuracy": 0.9769591093063354,
      "step": 403
    },
    {
      "epoch": 67.38095238095238,
      "grad_norm": 1.524194359779358,
      "learning_rate": 9.696969696969698e-06,
      "loss": 0.2477,
      "mean_token_accuracy": 0.98219034075737,
      "step": 404
    },
    {
      "epoch": 67.57142857142857,
      "grad_norm": 1.231911540031433,
      "learning_rate": 9.595959595959595e-06,
      "loss": 0.2232,
      "mean_token_accuracy": 0.9810429662466049,
      "step": 405
    },
    {
      "epoch": 67.76190476190476,
      "grad_norm": 1.404455304145813,
      "learning_rate": 9.494949494949495e-06,
      "loss": 0.2701,
      "mean_token_accuracy": 0.9793097227811813,
      "step": 406
    },
    {
      "epoch": 67.95238095238095,
      "grad_norm": 1.3537510633468628,
      "learning_rate": 9.393939393939394e-06,
      "loss": 0.2338,
      "mean_token_accuracy": 0.9800481051206589,
      "step": 407
    },
    {
      "epoch": 68.0,
      "grad_norm": 0.9093771576881409,
      "learning_rate": 9.292929292929294e-06,
      "loss": 0.0423,
      "mean_token_accuracy": 0.9902912378311157,
      "step": 408
    },
    {
      "epoch": 68.19047619047619,
      "grad_norm": 1.3876770734786987,
      "learning_rate": 9.191919191919192e-06,
      "loss": 0.2453,
      "mean_token_accuracy": 0.9814929813146591,
      "step": 409
    },
    {
      "epoch": 68.38095238095238,
      "grad_norm": 1.5604972839355469,
      "learning_rate": 9.090909090909091e-06,
      "loss": 0.2474,
      "mean_token_accuracy": 0.9796653985977173,
      "step": 410
    },
    {
      "epoch": 68.57142857142857,
      "grad_norm": 1.4196627140045166,
      "learning_rate": 8.98989898989899e-06,
      "loss": 0.2421,
      "mean_token_accuracy": 0.9826227128505707,
      "step": 411
    },
    {
      "epoch": 68.76190476190476,
      "grad_norm": 1.4446525573730469,
      "learning_rate": 8.88888888888889e-06,
      "loss": 0.237,
      "mean_token_accuracy": 0.9770011454820633,
      "step": 412
    },
    {
      "epoch": 68.95238095238095,
      "grad_norm": 1.3088741302490234,
      "learning_rate": 8.787878787878788e-06,
      "loss": 0.242,
      "mean_token_accuracy": 0.9788557142019272,
      "step": 413
    },
    {
      "epoch": 69.0,
      "grad_norm": 1.1058439016342163,
      "learning_rate": 8.686868686868687e-06,
      "loss": 0.0552,
      "mean_token_accuracy": 0.9878048896789551,
      "step": 414
    },
    {
      "epoch": 69.19047619047619,
      "grad_norm": 1.5012304782867432,
      "learning_rate": 8.585858585858587e-06,
      "loss": 0.2472,
      "mean_token_accuracy": 0.9804881513118744,
      "step": 415
    },
    {
      "epoch": 69.38095238095238,
      "grad_norm": 1.2776250839233398,
      "learning_rate": 8.484848484848486e-06,
      "loss": 0.245,
      "mean_token_accuracy": 0.9793550372123718,
      "step": 416
    },
    {
      "epoch": 69.57142857142857,
      "grad_norm": 1.4031535387039185,
      "learning_rate": 8.383838383838384e-06,
      "loss": 0.2391,
      "mean_token_accuracy": 0.9811627715826035,
      "step": 417
    },
    {
      "epoch": 69.76190476190476,
      "grad_norm": 1.5323896408081055,
      "learning_rate": 8.282828282828283e-06,
      "loss": 0.2402,
      "mean_token_accuracy": 0.9756592959165573,
      "step": 418
    },
    {
      "epoch": 69.95238095238095,
      "grad_norm": 1.415002465248108,
      "learning_rate": 8.181818181818183e-06,
      "loss": 0.2447,
      "mean_token_accuracy": 0.9816397428512573,
      "step": 419
    },
    {
      "epoch": 70.0,
      "grad_norm": 1.84005606174469,
      "learning_rate": 8.080808080808082e-06,
      "loss": 0.0622,
      "mean_token_accuracy": 0.9726027250289917,
      "step": 420
    },
    {
      "epoch": 70.19047619047619,
      "grad_norm": 1.3505762815475464,
      "learning_rate": 7.97979797979798e-06,
      "loss": 0.2363,
      "mean_token_accuracy": 0.9800622910261154,
      "step": 421
    },
    {
      "epoch": 70.38095238095238,
      "grad_norm": 1.3231146335601807,
      "learning_rate": 7.878787878787878e-06,
      "loss": 0.2327,
      "mean_token_accuracy": 0.9815961122512817,
      "step": 422
    },
    {
      "epoch": 70.57142857142857,
      "grad_norm": 1.6289716958999634,
      "learning_rate": 7.777777777777777e-06,
      "loss": 0.2469,
      "mean_token_accuracy": 0.976947546005249,
      "step": 423
    },
    {
      "epoch": 70.76190476190476,
      "grad_norm": 1.5643327236175537,
      "learning_rate": 7.676767676767677e-06,
      "loss": 0.2541,
      "mean_token_accuracy": 0.9771561771631241,
      "step": 424
    },
    {
      "epoch": 70.95238095238095,
      "grad_norm": 1.4305167198181152,
      "learning_rate": 7.5757575757575764e-06,
      "loss": 0.2452,
      "mean_token_accuracy": 0.9759194254875183,
      "step": 425
    },
    {
      "epoch": 71.0,
      "grad_norm": 1.5850602388381958,
      "learning_rate": 7.474747474747475e-06,
      "loss": 0.0683,
      "mean_token_accuracy": 0.9850746393203735,
      "step": 426
    },
    {
      "epoch": 71.19047619047619,
      "grad_norm": 1.3248540163040161,
      "learning_rate": 7.3737373737373745e-06,
      "loss": 0.24,
      "mean_token_accuracy": 0.9821758568286896,
      "step": 427
    },
    {
      "epoch": 71.38095238095238,
      "grad_norm": 1.3908957242965698,
      "learning_rate": 7.272727272727272e-06,
      "loss": 0.242,
      "mean_token_accuracy": 0.9802806377410889,
      "step": 428
    },
    {
      "epoch": 71.57142857142857,
      "grad_norm": 1.3902804851531982,
      "learning_rate": 7.171717171717173e-06,
      "loss": 0.2423,
      "mean_token_accuracy": 0.9788789004087448,
      "step": 429
    },
    {
      "epoch": 71.76190476190476,
      "grad_norm": 1.4126980304718018,
      "learning_rate": 7.0707070707070704e-06,
      "loss": 0.2437,
      "mean_token_accuracy": 0.9766863882541656,
      "step": 430
    },
    {
      "epoch": 71.95238095238095,
      "grad_norm": 1.423156499862671,
      "learning_rate": 6.969696969696971e-06,
      "loss": 0.2427,
      "mean_token_accuracy": 0.9781524240970612,
      "step": 431
    },
    {
      "epoch": 72.0,
      "grad_norm": 1.736093521118164,
      "learning_rate": 6.8686868686868685e-06,
      "loss": 0.0814,
      "mean_token_accuracy": 0.9818181991577148,
      "step": 432
    },
    {
      "epoch": 72.19047619047619,
      "grad_norm": 1.281557321548462,
      "learning_rate": 6.767676767676769e-06,
      "loss": 0.2482,
      "mean_token_accuracy": 0.9825676530599594,
      "step": 433
    },
    {
      "epoch": 72.38095238095238,
      "grad_norm": 1.3980622291564941,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.2428,
      "mean_token_accuracy": 0.9788574278354645,
      "step": 434
    },
    {
      "epoch": 72.57142857142857,
      "grad_norm": 1.419425368309021,
      "learning_rate": 6.565656565656567e-06,
      "loss": 0.2431,
      "mean_token_accuracy": 0.9791808128356934,
      "step": 435
    },
    {
      "epoch": 72.76190476190476,
      "grad_norm": 1.5525389909744263,
      "learning_rate": 6.464646464646465e-06,
      "loss": 0.2538,
      "mean_token_accuracy": 0.9783525764942169,
      "step": 436
    },
    {
      "epoch": 72.95238095238095,
      "grad_norm": 1.295773983001709,
      "learning_rate": 6.363636363636363e-06,
      "loss": 0.2299,
      "mean_token_accuracy": 0.9779433310031891,
      "step": 437
    },
    {
      "epoch": 73.0,
      "grad_norm": 0.6111257076263428,
      "learning_rate": 6.262626262626263e-06,
      "loss": 0.0384,
      "mean_token_accuracy": 0.9922480583190918,
      "step": 438
    },
    {
      "epoch": 73.19047619047619,
      "grad_norm": 1.387117862701416,
      "learning_rate": 6.161616161616162e-06,
      "loss": 0.2405,
      "mean_token_accuracy": 0.979522630572319,
      "step": 439
    },
    {
      "epoch": 73.38095238095238,
      "grad_norm": 1.3952202796936035,
      "learning_rate": 6.060606060606061e-06,
      "loss": 0.2486,
      "mean_token_accuracy": 0.9780898541212082,
      "step": 440
    },
    {
      "epoch": 73.57142857142857,
      "grad_norm": 1.6391713619232178,
      "learning_rate": 5.9595959595959605e-06,
      "loss": 0.2504,
      "mean_token_accuracy": 0.9782277494668961,
      "step": 441
    },
    {
      "epoch": 73.76190476190476,
      "grad_norm": 1.4811103343963623,
      "learning_rate": 5.858585858585859e-06,
      "loss": 0.2392,
      "mean_token_accuracy": 0.9793239235877991,
      "step": 442
    },
    {
      "epoch": 73.95238095238095,
      "grad_norm": 1.4281538724899292,
      "learning_rate": 5.7575757575757586e-06,
      "loss": 0.2326,
      "mean_token_accuracy": 0.979654997587204,
      "step": 443
    },
    {
      "epoch": 74.0,
      "grad_norm": 1.2993221282958984,
      "learning_rate": 5.656565656565657e-06,
      "loss": 0.0573,
      "mean_token_accuracy": 0.9876543283462524,
      "step": 444
    },
    {
      "epoch": 74.19047619047619,
      "grad_norm": 1.2887934446334839,
      "learning_rate": 5.555555555555556e-06,
      "loss": 0.2422,
      "mean_token_accuracy": 0.9798881709575653,
      "step": 445
    },
    {
      "epoch": 74.38095238095238,
      "grad_norm": 1.581034779548645,
      "learning_rate": 5.4545454545454545e-06,
      "loss": 0.2462,
      "mean_token_accuracy": 0.9796192944049835,
      "step": 446
    },
    {
      "epoch": 74.57142857142857,
      "grad_norm": 1.219085693359375,
      "learning_rate": 5.353535353535354e-06,
      "loss": 0.2434,
      "mean_token_accuracy": 0.9797424674034119,
      "step": 447
    },
    {
      "epoch": 74.76190476190476,
      "grad_norm": 1.2309306859970093,
      "learning_rate": 5.2525252525252526e-06,
      "loss": 0.2379,
      "mean_token_accuracy": 0.978371798992157,
      "step": 448
    },
    {
      "epoch": 74.95238095238095,
      "grad_norm": 1.4002373218536377,
      "learning_rate": 5.151515151515152e-06,
      "loss": 0.2325,
      "mean_token_accuracy": 0.9793529957532883,
      "step": 449
    },
    {
      "epoch": 75.0,
      "grad_norm": 2.0193445682525635,
      "learning_rate": 5.050505050505051e-06,
      "loss": 0.0842,
      "mean_token_accuracy": 0.9807692170143127,
      "step": 450
    },
    {
      "epoch": 75.19047619047619,
      "grad_norm": 1.3020991086959839,
      "learning_rate": 4.949494949494949e-06,
      "loss": 0.2249,
      "mean_token_accuracy": 0.983807697892189,
      "step": 451
    },
    {
      "epoch": 75.38095238095238,
      "grad_norm": 1.2189743518829346,
      "learning_rate": 4.848484848484849e-06,
      "loss": 0.2444,
      "mean_token_accuracy": 0.9823562502861023,
      "step": 452
    },
    {
      "epoch": 75.57142857142857,
      "grad_norm": 1.43671715259552,
      "learning_rate": 4.747474747474747e-06,
      "loss": 0.2473,
      "mean_token_accuracy": 0.9775967448949814,
      "step": 453
    },
    {
      "epoch": 75.76190476190476,
      "grad_norm": 1.6678014993667603,
      "learning_rate": 4.646464646464647e-06,
      "loss": 0.2352,
      "mean_token_accuracy": 0.9812745600938797,
      "step": 454
    },
    {
      "epoch": 75.95238095238095,
      "grad_norm": 1.9260616302490234,
      "learning_rate": 4.5454545454545455e-06,
      "loss": 0.2581,
      "mean_token_accuracy": 0.9734574407339096,
      "step": 455
    },
    {
      "epoch": 76.0,
      "grad_norm": 1.5224919319152832,
      "learning_rate": 4.444444444444445e-06,
      "loss": 0.0667,
      "mean_token_accuracy": 0.9846153855323792,
      "step": 456
    },
    {
      "epoch": 76.19047619047619,
      "grad_norm": 1.1384742259979248,
      "learning_rate": 4.343434343434344e-06,
      "loss": 0.2166,
      "mean_token_accuracy": 0.9816610366106033,
      "step": 457
    },
    {
      "epoch": 76.38095238095238,
      "grad_norm": 1.5136680603027344,
      "learning_rate": 4.242424242424243e-06,
      "loss": 0.2443,
      "mean_token_accuracy": 0.9804109483957291,
      "step": 458
    },
    {
      "epoch": 76.57142857142857,
      "grad_norm": 1.5559028387069702,
      "learning_rate": 4.141414141414142e-06,
      "loss": 0.2472,
      "mean_token_accuracy": 0.9795145392417908,
      "step": 459
    },
    {
      "epoch": 76.76190476190476,
      "grad_norm": 1.4042458534240723,
      "learning_rate": 4.040404040404041e-06,
      "loss": 0.2422,
      "mean_token_accuracy": 0.9746371954679489,
      "step": 460
    },
    {
      "epoch": 76.95238095238095,
      "grad_norm": 1.3069055080413818,
      "learning_rate": 3.939393939393939e-06,
      "loss": 0.2574,
      "mean_token_accuracy": 0.981501892209053,
      "step": 461
    },
    {
      "epoch": 77.0,
      "grad_norm": 1.4545823335647583,
      "learning_rate": 3.8383838383838385e-06,
      "loss": 0.0675,
      "mean_token_accuracy": 0.970588207244873,
      "step": 462
    },
    {
      "epoch": 77.19047619047619,
      "grad_norm": 1.4684022665023804,
      "learning_rate": 3.7373737373737375e-06,
      "loss": 0.2269,
      "mean_token_accuracy": 0.981085941195488,
      "step": 463
    },
    {
      "epoch": 77.38095238095238,
      "grad_norm": 1.5217136144638062,
      "learning_rate": 3.636363636363636e-06,
      "loss": 0.2415,
      "mean_token_accuracy": 0.9836974442005157,
      "step": 464
    },
    {
      "epoch": 77.57142857142857,
      "grad_norm": 1.2941691875457764,
      "learning_rate": 3.5353535353535352e-06,
      "loss": 0.2387,
      "mean_token_accuracy": 0.978131577372551,
      "step": 465
    },
    {
      "epoch": 77.76190476190476,
      "grad_norm": 1.4465221166610718,
      "learning_rate": 3.4343434343434343e-06,
      "loss": 0.2404,
      "mean_token_accuracy": 0.9785452336072922,
      "step": 466
    },
    {
      "epoch": 77.95238095238095,
      "grad_norm": 1.4259777069091797,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.2515,
      "mean_token_accuracy": 0.9781184196472168,
      "step": 467
    },
    {
      "epoch": 78.0,
      "grad_norm": 1.9436161518096924,
      "learning_rate": 3.2323232323232324e-06,
      "loss": 0.0751,
      "mean_token_accuracy": 0.9661017060279846,
      "step": 468
    },
    {
      "epoch": 78.19047619047619,
      "grad_norm": 1.2418111562728882,
      "learning_rate": 3.1313131313131314e-06,
      "loss": 0.2206,
      "mean_token_accuracy": 0.980968713760376,
      "step": 469
    },
    {
      "epoch": 78.38095238095238,
      "grad_norm": 1.3781098127365112,
      "learning_rate": 3.0303030303030305e-06,
      "loss": 0.2423,
      "mean_token_accuracy": 0.9790701419115067,
      "step": 470
    },
    {
      "epoch": 78.57142857142857,
      "grad_norm": 1.3852852582931519,
      "learning_rate": 2.9292929292929295e-06,
      "loss": 0.2423,
      "mean_token_accuracy": 0.9788630157709122,
      "step": 471
    },
    {
      "epoch": 78.76190476190476,
      "grad_norm": 1.5246734619140625,
      "learning_rate": 2.8282828282828286e-06,
      "loss": 0.2497,
      "mean_token_accuracy": 0.9794032126665115,
      "step": 472
    },
    {
      "epoch": 78.95238095238095,
      "grad_norm": 1.4307729005813599,
      "learning_rate": 2.7272727272727272e-06,
      "loss": 0.2479,
      "mean_token_accuracy": 0.9815962314605713,
      "step": 473
    },
    {
      "epoch": 79.0,
      "grad_norm": 1.941765308380127,
      "learning_rate": 2.6262626262626263e-06,
      "loss": 0.0653,
      "mean_token_accuracy": 0.9577465057373047,
      "step": 474
    },
    {
      "epoch": 79.19047619047619,
      "grad_norm": 1.2771799564361572,
      "learning_rate": 2.5252525252525253e-06,
      "loss": 0.2255,
      "mean_token_accuracy": 0.9810370206832886,
      "step": 475
    },
    {
      "epoch": 79.38095238095238,
      "grad_norm": 1.325358271598816,
      "learning_rate": 2.4242424242424244e-06,
      "loss": 0.242,
      "mean_token_accuracy": 0.9791529029607773,
      "step": 476
    },
    {
      "epoch": 79.57142857142857,
      "grad_norm": 1.295100212097168,
      "learning_rate": 2.3232323232323234e-06,
      "loss": 0.2488,
      "mean_token_accuracy": 0.9798661768436432,
      "step": 477
    },
    {
      "epoch": 79.76190476190476,
      "grad_norm": 1.4676238298416138,
      "learning_rate": 2.2222222222222225e-06,
      "loss": 0.2367,
      "mean_token_accuracy": 0.9780342727899551,
      "step": 478
    },
    {
      "epoch": 79.95238095238095,
      "grad_norm": 1.7996033430099487,
      "learning_rate": 2.1212121212121216e-06,
      "loss": 0.2452,
      "mean_token_accuracy": 0.9771022349596024,
      "step": 479
    },
    {
      "epoch": 80.0,
      "grad_norm": 1.3761502504348755,
      "learning_rate": 2.0202020202020206e-06,
      "loss": 0.06,
      "mean_token_accuracy": 0.970588207244873,
      "step": 480
    },
    {
      "epoch": 80.19047619047619,
      "grad_norm": 1.3741532564163208,
      "learning_rate": 1.9191919191919192e-06,
      "loss": 0.2414,
      "mean_token_accuracy": 0.9827142953872681,
      "step": 481
    },
    {
      "epoch": 80.38095238095238,
      "grad_norm": 1.680336594581604,
      "learning_rate": 1.818181818181818e-06,
      "loss": 0.2308,
      "mean_token_accuracy": 0.980181872844696,
      "step": 482
    },
    {
      "epoch": 80.57142857142857,
      "grad_norm": 1.1747589111328125,
      "learning_rate": 1.7171717171717171e-06,
      "loss": 0.2201,
      "mean_token_accuracy": 0.9804712980985641,
      "step": 483
    },
    {
      "epoch": 80.76190476190476,
      "grad_norm": 1.4682387113571167,
      "learning_rate": 1.6161616161616162e-06,
      "loss": 0.2481,
      "mean_token_accuracy": 0.9811168909072876,
      "step": 484
    },
    {
      "epoch": 80.95238095238095,
      "grad_norm": 1.5288760662078857,
      "learning_rate": 1.5151515151515152e-06,
      "loss": 0.2542,
      "mean_token_accuracy": 0.9763506799936295,
      "step": 485
    },
    {
      "epoch": 81.0,
      "grad_norm": 2.051353931427002,
      "learning_rate": 1.4141414141414143e-06,
      "loss": 0.0759,
      "mean_token_accuracy": 0.9666666388511658,
      "step": 486
    },
    {
      "epoch": 81.19047619047619,
      "grad_norm": 1.4453171491622925,
      "learning_rate": 1.3131313131313131e-06,
      "loss": 0.2488,
      "mean_token_accuracy": 0.9764743894338608,
      "step": 487
    },
    {
      "epoch": 81.38095238095238,
      "grad_norm": 1.2203129529953003,
      "learning_rate": 1.2121212121212122e-06,
      "loss": 0.2208,
      "mean_token_accuracy": 0.9802269041538239,
      "step": 488
    },
    {
      "epoch": 81.57142857142857,
      "grad_norm": 1.338069200515747,
      "learning_rate": 1.1111111111111112e-06,
      "loss": 0.2454,
      "mean_token_accuracy": 0.9848097264766693,
      "step": 489
    },
    {
      "epoch": 81.76190476190476,
      "grad_norm": 1.3311666250228882,
      "learning_rate": 1.0101010101010103e-06,
      "loss": 0.2276,
      "mean_token_accuracy": 0.9802386462688446,
      "step": 490
    },
    {
      "epoch": 81.95238095238095,
      "grad_norm": 1.4156842231750488,
      "learning_rate": 9.09090909090909e-07,
      "loss": 0.2622,
      "mean_token_accuracy": 0.9762069880962372,
      "step": 491
    },
    {
      "epoch": 82.0,
      "grad_norm": 1.7438231706619263,
      "learning_rate": 8.080808080808081e-07,
      "loss": 0.0642,
      "mean_token_accuracy": 0.9710144996643066,
      "step": 492
    },
    {
      "epoch": 82.19047619047619,
      "grad_norm": 1.338675618171692,
      "learning_rate": 7.070707070707071e-07,
      "loss": 0.2547,
      "mean_token_accuracy": 0.9793485999107361,
      "step": 493
    },
    {
      "epoch": 82.38095238095238,
      "grad_norm": 1.248263955116272,
      "learning_rate": 6.060606060606061e-07,
      "loss": 0.2139,
      "mean_token_accuracy": 0.9814836531877518,
      "step": 494
    },
    {
      "epoch": 82.57142857142857,
      "grad_norm": 1.4303299188613892,
      "learning_rate": 5.050505050505052e-07,
      "loss": 0.2466,
      "mean_token_accuracy": 0.9783899486064911,
      "step": 495
    },
    {
      "epoch": 82.76190476190476,
      "grad_norm": 1.4656988382339478,
      "learning_rate": 4.0404040404040405e-07,
      "loss": 0.2469,
      "mean_token_accuracy": 0.9803285598754883,
      "step": 496
    },
    {
      "epoch": 82.95238095238095,
      "grad_norm": 1.3924672603607178,
      "learning_rate": 3.0303030303030305e-07,
      "loss": 0.2375,
      "mean_token_accuracy": 0.9797345548868179,
      "step": 497
    },
    {
      "epoch": 83.0,
      "grad_norm": 0.9879482388496399,
      "learning_rate": 2.0202020202020202e-07,
      "loss": 0.0395,
      "mean_token_accuracy": 0.9838709831237793,
      "step": 498
    },
    {
      "epoch": 83.19047619047619,
      "grad_norm": 1.2162104845046997,
      "learning_rate": 1.0101010101010101e-07,
      "loss": 0.2433,
      "mean_token_accuracy": 0.981399655342102,
      "step": 499
    },
    {
      "epoch": 83.38095238095238,
      "grad_norm": 1.2492247819900513,
      "learning_rate": 0.0,
      "loss": 0.2299,
      "mean_token_accuracy": 0.9802171587944031,
      "step": 500
    }
  ],
  "logging_steps": 1,
  "max_steps": 500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2203866148700160.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}