[
  {
    "loss": 2.836225128173828,
    "grad_norm": 64.5,
    "learning_rate": 1.9921568627450984e-05,
    "entropy": 2.411133313179016,
    "num_tokens": 3137.0,
    "mean_token_accuracy": 0.49307813346385954,
    "epoch": 0.014705882352941176,
    "step": 5
  },
  {
    "loss": 1.3722827911376954,
    "grad_norm": 10.0,
    "learning_rate": 1.9823529411764708e-05,
    "entropy": 1.489565873146057,
    "num_tokens": 6240.0,
    "mean_token_accuracy": 0.7310294091701508,
    "epoch": 0.029411764705882353,
    "step": 10
  },
  {
    "loss": 0.9681278228759765,
    "grad_norm": 9.0,
    "learning_rate": 1.9725490196078433e-05,
    "entropy": 1.0941020846366882,
    "num_tokens": 9372.0,
    "mean_token_accuracy": 0.7977278172969818,
    "epoch": 0.04411764705882353,
    "step": 15
  },
  {
    "loss": 0.7952256202697754,
    "grad_norm": 7.5625,
    "learning_rate": 1.9627450980392157e-05,
    "entropy": 0.7959236443042755,
    "num_tokens": 12496.0,
    "mean_token_accuracy": 0.8263253927230835,
    "epoch": 0.058823529411764705,
    "step": 20
  },
  {
    "loss": 0.7038975715637207,
    "grad_norm": 10.0,
    "learning_rate": 1.9529411764705885e-05,
    "entropy": 0.7730603992938996,
    "num_tokens": 15726.0,
    "mean_token_accuracy": 0.8362560391426086,
    "epoch": 0.07352941176470588,
    "step": 25
  },
  {
    "loss": 0.5153284072875977,
    "grad_norm": 9.5,
    "learning_rate": 1.943137254901961e-05,
    "entropy": 0.5871870815753937,
    "num_tokens": 18807.0,
    "mean_token_accuracy": 0.8711118042469025,
    "epoch": 0.08823529411764706,
    "step": 30
  },
  {
    "loss": 0.4624673843383789,
    "grad_norm": 9.375,
    "learning_rate": 1.9333333333333333e-05,
    "entropy": 0.5334561973810196,
    "num_tokens": 21955.0,
    "mean_token_accuracy": 0.8878682732582093,
    "epoch": 0.10294117647058823,
    "step": 35
  },
  {
    "loss": 0.3805722236633301,
    "grad_norm": 7.0625,
    "learning_rate": 1.923529411764706e-05,
    "entropy": 0.490571403503418,
    "num_tokens": 25129.0,
    "mean_token_accuracy": 0.9082872688770294,
    "epoch": 0.11764705882352941,
    "step": 40
  },
  {
    "loss": 0.2753485679626465,
    "grad_norm": 8.75,
    "learning_rate": 1.9137254901960786e-05,
    "entropy": 0.3105604648590088,
    "num_tokens": 28291.0,
    "mean_token_accuracy": 0.9394680917263031,
    "epoch": 0.1323529411764706,
    "step": 45
  },
  {
    "loss": 0.22170100212097169,
    "grad_norm": 5.65625,
    "learning_rate": 1.903921568627451e-05,
    "entropy": 0.28098965287208555,
    "num_tokens": 31415.0,
    "mean_token_accuracy": 0.949154794216156,
    "epoch": 0.14705882352941177,
    "step": 50
  },
  {
    "loss": 0.18951488733291627,
    "grad_norm": 9.9375,
    "learning_rate": 1.8941176470588238e-05,
    "entropy": 0.20550020337104796,
    "num_tokens": 34603.0,
    "mean_token_accuracy": 0.9539743661880493,
    "epoch": 0.16176470588235295,
    "step": 55
  },
  {
    "loss": 0.17650480270385743,
    "grad_norm": 4.25,
    "learning_rate": 1.8843137254901962e-05,
    "entropy": 0.21026135981082916,
    "num_tokens": 37754.0,
    "mean_token_accuracy": 0.9567391991615295,
    "epoch": 0.17647058823529413,
    "step": 60
  },
  {
    "loss": 0.18774482011795043,
    "grad_norm": 5.5,
    "learning_rate": 1.8745098039215686e-05,
    "entropy": 0.23240296691656112,
    "num_tokens": 40848.0,
    "mean_token_accuracy": 0.9520188570022583,
    "epoch": 0.19117647058823528,
    "step": 65
  },
  {
    "loss": 0.12736810445785524,
    "grad_norm": 10.625,
    "learning_rate": 1.8647058823529414e-05,
    "entropy": 0.16197917684912683,
    "num_tokens": 44001.0,
    "mean_token_accuracy": 0.9676418542861939,
    "epoch": 0.20588235294117646,
    "step": 70
  },
  {
    "loss": 0.14076029062271117,
    "grad_norm": 4.53125,
    "learning_rate": 1.854901960784314e-05,
    "entropy": 0.15784153044223787,
    "num_tokens": 47159.0,
    "mean_token_accuracy": 0.9648099303245544,
    "epoch": 0.22058823529411764,
    "step": 75
  },
  {
    "loss": 0.10759507417678833,
    "grad_norm": 3.328125,
    "learning_rate": 1.8450980392156866e-05,
    "entropy": 0.14289679378271103,
    "num_tokens": 50298.0,
    "mean_token_accuracy": 0.9671541452407837,
    "epoch": 0.23529411764705882,
    "step": 80
  },
  {
    "loss": 0.12589149475097655,
    "grad_norm": 5.46875,
    "learning_rate": 1.8352941176470587e-05,
    "entropy": 0.13958239406347275,
    "num_tokens": 53455.0,
    "mean_token_accuracy": 0.9665216684341431,
    "epoch": 0.25,
    "step": 85
  },
  {
    "loss": 0.12024720907211303,
    "grad_norm": 4.53125,
    "learning_rate": 1.8254901960784315e-05,
    "entropy": 0.13711344972252845,
    "num_tokens": 56595.0,
    "mean_token_accuracy": 0.9648710668087006,
    "epoch": 0.2647058823529412,
    "step": 90
  },
  {
    "loss": 0.10167303085327148,
    "grad_norm": 4.8125,
    "learning_rate": 1.815686274509804e-05,
    "entropy": 0.13078619986772538,
    "num_tokens": 59674.0,
    "mean_token_accuracy": 0.9712324619293213,
    "epoch": 0.27941176470588236,
    "step": 95
  },
  {
    "loss": 0.08662314414978027,
    "grad_norm": 3.671875,
    "learning_rate": 1.8058823529411767e-05,
    "entropy": 0.10740345045924186,
    "num_tokens": 62774.0,
    "mean_token_accuracy": 0.9719909071922302,
    "epoch": 0.29411764705882354,
    "step": 100
  },
  {
    "loss": 0.09073780775070191,
    "grad_norm": 4.15625,
    "learning_rate": 1.796078431372549e-05,
    "entropy": 0.09185975939035415,
    "num_tokens": 65866.0,
    "mean_token_accuracy": 0.9742748856544494,
    "epoch": 0.3088235294117647,
    "step": 105
  },
  {
    "loss": 0.07408615350723266,
    "grad_norm": 2.734375,
    "learning_rate": 1.786274509803922e-05,
    "entropy": 0.10024651288986205,
    "num_tokens": 68995.0,
    "mean_token_accuracy": 0.9773713290691376,
    "epoch": 0.3235294117647059,
    "step": 110
  },
  {
    "loss": 0.08644189834594726,
    "grad_norm": 6.71875,
    "learning_rate": 1.776470588235294e-05,
    "entropy": 0.09930562153458596,
    "num_tokens": 72160.0,
    "mean_token_accuracy": 0.9748322486877441,
    "epoch": 0.3382352941176471,
    "step": 115
  },
  {
    "loss": 0.11685197353363037,
    "grad_norm": 10.3125,
    "learning_rate": 1.7666666666666668e-05,
    "entropy": 0.11419346779584885,
    "num_tokens": 75262.0,
    "mean_token_accuracy": 0.9695464611053467,
    "epoch": 0.35294117647058826,
    "step": 120
  },
  {
    "loss": 0.10757300853729249,
    "grad_norm": 8.9375,
    "learning_rate": 1.7568627450980392e-05,
    "entropy": 0.12836654633283615,
    "num_tokens": 78384.0,
    "mean_token_accuracy": 0.9728550255298615,
    "epoch": 0.36764705882352944,
    "step": 125
  },
  {
    "loss": 0.07711289525032043,
    "grad_norm": 3.015625,
    "learning_rate": 1.747058823529412e-05,
    "entropy": 0.10070741027593613,
    "num_tokens": 81583.0,
    "mean_token_accuracy": 0.9778402209281921,
    "epoch": 0.38235294117647056,
    "step": 130
  },
  {
    "loss": 0.08512116074562073,
    "grad_norm": 5.375,
    "learning_rate": 1.7372549019607845e-05,
    "entropy": 0.09163436144590378,
    "num_tokens": 84729.0,
    "mean_token_accuracy": 0.9748329102993012,
    "epoch": 0.39705882352941174,
    "step": 135
  },
  {
    "loss": 0.09534031748771668,
    "grad_norm": 3.40625,
    "learning_rate": 1.7274509803921572e-05,
    "entropy": 0.09555450975894927,
    "num_tokens": 87916.0,
    "mean_token_accuracy": 0.9727975726127625,
    "epoch": 0.4117647058823529,
    "step": 140
  },
  {
    "loss": 0.0699828803539276,
    "grad_norm": 2.828125,
    "learning_rate": 1.7176470588235293e-05,
    "entropy": 0.089533219486475,
    "num_tokens": 90982.0,
    "mean_token_accuracy": 0.9772566497325897,
    "epoch": 0.4264705882352941,
    "step": 145
  },
  {
    "loss": 0.06004565954208374,
    "grad_norm": 4.28125,
    "learning_rate": 1.707843137254902e-05,
    "entropy": 0.07979470491409302,
    "num_tokens": 94197.0,
    "mean_token_accuracy": 0.980064970254898,
    "epoch": 0.4411764705882353,
    "step": 150
  },
  {
    "loss": 0.07095102667808532,
    "grad_norm": 3.8125,
    "learning_rate": 1.6980392156862745e-05,
    "entropy": 0.07709958106279373,
    "num_tokens": 97332.0,
    "mean_token_accuracy": 0.9785419166088104,
    "epoch": 0.45588235294117646,
    "step": 155
  },
  {
    "loss": 0.05590643882751465,
    "grad_norm": 1.671875,
    "learning_rate": 1.6882352941176473e-05,
    "entropy": 0.07423891946673393,
    "num_tokens": 100515.0,
    "mean_token_accuracy": 0.9827289760112763,
    "epoch": 0.47058823529411764,
    "step": 160
  },
  {
    "loss": 0.06335585117340088,
    "grad_norm": 2.390625,
    "learning_rate": 1.6784313725490198e-05,
    "entropy": 0.08311136476695538,
    "num_tokens": 103630.0,
    "mean_token_accuracy": 0.9795481741428376,
    "epoch": 0.4852941176470588,
    "step": 165
  },
  {
    "loss": 0.06994503140449523,
    "grad_norm": 3.625,
    "learning_rate": 1.6686274509803922e-05,
    "entropy": 0.07972728088498116,
    "num_tokens": 106741.0,
    "mean_token_accuracy": 0.9786823868751526,
    "epoch": 0.5,
    "step": 170
  },
  {
    "loss": 0.047742915153503415,
    "grad_norm": 5.71875,
    "learning_rate": 1.658823529411765e-05,
    "entropy": 0.059984054416418076,
    "num_tokens": 109921.0,
    "mean_token_accuracy": 0.9847357928752899,
    "epoch": 0.5147058823529411,
    "step": 175
  },
  {
    "loss": 0.05979984998703003,
    "grad_norm": 7.0625,
    "learning_rate": 1.6490196078431374e-05,
    "entropy": 0.06703888289630414,
    "num_tokens": 112994.0,
    "mean_token_accuracy": 0.9824592292308807,
    "epoch": 0.5294117647058824,
    "step": 180
  },
  {
    "loss": 0.04938005805015564,
    "grad_norm": 2.90625,
    "learning_rate": 1.63921568627451e-05,
    "entropy": 0.054279588535428046,
    "num_tokens": 116201.0,
    "mean_token_accuracy": 0.9846667230129242,
    "epoch": 0.5441176470588235,
    "step": 185
  },
  {
    "loss": 0.06785057783126831,
    "grad_norm": 7.4375,
    "learning_rate": 1.6294117647058826e-05,
    "entropy": 0.06177988387644291,
    "num_tokens": 119381.0,
    "mean_token_accuracy": 0.9796367406845092,
    "epoch": 0.5588235294117647,
    "step": 190
  },
  {
    "loss": 0.05383546352386474,
    "grad_norm": 5.40625,
    "learning_rate": 1.619607843137255e-05,
    "entropy": 0.0636073287576437,
    "num_tokens": 122517.0,
    "mean_token_accuracy": 0.9798873722553253,
    "epoch": 0.5735294117647058,
    "step": 195
  },
  {
    "loss": 0.0490637868642807,
    "grad_norm": 1.96875,
    "learning_rate": 1.6098039215686275e-05,
    "entropy": 0.0639917254447937,
    "num_tokens": 125663.0,
    "mean_token_accuracy": 0.9849890351295472,
    "epoch": 0.5882352941176471,
    "step": 200
  },
  {
    "loss": 0.06412197351455688,
    "grad_norm": 6.84375,
    "learning_rate": 1.6000000000000003e-05,
    "entropy": 0.06784685887396336,
    "num_tokens": 128856.0,
    "mean_token_accuracy": 0.9818105876445771,
    "epoch": 0.6029411764705882,
    "step": 205
  },
  {
    "loss": 0.04346465170383453,
    "grad_norm": 4.375,
    "learning_rate": 1.5901960784313727e-05,
    "entropy": 0.06049864292144776,
    "num_tokens": 131995.0,
    "mean_token_accuracy": 0.9882112145423889,
    "epoch": 0.6176470588235294,
    "step": 210
  },
  {
    "loss": 0.04320838153362274,
    "grad_norm": 2.015625,
    "learning_rate": 1.580392156862745e-05,
    "entropy": 0.047596517577767374,
    "num_tokens": 135181.0,
    "mean_token_accuracy": 0.985132920742035,
    "epoch": 0.6323529411764706,
    "step": 215
  },
  {
    "loss": 0.06799347996711731,
    "grad_norm": 8.5625,
    "learning_rate": 1.570588235294118e-05,
    "entropy": 0.06635901145637035,
    "num_tokens": 138254.0,
    "mean_token_accuracy": 0.9791639804840088,
    "epoch": 0.6470588235294118,
    "step": 220
  },
  {
    "loss": 0.041108173131942746,
    "grad_norm": 2.859375,
    "learning_rate": 1.5607843137254904e-05,
    "entropy": 0.051696383953094484,
    "num_tokens": 141381.0,
    "mean_token_accuracy": 0.9862416744232178,
    "epoch": 0.6617647058823529,
    "step": 225
  },
  {
    "loss": 0.045146191120147706,
    "grad_norm": 3.078125,
    "learning_rate": 1.5509803921568628e-05,
    "entropy": 0.055339107289910316,
    "num_tokens": 144583.0,
    "mean_token_accuracy": 0.9822882294654847,
    "epoch": 0.6764705882352942,
    "step": 230
  },
  {
    "loss": 0.04143168330192566,
    "grad_norm": 1.578125,
    "learning_rate": 1.5411764705882356e-05,
    "entropy": 0.05063906572759151,
    "num_tokens": 147764.0,
    "mean_token_accuracy": 0.9831606447696686,
    "epoch": 0.6911764705882353,
    "step": 235
  },
  {
    "loss": 0.03947827816009521,
    "grad_norm": 1.9921875,
    "learning_rate": 1.531372549019608e-05,
    "entropy": 0.05209046043455601,
    "num_tokens": 150961.0,
    "mean_token_accuracy": 0.9848346650600434,
    "epoch": 0.7058823529411765,
    "step": 240
  },
  {
    "loss": 0.034212198853492734,
    "grad_norm": 1.8984375,
    "learning_rate": 1.5215686274509804e-05,
    "entropy": 0.04912327118217945,
    "num_tokens": 154174.0,
    "mean_token_accuracy": 0.9855735838413239,
    "epoch": 0.7205882352941176,
    "step": 245
  },
  {
    "loss": 0.03223183453083038,
    "grad_norm": 1.7265625,
    "learning_rate": 1.511764705882353e-05,
    "entropy": 0.045325061306357384,
    "num_tokens": 157374.0,
    "mean_token_accuracy": 0.9866909861564637,
    "epoch": 0.7352941176470589,
    "step": 250
  },
  {
    "loss": 0.04085415601730347,
    "grad_norm": 2.625,
    "learning_rate": 1.5019607843137257e-05,
    "entropy": 0.045074894279241565,
    "num_tokens": 160519.0,
    "mean_token_accuracy": 0.9865182876586914,
    "epoch": 0.75,
    "step": 255
  },
  {
    "loss": 0.03927797079086304,
    "grad_norm": 2.671875,
    "learning_rate": 1.4921568627450983e-05,
    "entropy": 0.039533843845129014,
    "num_tokens": 163756.0,
    "mean_token_accuracy": 0.9872985363006592,
    "epoch": 0.7647058823529411,
    "step": 260
  },
  {
    "loss": 0.042234039306640624,
    "grad_norm": 1.7109375,
    "learning_rate": 1.4823529411764707e-05,
    "entropy": 0.043326519429683685,
    "num_tokens": 166884.0,
    "mean_token_accuracy": 0.9839499652385711,
    "epoch": 0.7794117647058824,
    "step": 265
  },
  {
    "loss": 0.04218446910381317,
    "grad_norm": 3.671875,
    "learning_rate": 1.4725490196078433e-05,
    "entropy": 0.05446031875908375,
    "num_tokens": 170021.0,
    "mean_token_accuracy": 0.983331423997879,
    "epoch": 0.7941176470588235,
    "step": 270
  },
  {
    "loss": 0.031345850229263304,
    "grad_norm": 1.375,
    "learning_rate": 1.4627450980392157e-05,
    "entropy": 0.044994413107633593,
    "num_tokens": 173138.0,
    "mean_token_accuracy": 0.9864144027233124,
    "epoch": 0.8088235294117647,
    "step": 275
  },
  {
    "loss": 0.03718245923519135,
    "grad_norm": 2.03125,
    "learning_rate": 1.4529411764705883e-05,
    "entropy": 0.04372772537171841,
    "num_tokens": 176269.0,
    "mean_token_accuracy": 0.9855779051780701,
    "epoch": 0.8235294117647058,
    "step": 280
  },
  {
    "loss": 0.038416677713394166,
    "grad_norm": 3.234375,
    "learning_rate": 1.443137254901961e-05,
    "entropy": 0.04306882936507463,
    "num_tokens": 179436.0,
    "mean_token_accuracy": 0.9847787022590637,
    "epoch": 0.8382352941176471,
    "step": 285
  },
  {
    "loss": 0.03612026274204254,
    "grad_norm": 4.28125,
    "learning_rate": 1.4333333333333334e-05,
    "entropy": 0.04190887995064259,
    "num_tokens": 182619.0,
    "mean_token_accuracy": 0.9853791892528534,
    "epoch": 0.8529411764705882,
    "step": 290
  },
  {
    "loss": 0.03549243807792664,
    "grad_norm": 1.5546875,
    "learning_rate": 1.423529411764706e-05,
    "entropy": 0.041007821820676325,
    "num_tokens": 185835.0,
    "mean_token_accuracy": 0.987481951713562,
    "epoch": 0.8676470588235294,
    "step": 295
  },
  {
    "loss": 0.03658969700336456,
    "grad_norm": 1.9921875,
    "learning_rate": 1.4137254901960786e-05,
    "entropy": 0.03911938704550266,
    "num_tokens": 189059.0,
    "mean_token_accuracy": 0.9859034955501557,
    "epoch": 0.8823529411764706,
    "step": 300
  },
  {
    "loss": 0.03189299702644348,
    "grad_norm": 1.3984375,
    "learning_rate": 1.403921568627451e-05,
    "entropy": 0.04015427939593792,
    "num_tokens": 192245.0,
    "mean_token_accuracy": 0.9858013272285462,
    "epoch": 0.8970588235294118,
    "step": 305
  },
  {
    "loss": 0.04162760376930237,
    "grad_norm": 4.6875,
    "learning_rate": 1.3941176470588236e-05,
    "entropy": 0.04337671361863613,
    "num_tokens": 195334.0,
    "mean_token_accuracy": 0.9834910809993744,
    "epoch": 0.9117647058823529,
    "step": 310
  },
  {
    "loss": 0.03357888162136078,
    "grad_norm": 1.515625,
    "learning_rate": 1.384313725490196e-05,
    "entropy": 0.043437547981739044,
    "num_tokens": 198482.0,
    "mean_token_accuracy": 0.9839794993400574,
    "epoch": 0.9264705882352942,
    "step": 315
  },
  {
    "loss": 0.03252431154251099,
    "grad_norm": 2.390625,
    "learning_rate": 1.3745098039215687e-05,
    "entropy": 0.041450836881995204,
    "num_tokens": 201737.0,
    "mean_token_accuracy": 0.9883051753044129,
    "epoch": 0.9411764705882353,
    "step": 320
  },
  {
    "loss": 0.03779064118862152,
    "grad_norm": 2.953125,
    "learning_rate": 1.3647058823529413e-05,
    "entropy": 0.03566624131053686,
    "num_tokens": 204889.0,
    "mean_token_accuracy": 0.9875539124011994,
    "epoch": 0.9558823529411765,
    "step": 325
  },
  {
    "loss": 0.0329700767993927,
    "grad_norm": 2.15625,
    "learning_rate": 1.3549019607843139e-05,
    "entropy": 0.03808465227484703,
    "num_tokens": 208114.0,
    "mean_token_accuracy": 0.986751276254654,
    "epoch": 0.9705882352941176,
    "step": 330
  },
  {
    "loss": 0.031173259019851685,
    "grad_norm": 1.546875,
    "learning_rate": 1.3450980392156865e-05,
    "entropy": 0.04065078347921371,
    "num_tokens": 211217.0,
    "mean_token_accuracy": 0.9860772728919983,
    "epoch": 0.9852941176470589,
    "step": 335
  },
  {
    "loss": 0.03390420079231262,
    "grad_norm": 1.515625,
    "learning_rate": 1.3352941176470588e-05,
    "entropy": 0.04108036197721958,
    "num_tokens": 214368.0,
    "mean_token_accuracy": 0.9871271908283233,
    "epoch": 1.0,
    "step": 340
  },
  {
    "loss": 0.03671025633811951,
    "grad_norm": 1.5625,
    "learning_rate": 1.3254901960784314e-05,
    "entropy": 0.04091338850557804,
    "num_tokens": 217480.0,
    "mean_token_accuracy": 0.9861762046813964,
    "epoch": 1.0147058823529411,
    "step": 345
  },
  {
    "loss": 0.030594143271446227,
    "grad_norm": 1.5546875,
    "learning_rate": 1.315686274509804e-05,
    "entropy": 0.040245630964636805,
    "num_tokens": 220615.0,
    "mean_token_accuracy": 0.9881528139114379,
    "epoch": 1.0294117647058822,
    "step": 350
  },
  {
    "loss": 0.027347692847251893,
    "grad_norm": 1.7734375,
    "learning_rate": 1.3058823529411766e-05,
    "entropy": 0.03420254942029714,
    "num_tokens": 223751.0,
    "mean_token_accuracy": 0.989202469587326,
    "epoch": 1.0441176470588236,
    "step": 355
  },
  {
    "loss": 0.03148679435253143,
    "grad_norm": 1.9609375,
    "learning_rate": 1.2960784313725492e-05,
    "entropy": 0.03210772704333067,
    "num_tokens": 226948.0,
    "mean_token_accuracy": 0.9868246436119079,
    "epoch": 1.0588235294117647,
    "step": 360
  },
  {
    "loss": 0.031260594725608826,
    "grad_norm": 1.8046875,
    "learning_rate": 1.2862745098039218e-05,
    "entropy": 0.033671201393008235,
    "num_tokens": 230088.0,
    "mean_token_accuracy": 0.9856015264987945,
    "epoch": 1.0735294117647058,
    "step": 365
  },
  {
    "loss": 0.028061491250991822,
    "grad_norm": 1.2890625,
    "learning_rate": 1.276470588235294e-05,
    "entropy": 0.03639122284948826,
    "num_tokens": 233247.0,
    "mean_token_accuracy": 0.9885319888591766,
    "epoch": 1.088235294117647,
    "step": 370
  },
  {
    "loss": 0.0304165780544281,
    "grad_norm": 2.203125,
    "learning_rate": 1.2666666666666667e-05,
    "entropy": 0.03107942212373018,
    "num_tokens": 236423.0,
    "mean_token_accuracy": 0.9864429414272309,
    "epoch": 1.1029411764705883,
    "step": 375
  },
  {
    "loss": 0.028667458891868593,
    "grad_norm": 1.4453125,
    "learning_rate": 1.2568627450980393e-05,
    "entropy": 0.03269361965358257,
    "num_tokens": 239698.0,
    "mean_token_accuracy": 0.9882214546203614,
    "epoch": 1.1176470588235294,
    "step": 380
  },
  {
    "loss": 0.03024893403053284,
    "grad_norm": 1.4375,
    "learning_rate": 1.2470588235294119e-05,
    "entropy": 0.036648140475153926,
    "num_tokens": 242904.0,
    "mean_token_accuracy": 0.9854198694229126,
    "epoch": 1.1323529411764706,
    "step": 385
  },
  {
    "loss": 0.03237654864788055,
    "grad_norm": 1.140625,
    "learning_rate": 1.2372549019607845e-05,
    "entropy": 0.036488327011466024,
    "num_tokens": 246044.0,
    "mean_token_accuracy": 0.9868141651153565,
    "epoch": 1.1470588235294117,
    "step": 390
  },
  {
    "loss": 0.026534423232078552,
    "grad_norm": 1.2890625,
    "learning_rate": 1.2274509803921571e-05,
    "entropy": 0.03317699953913689,
    "num_tokens": 249199.0,
    "mean_token_accuracy": 0.9891056835651397,
    "epoch": 1.161764705882353,
    "step": 395
  },
  {
    "loss": 0.02918187975883484,
    "grad_norm": 1.546875,
    "learning_rate": 1.2176470588235294e-05,
    "entropy": 0.033053198270499705,
    "num_tokens": 252416.0,
    "mean_token_accuracy": 0.9872093260288238,
    "epoch": 1.1764705882352942,
    "step": 400
  },
  {
    "loss": 0.027815410494804384,
    "grad_norm": 1.5,
    "learning_rate": 1.207843137254902e-05,
    "entropy": 0.03630108144134283,
    "num_tokens": 255505.0,
    "mean_token_accuracy": 0.9886294066905975,
    "epoch": 1.1911764705882353,
    "step": 405
  },
  {
    "loss": 0.029119834303855896,
    "grad_norm": 1.640625,
    "learning_rate": 1.1980392156862746e-05,
    "entropy": 0.0321140518411994,
    "num_tokens": 258679.0,
    "mean_token_accuracy": 0.9888967990875244,
    "epoch": 1.2058823529411764,
    "step": 410
  },
  {
    "loss": 0.025961104035377502,
    "grad_norm": 1.8203125,
    "learning_rate": 1.1882352941176472e-05,
    "entropy": 0.02944366242736578,
    "num_tokens": 261856.0,
    "mean_token_accuracy": 0.9895209610462189,
    "epoch": 1.2205882352941178,
    "step": 415
  },
  {
    "loss": 0.03058839440345764,
    "grad_norm": 2.390625,
    "learning_rate": 1.1784313725490198e-05,
    "entropy": 0.03461700212210417,
    "num_tokens": 264960.0,
    "mean_token_accuracy": 0.9882765769958496,
    "epoch": 1.2352941176470589,
    "step": 420
  },
  {
    "loss": 0.028424999117851256,
    "grad_norm": 1.28125,
    "learning_rate": 1.1686274509803922e-05,
    "entropy": 0.02985447719693184,
    "num_tokens": 268114.0,
    "mean_token_accuracy": 0.9882177650928498,
    "epoch": 1.25,
    "step": 425
  },
  {
    "loss": 0.03086719512939453,
    "grad_norm": 2.265625,
    "learning_rate": 1.1588235294117648e-05,
    "entropy": 0.03250212036073208,
    "num_tokens": 271274.0,
    "mean_token_accuracy": 0.9888392806053161,
    "epoch": 1.2647058823529411,
    "step": 430
  },
  {
    "loss": 0.027977922558784486,
    "grad_norm": 1.3046875,
    "learning_rate": 1.1490196078431373e-05,
    "entropy": 0.034127247892320155,
    "num_tokens": 274452.0,
    "mean_token_accuracy": 0.9908244907855988,
    "epoch": 1.2794117647058822,
    "step": 435
  },
  {
    "loss": 0.02676369547843933,
    "grad_norm": 1.09375,
    "learning_rate": 1.1392156862745099e-05,
    "entropy": 0.03699512742459774,
    "num_tokens": 277562.0,
    "mean_token_accuracy": 0.9871235430240631,
    "epoch": 1.2941176470588236,
    "step": 440
  },
  {
    "loss": 0.02789466977119446,
    "grad_norm": 2.203125,
    "learning_rate": 1.1294117647058825e-05,
    "entropy": 0.03514884728938341,
    "num_tokens": 280635.0,
    "mean_token_accuracy": 0.990158212184906,
    "epoch": 1.3088235294117647,
    "step": 445
  },
  {
    "loss": 0.03088509142398834,
    "grad_norm": 1.8359375,
    "learning_rate": 1.119607843137255e-05,
    "entropy": 0.034746605530381204,
    "num_tokens": 283725.0,
    "mean_token_accuracy": 0.9876766622066497,
    "epoch": 1.3235294117647058,
    "step": 450
  },
  {
    "loss": 0.03232976496219635,
    "grad_norm": 1.734375,
    "learning_rate": 1.1098039215686275e-05,
    "entropy": 0.031742793321609494,
    "num_tokens": 286888.0,
    "mean_token_accuracy": 0.9871384859085083,
    "epoch": 1.3382352941176472,
    "step": 455
  },
  {
    "loss": 0.02845146059989929,
    "grad_norm": 2.0,
    "learning_rate": 1.1000000000000001e-05,
    "entropy": 0.03175645042210817,
    "num_tokens": 290064.0,
    "mean_token_accuracy": 0.9873914003372193,
    "epoch": 1.3529411764705883,
    "step": 460
  },
  {
    "loss": 0.029486137628555297,
    "grad_norm": 1.265625,
    "learning_rate": 1.0901960784313726e-05,
    "entropy": 0.03463620245456696,
    "num_tokens": 293189.0,
    "mean_token_accuracy": 0.9874814569950103,
    "epoch": 1.3676470588235294,
    "step": 465
  },
  {
    "loss": 0.02618069648742676,
    "grad_norm": 1.109375,
    "learning_rate": 1.0803921568627452e-05,
    "entropy": 0.033889508619904515,
    "num_tokens": 296268.0,
    "mean_token_accuracy": 0.9882802128791809,
    "epoch": 1.3823529411764706,
    "step": 470
  },
  {
    "loss": 0.025544488430023195,
    "grad_norm": 0.8984375,
    "learning_rate": 1.0705882352941178e-05,
    "entropy": 0.03317532502114773,
    "num_tokens": 299418.0,
    "mean_token_accuracy": 0.9891822457313537,
    "epoch": 1.3970588235294117,
    "step": 475
  },
  {
    "loss": 0.02922942042350769,
    "grad_norm": 1.5859375,
    "learning_rate": 1.0607843137254902e-05,
    "entropy": 0.03228537701070309,
    "num_tokens": 302608.0,
    "mean_token_accuracy": 0.9864252746105194,
    "epoch": 1.4117647058823528,
    "step": 480
  },
  {
    "loss": 0.025081342458724974,
    "grad_norm": 1.4140625,
    "learning_rate": 1.0509803921568628e-05,
    "entropy": 0.033559339493513106,
    "num_tokens": 305748.0,
    "mean_token_accuracy": 0.9891697466373444,
    "epoch": 1.4264705882352942,
    "step": 485
  },
  {
    "loss": 0.028987354040145873,
    "grad_norm": 1.2109375,
    "learning_rate": 1.0411764705882354e-05,
    "entropy": 0.029655468463897706,
    "num_tokens": 308946.0,
    "mean_token_accuracy": 0.9884015321731567,
    "epoch": 1.4411764705882353,
    "step": 490
  },
  {
    "loss": 0.022376981377601624,
    "grad_norm": 1.5859375,
    "learning_rate": 1.031372549019608e-05,
    "entropy": 0.030257853865623473,
    "num_tokens": 312060.0,
    "mean_token_accuracy": 0.990349942445755,
    "epoch": 1.4558823529411764,
    "step": 495
  },
  {
    "loss": 0.027941384911537172,
    "grad_norm": 1.2734375,
    "learning_rate": 1.0215686274509805e-05,
    "entropy": 0.029427625238895416,
    "num_tokens": 315202.0,
    "mean_token_accuracy": 0.9894903540611267,
    "epoch": 1.4705882352941178,
    "step": 500
  },
  {
    "loss": 0.02513147294521332,
    "grad_norm": 1.8828125,
    "learning_rate": 1.011764705882353e-05,
    "entropy": 0.029220272414386274,
    "num_tokens": 318423.0,
    "mean_token_accuracy": 0.9887598037719727,
    "epoch": 1.4852941176470589,
    "step": 505
  },
  {
    "loss": 0.024520005285739898,
    "grad_norm": 1.3515625,
    "learning_rate": 1.0019607843137255e-05,
    "entropy": 0.027622674778103828,
    "num_tokens": 321643.0,
    "mean_token_accuracy": 0.9881017684936524,
    "epoch": 1.5,
    "step": 510
  },
  {
    "loss": 0.022774545848369597,
    "grad_norm": 0.96875,
    "learning_rate": 9.921568627450981e-06,
    "entropy": 0.027344943769276143,
    "num_tokens": 324896.0,
    "mean_token_accuracy": 0.9891824662685395,
    "epoch": 1.5147058823529411,
    "step": 515
  },
  {
    "loss": 0.026902440190315246,
    "grad_norm": 1.34375,
    "learning_rate": 9.823529411764706e-06,
    "entropy": 0.03210813459008932,
    "num_tokens": 327953.0,
    "mean_token_accuracy": 0.9872022986412048,
    "epoch": 1.5294117647058822,
    "step": 520
  },
  {
    "loss": 0.02404342144727707,
    "grad_norm": 1.34375,
    "learning_rate": 9.725490196078432e-06,
    "entropy": 0.03047515023499727,
    "num_tokens": 331110.0,
    "mean_token_accuracy": 0.9887873768806458,
    "epoch": 1.5441176470588234,
    "step": 525
  },
  {
    "loss": 0.022797247767448424,
    "grad_norm": 1.2265625,
    "learning_rate": 9.627450980392158e-06,
    "entropy": 0.03160413987934589,
    "num_tokens": 334226.0,
    "mean_token_accuracy": 0.9889481067657471,
    "epoch": 1.5588235294117647,
    "step": 530
  },
  {
    "loss": 0.023706996440887453,
    "grad_norm": 1.078125,
    "learning_rate": 9.529411764705882e-06,
    "entropy": 0.0283035334199667,
    "num_tokens": 337371.0,
    "mean_token_accuracy": 0.9890589594841004,
    "epoch": 1.5735294117647058,
    "step": 535
  },
  {
    "loss": 0.023340512812137604,
    "grad_norm": 2.5625,
    "learning_rate": 9.431372549019608e-06,
    "entropy": 0.029125319607555867,
    "num_tokens": 340563.0,
    "mean_token_accuracy": 0.9882973015308381,
    "epoch": 1.5882352941176472,
    "step": 540
  },
  {
    "loss": 0.025814762711524962,
    "grad_norm": 1.8046875,
    "learning_rate": 9.333333333333334e-06,
    "entropy": 0.029474343173205853,
    "num_tokens": 343715.0,
    "mean_token_accuracy": 0.9888520836830139,
    "epoch": 1.6029411764705883,
    "step": 545
  },
  {
    "loss": 0.024609880149364473,
    "grad_norm": 1.359375,
    "learning_rate": 9.23529411764706e-06,
    "entropy": 0.02793533504009247,
    "num_tokens": 346928.0,
    "mean_token_accuracy": 0.9896528542041778,
    "epoch": 1.6176470588235294,
    "step": 550
  },
  {
    "loss": 0.024091285467147828,
    "grad_norm": 1.171875,
    "learning_rate": 9.137254901960785e-06,
    "entropy": 0.03169798478484154,
    "num_tokens": 349942.0,
    "mean_token_accuracy": 0.9896469593048096,
    "epoch": 1.6323529411764706,
    "step": 555
  },
  {
    "loss": 0.022402273118495943,
    "grad_norm": 1.3203125,
    "learning_rate": 9.03921568627451e-06,
    "entropy": 0.02854564245790243,
    "num_tokens": 353063.0,
    "mean_token_accuracy": 0.9894876420497895,
    "epoch": 1.6470588235294117,
    "step": 560
  },
  {
    "loss": 0.023489847779273987,
    "grad_norm": 1.8359375,
    "learning_rate": 8.941176470588237e-06,
    "entropy": 0.028600608371198176,
    "num_tokens": 356180.0,
    "mean_token_accuracy": 0.9890201330184937,
    "epoch": 1.6617647058823528,
    "step": 565
  },
  {
    "loss": 0.02147035002708435,
    "grad_norm": 1.0859375,
    "learning_rate": 8.843137254901961e-06,
    "entropy": 0.026650307327508928,
    "num_tokens": 359351.0,
    "mean_token_accuracy": 0.9898578941822052,
    "epoch": 1.6764705882352942,
    "step": 570
  },
  {
    "loss": 0.022052311897277833,
    "grad_norm": 1.3515625,
    "learning_rate": 8.745098039215687e-06,
    "entropy": 0.027873093821108343,
    "num_tokens": 362470.0,
    "mean_token_accuracy": 0.989058256149292,
    "epoch": 1.6911764705882353,
    "step": 575
  },
  {
    "loss": 0.023864805698394775,
    "grad_norm": 1.5859375,
    "learning_rate": 8.647058823529413e-06,
    "entropy": 0.027629780396819115,
    "num_tokens": 365614.0,
    "mean_token_accuracy": 0.9894056558609009,
    "epoch": 1.7058823529411766,
    "step": 580
  },
  {
    "loss": 0.027744096517562867,
    "grad_norm": 1.6875,
    "learning_rate": 8.549019607843138e-06,
    "entropy": 0.028794774785637856,
    "num_tokens": 368805.0,
    "mean_token_accuracy": 0.9880473792552948,
    "epoch": 1.7205882352941178,
    "step": 585
  },
  {
    "loss": 0.021863000094890596,
    "grad_norm": 1.1796875,
    "learning_rate": 8.450980392156864e-06,
    "entropy": 0.028252063691616057,
    "num_tokens": 371947.0,
    "mean_token_accuracy": 0.9904429137706756,
    "epoch": 1.7352941176470589,
    "step": 590
  },
  {
    "loss": 0.021520544588565827,
    "grad_norm": 1.3203125,
    "learning_rate": 8.35294117647059e-06,
    "entropy": 0.028264945745468138,
    "num_tokens": 375103.0,
    "mean_token_accuracy": 0.9904776751995087,
    "epoch": 1.75,
    "step": 595
  },
  {
    "loss": 0.026353719830513,
    "grad_norm": 1.1953125,
    "learning_rate": 8.254901960784314e-06,
    "entropy": 0.027113928645849227,
    "num_tokens": 378317.0,
    "mean_token_accuracy": 0.9884898960590363,
    "epoch": 1.7647058823529411,
    "step": 600
  },
  {
    "loss": 0.026097461581230164,
    "grad_norm": 1.421875,
    "learning_rate": 8.15686274509804e-06,
    "entropy": 0.028313294425606726,
    "num_tokens": 381417.0,
    "mean_token_accuracy": 0.9879869103431702,
    "epoch": 1.7794117647058822,
    "step": 605
  },
  {
    "loss": 0.02049378156661987,
    "grad_norm": 1.0546875,
    "learning_rate": 8.058823529411766e-06,
    "entropy": 0.026570411399006844,
    "num_tokens": 384632.0,
    "mean_token_accuracy": 0.9887495577335358,
    "epoch": 1.7941176470588234,
    "step": 610
  },
  {
    "loss": 0.022221173346042632,
    "grad_norm": 1.1171875,
    "learning_rate": 7.96078431372549e-06,
    "entropy": 0.02754255346953869,
    "num_tokens": 387836.0,
    "mean_token_accuracy": 0.9899809181690216,
    "epoch": 1.8088235294117647,
    "step": 615
  },
  {
    "loss": 0.023856499791145326,
    "grad_norm": 1.3203125,
    "learning_rate": 7.862745098039217e-06,
    "entropy": 0.031241112016141416,
    "num_tokens": 390887.0,
    "mean_token_accuracy": 0.9897979915142059,
    "epoch": 1.8235294117647058,
    "step": 620
  },
  {
    "loss": 0.0225734680891037,
    "grad_norm": 1.40625,
    "learning_rate": 7.764705882352941e-06,
    "entropy": 0.02798519879579544,
    "num_tokens": 394027.0,
    "mean_token_accuracy": 0.9890839040279389,
    "epoch": 1.8382352941176472,
    "step": 625
  },
  {
    "loss": 0.022729092836380006,
    "grad_norm": 1.25,
    "learning_rate": 7.666666666666667e-06,
    "entropy": 0.02719390895217657,
    "num_tokens": 397202.0,
    "mean_token_accuracy": 0.9886514127254487,
    "epoch": 1.8529411764705883,
    "step": 630
  },
  {
    "loss": 0.021688875555992127,
    "grad_norm": 1.0859375,
    "learning_rate": 7.5686274509803925e-06,
    "entropy": 0.027222988195717335,
    "num_tokens": 400378.0,
    "mean_token_accuracy": 0.9908071339130402,
    "epoch": 1.8676470588235294,
    "step": 635
  },
  {
    "loss": 0.023884420096874238,
    "grad_norm": 1.4296875,
    "learning_rate": 7.4705882352941185e-06,
    "entropy": 0.028057356551289558,
    "num_tokens": 403503.0,
    "mean_token_accuracy": 0.9900456726551056,
    "epoch": 1.8823529411764706,
    "step": 640
  },
  {
    "loss": 0.020375268161296846,
    "grad_norm": 1.6953125,
    "learning_rate": 7.372549019607845e-06,
    "entropy": 0.02543655373156071,
    "num_tokens": 406768.0,
    "mean_token_accuracy": 0.9911065042018891,
    "epoch": 1.8970588235294117,
    "step": 645
  },
  {
    "loss": 0.020015493035316467,
    "grad_norm": 1.7421875,
    "learning_rate": 7.274509803921569e-06,
    "entropy": 0.027230485714972018,
    "num_tokens": 409875.0,
    "mean_token_accuracy": 0.9906234502792358,
    "epoch": 1.9117647058823528,
    "step": 650
  },
  {
    "loss": 0.022530680894851683,
    "grad_norm": 1.421875,
    "learning_rate": 7.176470588235295e-06,
    "entropy": 0.028223772905766963,
    "num_tokens": 412987.0,
    "mean_token_accuracy": 0.9903216242790223,
    "epoch": 1.9264705882352942,
    "step": 655
  },
  {
    "loss": 0.021129874885082243,
    "grad_norm": 1.109375,
    "learning_rate": 7.07843137254902e-06,
    "entropy": 0.02674291282892227,
    "num_tokens": 416181.0,
    "mean_token_accuracy": 0.9886639952659607,
    "epoch": 1.9411764705882353,
    "step": 660
  },
  {
    "loss": 0.021244224905967713,
    "grad_norm": 0.9453125,
    "learning_rate": 6.9803921568627454e-06,
    "entropy": 0.028005971759557723,
    "num_tokens": 419323.0,
    "mean_token_accuracy": 0.9905200719833374,
    "epoch": 1.9558823529411766,
    "step": 665
  },
  {
    "loss": 0.022309188544750214,
    "grad_norm": 1.375,
    "learning_rate": 6.8823529411764715e-06,
    "entropy": 0.027272411435842515,
    "num_tokens": 422484.0,
    "mean_token_accuracy": 0.9878733932971955,
    "epoch": 1.9705882352941178,
    "step": 670
  },
  {
    "loss": 0.022459632158279418,
    "grad_norm": 1.203125,
    "learning_rate": 6.784313725490197e-06,
    "entropy": 0.026817415095865726,
    "num_tokens": 425583.0,
    "mean_token_accuracy": 0.9908780753612518,
    "epoch": 1.9852941176470589,
    "step": 675
  },
  {
    "loss": 0.021811096370220183,
    "grad_norm": 1.265625,
    "learning_rate": 6.686274509803922e-06,
    "entropy": 0.026038615591824056,
    "num_tokens": 428736.0,
    "mean_token_accuracy": 0.9897907853126526,
    "epoch": 2.0,
    "step": 680
  },
  {
    "loss": 0.019171090424060823,
    "grad_norm": 1.078125,
    "learning_rate": 6.588235294117647e-06,
    "entropy": 0.02475190218538046,
    "num_tokens": 431976.0,
    "mean_token_accuracy": 0.989355844259262,
    "epoch": 2.014705882352941,
    "step": 685
  },
  {
    "loss": 0.023474155366420744,
    "grad_norm": 1.1640625,
    "learning_rate": 6.490196078431373e-06,
    "entropy": 0.026115396432578562,
    "num_tokens": 435142.0,
    "mean_token_accuracy": 0.9885824680328369,
    "epoch": 2.0294117647058822,
    "step": 690
  },
  {
    "loss": 0.020176805555820465,
    "grad_norm": 1.0,
    "learning_rate": 6.3921568627450984e-06,
    "entropy": 0.026907235756516455,
    "num_tokens": 438259.0,
    "mean_token_accuracy": 0.9919745445251464,
    "epoch": 2.0441176470588234,
    "step": 695
  },
  {
    "loss": 0.022543656826019286,
    "grad_norm": 1.34375,
    "learning_rate": 6.294117647058824e-06,
    "entropy": 0.02749718502163887,
    "num_tokens": 441366.0,
    "mean_token_accuracy": 0.9880188047885895,
    "epoch": 2.0588235294117645,
    "step": 700
  },
  {
    "loss": 0.019685085117816924,
    "grad_norm": 0.9453125,
    "learning_rate": 6.19607843137255e-06,
    "entropy": 0.024849089048802852,
    "num_tokens": 444474.0,
    "mean_token_accuracy": 0.9906105160713196,
    "epoch": 2.073529411764706,
    "step": 705
  },
  {
    "loss": 0.020225000381469727,
    "grad_norm": 1.234375,
    "learning_rate": 6.098039215686276e-06,
    "entropy": 0.023934758827090265,
    "num_tokens": 447652.0,
    "mean_token_accuracy": 0.9896179974079132,
    "epoch": 2.088235294117647,
    "step": 710
  },
  {
    "loss": 0.02128472626209259,
    "grad_norm": 1.078125,
    "learning_rate": 6e-06,
    "entropy": 0.02389440070837736,
    "num_tokens": 450833.0,
    "mean_token_accuracy": 0.9899099349975586,
    "epoch": 2.1029411764705883,
    "step": 715
  },
  {
    "loss": 0.021367147564888,
    "grad_norm": 1.6015625,
    "learning_rate": 5.901960784313726e-06,
    "entropy": 0.02620517127215862,
    "num_tokens": 453949.0,
    "mean_token_accuracy": 0.988726532459259,
    "epoch": 2.1176470588235294,
    "step": 720
  },
  {
    "loss": 0.01960753947496414,
    "grad_norm": 1.03125,
    "learning_rate": 5.803921568627452e-06,
    "entropy": 0.02435927651822567,
    "num_tokens": 457147.0,
    "mean_token_accuracy": 0.9908569097518921,
    "epoch": 2.1323529411764706,
    "step": 725
  },
  {
    "loss": 0.022167882323265074,
    "grad_norm": 1.234375,
    "learning_rate": 5.705882352941177e-06,
    "entropy": 0.02521121110767126,
    "num_tokens": 460308.0,
    "mean_token_accuracy": 0.9891940593719483,
    "epoch": 2.1470588235294117,
    "step": 730
  },
  {
    "loss": 0.0210279181599617,
    "grad_norm": 1.359375,
    "learning_rate": 5.607843137254903e-06,
    "entropy": 0.02500821612775326,
    "num_tokens": 463449.0,
    "mean_token_accuracy": 0.9884547054767608,
    "epoch": 2.161764705882353,
    "step": 735
  },
  {
    "loss": 0.01987575888633728,
    "grad_norm": 1.03125,
    "learning_rate": 5.509803921568628e-06,
    "entropy": 0.025977463461458683,
    "num_tokens": 466590.0,
    "mean_token_accuracy": 0.9888093769550323,
    "epoch": 2.176470588235294,
    "step": 740
  },
  {
    "loss": 0.019111356139183043,
    "grad_norm": 1.25,
    "learning_rate": 5.411764705882353e-06,
    "entropy": 0.02638601940125227,
    "num_tokens": 469726.0,
    "mean_token_accuracy": 0.9917258858680725,
    "epoch": 2.1911764705882355,
    "step": 745
  },
  {
    "loss": 0.020354922115802764,
    "grad_norm": 1.171875,
    "learning_rate": 5.313725490196079e-06,
    "entropy": 0.026662386767566205,
    "num_tokens": 472853.0,
    "mean_token_accuracy": 0.99064000248909,
    "epoch": 2.2058823529411766,
    "step": 750
  },
  {
    "loss": 0.01959734410047531,
    "grad_norm": 0.80859375,
    "learning_rate": 5.2156862745098044e-06,
    "entropy": 0.02579411044716835,
    "num_tokens": 476008.0,
    "mean_token_accuracy": 0.9904728531837463,
    "epoch": 2.2205882352941178,
    "step": 755
  },
  {
    "loss": 0.020466303825378417,
    "grad_norm": 1.3828125,
    "learning_rate": 5.11764705882353e-06,
    "entropy": 0.0256651122123003,
    "num_tokens": 479150.0,
    "mean_token_accuracy": 0.9903539717197418,
    "epoch": 2.235294117647059,
    "step": 760
  },
  {
    "loss": 0.01983775794506073,
    "grad_norm": 0.99609375,
    "learning_rate": 5.019607843137255e-06,
    "entropy": 0.02584236618131399,
    "num_tokens": 482321.0,
    "mean_token_accuracy": 0.9914842903614044,
    "epoch": 2.25,
    "step": 765
  },
  {
    "loss": 0.020100761950016022,
    "grad_norm": 1.046875,
    "learning_rate": 4.921568627450981e-06,
    "entropy": 0.02499296572059393,
    "num_tokens": 485510.0,
    "mean_token_accuracy": 0.991219836473465,
    "epoch": 2.264705882352941,
    "step": 770
  },
  {
    "loss": 0.02088477313518524,
    "grad_norm": 1.328125,
    "learning_rate": 4.823529411764706e-06,
    "entropy": 0.024959737621247768,
    "num_tokens": 488698.0,
    "mean_token_accuracy": 0.9898148238658905,
    "epoch": 2.2794117647058822,
    "step": 775
  },
  {
    "loss": 0.0195361465215683,
    "grad_norm": 1.2421875,
    "learning_rate": 4.725490196078431e-06,
    "entropy": 0.023672481067478657,
    "num_tokens": 491906.0,
    "mean_token_accuracy": 0.9900302290916443,
    "epoch": 2.2941176470588234,
    "step": 780
  },
  {
    "loss": 0.019702821969985962,
    "grad_norm": 1.265625,
    "learning_rate": 4.627450980392157e-06,
    "entropy": 0.025737580843269825,
    "num_tokens": 494997.0,
    "mean_token_accuracy": 0.9905776441097259,
    "epoch": 2.3088235294117645,
    "step": 785
  },
  {
    "loss": 0.018527360260486604,
    "grad_norm": 1.078125,
    "learning_rate": 4.529411764705883e-06,
    "entropy": 0.02454463895410299,
    "num_tokens": 498138.0,
    "mean_token_accuracy": 0.9910318195819855,
    "epoch": 2.323529411764706,
    "step": 790
  },
  {
    "loss": 0.018923106789588928,
    "grad_norm": 1.359375,
    "learning_rate": 4.431372549019608e-06,
    "entropy": 0.0245100449770689,
    "num_tokens": 501316.0,
    "mean_token_accuracy": 0.9911953806877136,
    "epoch": 2.338235294117647,
    "step": 795
  },
  {
    "loss": 0.01874026209115982,
    "grad_norm": 1.140625,
    "learning_rate": 4.333333333333334e-06,
    "entropy": 0.023334310948848726,
    "num_tokens": 504533.0,
    "mean_token_accuracy": 0.9910171329975128,
    "epoch": 2.3529411764705883,
    "step": 800
  },
  {
    "loss": 0.022160655260086058,
    "grad_norm": 1.2578125,
    "learning_rate": 4.235294117647059e-06,
    "entropy": 0.026187057420611382,
    "num_tokens": 507616.0,
    "mean_token_accuracy": 0.9876076638698578,
    "epoch": 2.3676470588235294,
    "step": 805
  },
  {
    "loss": 0.018640576303005217,
    "grad_norm": 1.03125,
    "learning_rate": 4.137254901960784e-06,
    "entropy": 0.02308085039258003,
    "num_tokens": 510793.0,
    "mean_token_accuracy": 0.9908162891864777,
    "epoch": 2.3823529411764706,
    "step": 810
  },
  {
    "loss": 0.019237047433853148,
    "grad_norm": 0.8984375,
    "learning_rate": 4.03921568627451e-06,
    "entropy": 0.024417817965149878,
    "num_tokens": 513995.0,
    "mean_token_accuracy": 0.9902299284934998,
    "epoch": 2.3970588235294117,
    "step": 815
  },
  {
    "loss": 0.020626239478588104,
    "grad_norm": 1.1640625,
    "learning_rate": 3.941176470588236e-06,
    "entropy": 0.025944224931299685,
    "num_tokens": 517128.0,
    "mean_token_accuracy": 0.9896773338317871,
    "epoch": 2.411764705882353,
    "step": 820
  },
  {
    "loss": 0.018906430900096895,
    "grad_norm": 1.0546875,
    "learning_rate": 3.843137254901962e-06,
    "entropy": 0.02529167104512453,
    "num_tokens": 520219.0,
    "mean_token_accuracy": 0.9905548214912414,
    "epoch": 2.426470588235294,
    "step": 825
  },
  {
    "loss": 0.01989607810974121,
    "grad_norm": 1.171875,
    "learning_rate": 3.7450980392156865e-06,
    "entropy": 0.025429282896220685,
    "num_tokens": 523368.0,
    "mean_token_accuracy": 0.9910161614418029,
    "epoch": 2.4411764705882355,
    "step": 830
  },
  {
    "loss": 0.019511505961418152,
    "grad_norm": 1.046875,
    "learning_rate": 3.6470588235294117e-06,
    "entropy": 0.026134114153683184,
    "num_tokens": 526516.0,
    "mean_token_accuracy": 0.9898114144802094,
    "epoch": 2.4558823529411766,
    "step": 835
  },
  {
    "loss": 0.018582092225551607,
    "grad_norm": 1.1328125,
    "learning_rate": 3.5490196078431378e-06,
    "entropy": 0.02343358173966408,
    "num_tokens": 529660.0,
    "mean_token_accuracy": 0.9904271245002747,
    "epoch": 2.4705882352941178,
    "step": 840
  },
  {
    "loss": 0.020261451601982117,
    "grad_norm": 1.453125,
    "learning_rate": 3.450980392156863e-06,
    "entropy": 0.024460323713719846,
    "num_tokens": 532778.0,
    "mean_token_accuracy": 0.9899402976036071,
    "epoch": 2.485294117647059,
    "step": 845
  },
  {
    "loss": 0.020383948087692262,
    "grad_norm": 1.1796875,
    "learning_rate": 3.352941176470588e-06,
    "entropy": 0.024987665377557276,
    "num_tokens": 535932.0,
    "mean_token_accuracy": 0.9898059248924256,
    "epoch": 2.5,
    "step": 850
  },
  {
    "loss": 0.019448164105415344,
    "grad_norm": 1.3515625,
    "learning_rate": 3.2549019607843143e-06,
    "entropy": 0.02465162370353937,
    "num_tokens": 539037.0,
    "mean_token_accuracy": 0.9913235783576966,
    "epoch": 2.514705882352941,
    "step": 855
  },
  {
    "loss": 0.018925553560256957,
    "grad_norm": 1.046875,
    "learning_rate": 3.1568627450980395e-06,
    "entropy": 0.025184641405940057,
    "num_tokens": 542197.0,
    "mean_token_accuracy": 0.991470605134964,
    "epoch": 2.5294117647058822,
    "step": 860
  },
  {
    "loss": 0.01913969814777374,
    "grad_norm": 1.0546875,
    "learning_rate": 3.058823529411765e-06,
    "entropy": 0.024113286659121512,
    "num_tokens": 545387.0,
    "mean_token_accuracy": 0.9914486467838287,
    "epoch": 2.5441176470588234,
    "step": 865
  },
  {
    "loss": 0.018765930831432343,
    "grad_norm": 1.0703125,
    "learning_rate": 2.9607843137254903e-06,
    "entropy": 0.02413007989525795,
    "num_tokens": 548534.0,
    "mean_token_accuracy": 0.9907777428627014,
    "epoch": 2.5588235294117645,
    "step": 870
  },
  {
    "loss": 0.019279350340366364,
    "grad_norm": 2.1875,
    "learning_rate": 2.8627450980392155e-06,
    "entropy": 0.024522659182548524,
    "num_tokens": 551721.0,
    "mean_token_accuracy": 0.9905555963516235,
    "epoch": 2.5735294117647056,
    "step": 875
  },
  {
    "loss": 0.019660860300064087,
    "grad_norm": 1.1015625,
    "learning_rate": 2.7647058823529416e-06,
    "entropy": 0.024852845631539822,
    "num_tokens": 554912.0,
    "mean_token_accuracy": 0.9898727238178253,
    "epoch": 2.588235294117647,
    "step": 880
  },
  {
    "loss": 0.018780362606048585,
    "grad_norm": 1.0703125,
    "learning_rate": 2.666666666666667e-06,
    "entropy": 0.02551023568958044,
    "num_tokens": 558028.0,
    "mean_token_accuracy": 0.99192915558815,
    "epoch": 2.6029411764705883,
    "step": 885
  },
  {
    "loss": 0.01949601024389267,
    "grad_norm": 1.1953125,
    "learning_rate": 2.568627450980392e-06,
    "entropy": 0.025155650451779366,
    "num_tokens": 561189.0,
    "mean_token_accuracy": 0.990712708234787,
    "epoch": 2.6176470588235294,
    "step": 890
  },
  {
    "loss": 0.019716159999370576,
    "grad_norm": 1.296875,
    "learning_rate": 2.470588235294118e-06,
    "entropy": 0.024883992783725262,
    "num_tokens": 564374.0,
    "mean_token_accuracy": 0.989579439163208,
    "epoch": 2.6323529411764706,
    "step": 895
  },
  {
    "loss": 0.017295162379741668,
    "grad_norm": 0.97265625,
    "learning_rate": 2.3725490196078433e-06,
    "entropy": 0.0241273645311594,
    "num_tokens": 567550.0,
    "mean_token_accuracy": 0.9934020042419434,
    "epoch": 2.6470588235294117,
    "step": 900
  },
  {
    "loss": 0.020695842802524567,
    "grad_norm": 1.109375,
    "learning_rate": 2.274509803921569e-06,
    "entropy": 0.02697849553078413,
    "num_tokens": 570611.0,
    "mean_token_accuracy": 0.9914706110954284,
    "epoch": 2.661764705882353,
    "step": 905
  },
  {
    "loss": 0.017908445000648497,
    "grad_norm": 1.2734375,
    "learning_rate": 2.176470588235294e-06,
    "entropy": 0.022997986152768136,
    "num_tokens": 573767.0,
    "mean_token_accuracy": 0.9898150980472564,
    "epoch": 2.6764705882352944,
    "step": 910
  },
  {
    "loss": 0.020641934871673585,
    "grad_norm": 1.4921875,
    "learning_rate": 2.07843137254902e-06,
    "entropy": 0.027346356958150863,
    "num_tokens": 576830.0,
    "mean_token_accuracy": 0.9897843182086945,
    "epoch": 2.6911764705882355,
    "step": 915
  },
  {
    "loss": 0.019691270589828492,
    "grad_norm": 1.2890625,
    "learning_rate": 1.980392156862745e-06,
    "entropy": 0.023718219250440598,
    "num_tokens": 580065.0,
    "mean_token_accuracy": 0.9901076138019562,
    "epoch": 2.7058823529411766,
    "step": 920
  },
  {
    "loss": 0.02009253352880478,
    "grad_norm": 1.2109375,
    "learning_rate": 1.8823529411764707e-06,
    "entropy": 0.024860053882002832,
    "num_tokens": 583200.0,
    "mean_token_accuracy": 0.9894306361675262,
    "epoch": 2.7205882352941178,
    "step": 925
  },
  {
    "loss": 0.019820311665534975,
    "grad_norm": 1.1796875,
    "learning_rate": 1.7843137254901963e-06,
    "entropy": 0.02641481179744005,
    "num_tokens": 586247.0,
    "mean_token_accuracy": 0.9888152658939362,
    "epoch": 2.735294117647059,
    "step": 930
  },
  {
    "loss": 0.020238989591598512,
    "grad_norm": 1.34375,
    "learning_rate": 1.6862745098039217e-06,
    "entropy": 0.025426279939711093,
    "num_tokens": 589348.0,
    "mean_token_accuracy": 0.9893324971199036,
    "epoch": 2.75,
    "step": 935
  },
  {
    "loss": 0.020529073476791383,
    "grad_norm": 1.1953125,
    "learning_rate": 1.5882352941176472e-06,
    "entropy": 0.025489212945103645,
    "num_tokens": 592483.0,
    "mean_token_accuracy": 0.9883848607540131,
    "epoch": 2.764705882352941,
    "step": 940
  },
  {
    "loss": 0.019503119587898254,
    "grad_norm": 1.875,
    "learning_rate": 1.4901960784313726e-06,
    "entropy": 0.025844238512218,
    "num_tokens": 595654.0,
    "mean_token_accuracy": 0.9898752987384796,
    "epoch": 2.7794117647058822,
    "step": 945
  },
  {
    "loss": 0.020725423097610475,
    "grad_norm": 1.3359375,
    "learning_rate": 1.3921568627450982e-06,
    "entropy": 0.025542815588414668,
    "num_tokens": 598757.0,
    "mean_token_accuracy": 0.9899684190750122,
    "epoch": 2.7941176470588234,
    "step": 950
  },
  {
    "loss": 0.020795242488384248,
    "grad_norm": 1.1640625,
    "learning_rate": 1.2941176470588237e-06,
    "entropy": 0.023506213910877705,
    "num_tokens": 602069.0,
    "mean_token_accuracy": 0.9894281327724457,
    "epoch": 2.8088235294117645,
    "step": 955
  },
  {
    "loss": 0.01915638893842697,
    "grad_norm": 1.21875,
    "learning_rate": 1.196078431372549e-06,
    "entropy": 0.024655142053961753,
    "num_tokens": 605286.0,
    "mean_token_accuracy": 0.9900248169898986,
    "epoch": 2.8235294117647056,
    "step": 960
  },
  {
    "loss": 0.01975841522216797,
    "grad_norm": 1.1484375,
    "learning_rate": 1.0980392156862745e-06,
    "entropy": 0.025551106408238412,
    "num_tokens": 608374.0,
    "mean_token_accuracy": 0.9892638444900512,
    "epoch": 2.838235294117647,
    "step": 965
  },
  {
    "loss": 0.020852866768836974,
    "grad_norm": 1.2421875,
    "learning_rate": 1.0000000000000002e-06,
    "entropy": 0.02480896282941103,
    "num_tokens": 611577.0,
    "mean_token_accuracy": 0.9892595648765564,
    "epoch": 2.8529411764705883,
    "step": 970
  },
  {
    "loss": 0.019326749444007873,
    "grad_norm": 0.875,
    "learning_rate": 9.019607843137256e-07,
    "entropy": 0.02385783474892378,
    "num_tokens": 614761.0,
    "mean_token_accuracy": 0.9904800593852997,
    "epoch": 2.8676470588235294,
    "step": 975
  },
  {
    "loss": 0.019405061006546022,
    "grad_norm": 1.1875,
    "learning_rate": 8.039215686274511e-07,
    "entropy": 0.026029090210795403,
    "num_tokens": 617870.0,
    "mean_token_accuracy": 0.9896216452121734,
    "epoch": 2.8823529411764706,
    "step": 980
  },
  {
    "loss": 0.019337351620197295,
    "grad_norm": 0.9921875,
    "learning_rate": 7.058823529411766e-07,
    "entropy": 0.026062553003430366,
    "num_tokens": 620943.0,
    "mean_token_accuracy": 0.9899002552032471,
    "epoch": 2.8970588235294117,
    "step": 985
  },
  {
    "loss": 0.01972263157367706,
    "grad_norm": 1.5625,
    "learning_rate": 6.07843137254902e-07,
    "entropy": 0.025324805453419686,
    "num_tokens": 624094.0,
    "mean_token_accuracy": 0.9898600101470947,
    "epoch": 2.911764705882353,
    "step": 990
  },
  {
    "loss": 0.017833781242370606,
    "grad_norm": 1.2265625,
    "learning_rate": 5.098039215686275e-07,
    "entropy": 0.023284821771085262,
    "num_tokens": 627253.0,
    "mean_token_accuracy": 0.9910983681678772,
    "epoch": 2.9264705882352944,
    "step": 995
  },
  {
    "loss": 0.020137375593185423,
    "grad_norm": 1.3984375,
    "learning_rate": 4.1176470588235295e-07,
    "entropy": 0.024203809909522533,
    "num_tokens": 630427.0,
    "mean_token_accuracy": 0.9907480180263519,
    "epoch": 2.9411764705882355,
    "step": 1000
  },
  {
    "loss": 0.019109995663166048,
    "grad_norm": 1.21875,
    "learning_rate": 3.1372549019607843e-07,
    "entropy": 0.02416255362331867,
    "num_tokens": 633632.0,
    "mean_token_accuracy": 0.9915190756320953,
    "epoch": 2.9558823529411766,
    "step": 1005
  },
  {
    "loss": 0.02000269144773483,
    "grad_norm": 1.859375,
    "learning_rate": 2.1568627450980394e-07,
    "entropy": 0.024217843264341354,
    "num_tokens": 636805.0,
    "mean_token_accuracy": 0.9894875824451447,
    "epoch": 2.9705882352941178,
    "step": 1010
  },
  {
    "loss": 0.020338763296604157,
    "grad_norm": 1.546875,
    "learning_rate": 1.1764705882352942e-07,
    "entropy": 0.024258859269320966,
    "num_tokens": 639984.0,
    "mean_token_accuracy": 0.9892021059989929,
    "epoch": 2.985294117647059,
    "step": 1015
  },
  {
    "loss": 0.020995336771011352,
    "grad_norm": 1.046875,
    "learning_rate": 1.9607843137254902e-08,
    "entropy": 0.025342148169875144,
    "num_tokens": 643104.0,
    "mean_token_accuracy": 0.9887544453144074,
    "epoch": 3.0,
    "step": 1020
  },
  {
    "train_runtime": 3944.5682,
    "train_samples_per_second": 0.517,
    "train_steps_per_second": 0.259,
    "total_flos": 5056111718203392.0,
    "train_loss": 0.07629515403041652,
    "epoch": 3.0,
    "step": 1020
  }
]