{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 300,
  "global_step": 49697,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.002012224262394044,
      "grad_norm": 1.5522648096084595,
      "learning_rate": 1.9919517102615694e-06,
      "loss": 1.2489,
      "step": 100
    },
    {
      "epoch": 0.004024448524788088,
      "grad_norm": 1.59534752368927,
      "learning_rate": 4.0040241448692155e-06,
      "loss": 1.1249,
      "step": 200
    },
    {
      "epoch": 0.006036672787182132,
      "grad_norm": 1.5959556102752686,
      "learning_rate": 6.016096579476862e-06,
      "loss": 1.0698,
      "step": 300
    },
    {
      "epoch": 0.006036672787182132,
      "eval_loss": 0.9532507061958313,
      "eval_runtime": 11.1234,
      "eval_samples_per_second": 33.982,
      "eval_steps_per_second": 1.169,
      "step": 300
    },
    {
      "epoch": 0.008048897049576176,
      "grad_norm": 1.6886017322540283,
      "learning_rate": 8.028169014084509e-06,
      "loss": 1.0365,
      "step": 400
    },
    {
      "epoch": 0.01006112131197022,
      "grad_norm": 1.421373963356018,
      "learning_rate": 1.0040241448692154e-05,
      "loss": 1.0155,
      "step": 500
    },
    {
      "epoch": 0.012073345574364264,
      "grad_norm": 1.578765630722046,
      "learning_rate": 1.20523138832998e-05,
      "loss": 1.006,
      "step": 600
    },
    {
      "epoch": 0.012073345574364264,
      "eval_loss": 0.8175720572471619,
      "eval_runtime": 11.5611,
      "eval_samples_per_second": 32.696,
      "eval_steps_per_second": 1.124,
      "step": 600
    },
    {
      "epoch": 0.014085569836758306,
      "grad_norm": 1.1900346279144287,
      "learning_rate": 1.4064386317907446e-05,
      "loss": 0.9972,
      "step": 700
    },
    {
      "epoch": 0.01609779409915235,
      "grad_norm": 1.4590531587600708,
      "learning_rate": 1.607645875251509e-05,
      "loss": 0.9895,
      "step": 800
    },
    {
      "epoch": 0.018110018361546396,
      "grad_norm": 1.8518555164337158,
      "learning_rate": 1.8088531187122737e-05,
      "loss": 0.9718,
      "step": 900
    },
    {
      "epoch": 0.018110018361546396,
      "eval_loss": 0.781577467918396,
      "eval_runtime": 11.4278,
      "eval_samples_per_second": 33.077,
      "eval_steps_per_second": 1.138,
      "step": 900
    },
    {
      "epoch": 0.02012224262394044,
      "grad_norm": 1.351710319519043,
      "learning_rate": 1.999999947988626e-05,
      "loss": 0.972,
      "step": 1000
    },
    {
      "epoch": 0.022134466886334483,
      "grad_norm": 1.2841336727142334,
      "learning_rate": 1.9999770630715236e-05,
      "loss": 0.9662,
      "step": 1100
    },
    {
      "epoch": 0.024146691148728527,
      "grad_norm": 1.2296431064605713,
      "learning_rate": 1.9999125701534677e-05,
      "loss": 0.9578,
      "step": 1200
    },
    {
      "epoch": 0.024146691148728527,
      "eval_loss": 0.9337042570114136,
      "eval_runtime": 11.324,
      "eval_samples_per_second": 33.38,
      "eval_steps_per_second": 1.148,
      "step": 1200
    },
    {
      "epoch": 0.026158915411122568,
      "grad_norm": 1.3778767585754395,
      "learning_rate": 1.9998064719179408e-05,
      "loss": 0.9614,
      "step": 1300
    },
    {
      "epoch": 0.028171139673516612,
      "grad_norm": 1.3921650648117065,
      "learning_rate": 1.9996587727795803e-05,
      "loss": 0.9541,
      "step": 1400
    },
    {
      "epoch": 0.030183363935910656,
      "grad_norm": 1.3527588844299316,
      "learning_rate": 1.9994694788839924e-05,
      "loss": 0.9488,
      "step": 1500
    },
    {
      "epoch": 0.030183363935910656,
      "eval_loss": 0.7029635310173035,
      "eval_runtime": 11.506,
      "eval_samples_per_second": 32.853,
      "eval_steps_per_second": 1.13,
      "step": 1500
    },
    {
      "epoch": 0.0321955881983047,
      "grad_norm": 0.8907983303070068,
      "learning_rate": 1.9992385981074994e-05,
      "loss": 0.9418,
      "step": 1600
    },
    {
      "epoch": 0.03420781246069875,
      "grad_norm": 1.136816382408142,
      "learning_rate": 1.998966140056808e-05,
      "loss": 0.946,
      "step": 1700
    },
    {
      "epoch": 0.03622003672309279,
      "grad_norm": 1.0668370723724365,
      "learning_rate": 1.9986521160686134e-05,
      "loss": 0.9357,
      "step": 1800
    },
    {
      "epoch": 0.03622003672309279,
      "eval_loss": 0.68252032995224,
      "eval_runtime": 11.3032,
      "eval_samples_per_second": 33.442,
      "eval_steps_per_second": 1.15,
      "step": 1800
    },
    {
      "epoch": 0.038232260985486835,
      "grad_norm": 0.8517168760299683,
      "learning_rate": 1.9982965392091262e-05,
      "loss": 0.936,
      "step": 1900
    },
    {
      "epoch": 0.04024448524788088,
      "grad_norm": 1.0746815204620361,
      "learning_rate": 1.9978994242735275e-05,
      "loss": 0.9384,
      "step": 2000
    },
    {
      "epoch": 0.04225670951027492,
      "grad_norm": 1.0119695663452148,
      "learning_rate": 1.9974607877853555e-05,
      "loss": 0.9252,
      "step": 2100
    },
    {
      "epoch": 0.04225670951027492,
      "eval_loss": 0.672024130821228,
      "eval_runtime": 11.3298,
      "eval_samples_per_second": 33.363,
      "eval_steps_per_second": 1.147,
      "step": 2100
    },
    {
      "epoch": 0.04426893377266897,
      "grad_norm": 0.7535356283187866,
      "learning_rate": 1.9969806479958154e-05,
      "loss": 0.9215,
      "step": 2200
    },
    {
      "epoch": 0.04628115803506301,
      "grad_norm": 0.837115466594696,
      "learning_rate": 1.996459024883023e-05,
      "loss": 0.9229,
      "step": 2300
    },
    {
      "epoch": 0.048293382297457055,
      "grad_norm": 0.9772033095359802,
      "learning_rate": 1.995895940151171e-05,
      "loss": 0.9155,
      "step": 2400
    },
    {
      "epoch": 0.048293382297457055,
      "eval_loss": 0.6609585285186768,
      "eval_runtime": 11.8546,
      "eval_samples_per_second": 31.886,
      "eval_steps_per_second": 1.097,
      "step": 2400
    },
    {
      "epoch": 0.0503056065598511,
      "grad_norm": 0.9059876799583435,
      "learning_rate": 1.9952914172296264e-05,
      "loss": 0.9104,
      "step": 2500
    },
    {
      "epoch": 0.052317830822245136,
      "grad_norm": 1.090819239616394,
      "learning_rate": 1.9946454812719572e-05,
      "loss": 0.9056,
      "step": 2600
    },
    {
      "epoch": 0.05433005508463918,
      "grad_norm": 0.8924378156661987,
      "learning_rate": 1.9939581591548833e-05,
      "loss": 0.9102,
      "step": 2700
    },
    {
      "epoch": 0.05433005508463918,
      "eval_loss": 0.6568426489830017,
      "eval_runtime": 11.3424,
      "eval_samples_per_second": 33.326,
      "eval_steps_per_second": 1.146,
      "step": 2700
    },
    {
      "epoch": 0.056342279347033224,
      "grad_norm": 0.9142224788665771,
      "learning_rate": 1.9932294794771596e-05,
      "loss": 0.9101,
      "step": 2800
    },
    {
      "epoch": 0.05835450360942727,
      "grad_norm": 1.060359239578247,
      "learning_rate": 1.992459472558387e-05,
      "loss": 0.9013,
      "step": 2900
    },
    {
      "epoch": 0.06036672787182131,
      "grad_norm": 0.7167413234710693,
      "learning_rate": 1.9916481704377487e-05,
      "loss": 0.9002,
      "step": 3000
    },
    {
      "epoch": 0.06036672787182131,
      "eval_loss": 0.6527668237686157,
      "eval_runtime": 11.4,
      "eval_samples_per_second": 33.158,
      "eval_steps_per_second": 1.14,
      "step": 3000
    },
    {
      "epoch": 0.062378952134215356,
      "grad_norm": 0.783549427986145,
      "learning_rate": 1.9907956068726782e-05,
      "loss": 0.897,
      "step": 3100
    },
    {
      "epoch": 0.0643911763966094,
      "grad_norm": 0.9683724045753479,
      "learning_rate": 1.9899018173374552e-05,
      "loss": 0.9294,
      "step": 3200
    },
    {
      "epoch": 0.06640340065900345,
      "grad_norm": 1.1547231674194336,
      "learning_rate": 1.9889668390217284e-05,
      "loss": 0.901,
      "step": 3300
    },
    {
      "epoch": 0.06640340065900345,
      "eval_loss": 0.6419159173965454,
      "eval_runtime": 11.429,
      "eval_samples_per_second": 33.074,
      "eval_steps_per_second": 1.137,
      "step": 3300
    },
    {
      "epoch": 0.0684156249213975,
      "grad_norm": 0.81548011302948,
      "learning_rate": 1.9879907108289684e-05,
      "loss": 0.9008,
      "step": 3400
    },
    {
      "epoch": 0.07042784918379154,
      "grad_norm": 0.7857891321182251,
      "learning_rate": 1.98697347337485e-05,
      "loss": 0.8928,
      "step": 3500
    },
    {
      "epoch": 0.07244007344618558,
      "grad_norm": 0.8332715630531311,
      "learning_rate": 1.985915168985561e-05,
      "loss": 0.8889,
      "step": 3600
    },
    {
      "epoch": 0.07244007344618558,
      "eval_loss": 0.6356409192085266,
      "eval_runtime": 11.2917,
      "eval_samples_per_second": 33.476,
      "eval_steps_per_second": 1.151,
      "step": 3600
    },
    {
      "epoch": 0.07445229770857963,
      "grad_norm": 0.9201735258102417,
      "learning_rate": 1.9848158416960414e-05,
      "loss": 0.8869,
      "step": 3700
    },
    {
      "epoch": 0.07646452197097367,
      "grad_norm": 0.7852803468704224,
      "learning_rate": 1.9836755372481512e-05,
      "loss": 0.8973,
      "step": 3800
    },
    {
      "epoch": 0.07847674623336771,
      "grad_norm": 0.7758309841156006,
      "learning_rate": 1.982494303088767e-05,
      "loss": 0.8925,
      "step": 3900
    },
    {
      "epoch": 0.07847674623336771,
      "eval_loss": 0.6345422863960266,
      "eval_runtime": 11.3533,
      "eval_samples_per_second": 33.294,
      "eval_steps_per_second": 1.145,
      "step": 3900
    },
    {
      "epoch": 0.08048897049576176,
      "grad_norm": 0.9436432123184204,
      "learning_rate": 1.981272188367809e-05,
      "loss": 0.8847,
      "step": 4000
    },
    {
      "epoch": 0.0825011947581558,
      "grad_norm": 0.8394960165023804,
      "learning_rate": 1.980009243936193e-05,
      "loss": 0.8923,
      "step": 4100
    },
    {
      "epoch": 0.08451341902054985,
      "grad_norm": 0.8079524636268616,
      "learning_rate": 1.9787055223437184e-05,
      "loss": 0.8828,
      "step": 4200
    },
    {
      "epoch": 0.08451341902054985,
      "eval_loss": 0.6277508735656738,
      "eval_runtime": 11.2988,
      "eval_samples_per_second": 33.455,
      "eval_steps_per_second": 1.151,
      "step": 4200
    },
    {
      "epoch": 0.08652564328294389,
      "grad_norm": 0.8562188744544983,
      "learning_rate": 1.977361077836878e-05,
      "loss": 0.8801,
      "step": 4300
    },
    {
      "epoch": 0.08853786754533793,
      "grad_norm": 0.9642734527587891,
      "learning_rate": 1.9759759663566032e-05,
      "loss": 0.896,
      "step": 4400
    },
    {
      "epoch": 0.09055009180773198,
      "grad_norm": 0.8723398447036743,
      "learning_rate": 1.9745502455359367e-05,
      "loss": 0.8879,
      "step": 4500
    },
    {
      "epoch": 0.09055009180773198,
      "eval_loss": 0.6282201409339905,
      "eval_runtime": 11.4757,
      "eval_samples_per_second": 32.939,
      "eval_steps_per_second": 1.133,
      "step": 4500
    },
    {
      "epoch": 0.09256231607012602,
      "grad_norm": 0.8613621592521667,
      "learning_rate": 1.9730839746976314e-05,
      "loss": 0.8854,
      "step": 4600
    },
    {
      "epoch": 0.09457454033252007,
      "grad_norm": 0.7336219549179077,
      "learning_rate": 1.9715772148516855e-05,
      "loss": 0.8806,
      "step": 4700
    },
    {
      "epoch": 0.09658676459491411,
      "grad_norm": 0.7842460870742798,
      "learning_rate": 1.970030028692802e-05,
      "loss": 0.8798,
      "step": 4800
    },
    {
      "epoch": 0.09658676459491411,
      "eval_loss": 0.6203732490539551,
      "eval_runtime": 11.2931,
      "eval_samples_per_second": 33.472,
      "eval_steps_per_second": 1.151,
      "step": 4800
    },
    {
      "epoch": 0.09859898885730815,
      "grad_norm": 1.042386770248413,
      "learning_rate": 1.968442480597781e-05,
      "loss": 0.8786,
      "step": 4900
    },
    {
      "epoch": 0.1006112131197022,
      "grad_norm": 0.8358279466629028,
      "learning_rate": 1.9668146366228398e-05,
      "loss": 0.8834,
      "step": 5000
    },
    {
      "epoch": 0.10262343738209624,
      "grad_norm": 0.9129268527030945,
      "learning_rate": 1.965146564500866e-05,
      "loss": 0.8763,
      "step": 5100
    },
    {
      "epoch": 0.10262343738209624,
      "eval_loss": 0.6140510439872742,
      "eval_runtime": 11.3122,
      "eval_samples_per_second": 33.415,
      "eval_steps_per_second": 1.149,
      "step": 5100
    },
    {
      "epoch": 0.10463566164449027,
      "grad_norm": 0.9329330325126648,
      "learning_rate": 1.963438333638598e-05,
      "loss": 0.8724,
      "step": 5200
    },
    {
      "epoch": 0.10664788590688432,
      "grad_norm": 0.9156613349914551,
      "learning_rate": 1.9616900151137375e-05,
      "loss": 0.8798,
      "step": 5300
    },
    {
      "epoch": 0.10866011016927836,
      "grad_norm": 1.0988123416900635,
      "learning_rate": 1.9599016816719912e-05,
      "loss": 0.8864,
      "step": 5400
    },
    {
      "epoch": 0.10866011016927836,
      "eval_loss": 0.613735556602478,
      "eval_runtime": 11.5595,
      "eval_samples_per_second": 32.7,
      "eval_steps_per_second": 1.125,
      "step": 5400
    },
    {
      "epoch": 0.1106723344316724,
      "grad_norm": 0.9962302446365356,
      "learning_rate": 1.9580734077240467e-05,
      "loss": 0.879,
      "step": 5500
    },
    {
      "epoch": 0.11268455869406645,
      "grad_norm": 0.6542097926139832,
      "learning_rate": 1.9562052693424724e-05,
      "loss": 0.8754,
      "step": 5600
    },
    {
      "epoch": 0.11469678295646049,
      "grad_norm": 0.8420646786689758,
      "learning_rate": 1.9542973442585542e-05,
      "loss": 0.8753,
      "step": 5700
    },
    {
      "epoch": 0.11469678295646049,
      "eval_loss": 0.6112973690032959,
      "eval_runtime": 11.3099,
      "eval_samples_per_second": 33.422,
      "eval_steps_per_second": 1.149,
      "step": 5700
    },
    {
      "epoch": 0.11670900721885454,
      "grad_norm": 1.0234030485153198,
      "learning_rate": 1.9523497118590625e-05,
      "loss": 0.869,
      "step": 5800
    },
    {
      "epoch": 0.11872123148124858,
      "grad_norm": 0.7687940001487732,
      "learning_rate": 1.9503624531829463e-05,
      "loss": 0.875,
      "step": 5900
    },
    {
      "epoch": 0.12073345574364262,
      "grad_norm": 0.858860194683075,
      "learning_rate": 1.9483356509179633e-05,
      "loss": 0.8682,
      "step": 6000
    },
    {
      "epoch": 0.12073345574364262,
      "eval_loss": 0.6082560420036316,
      "eval_runtime": 11.2984,
      "eval_samples_per_second": 33.456,
      "eval_steps_per_second": 1.151,
      "step": 6000
    },
    {
      "epoch": 0.12274568000603667,
      "grad_norm": 0.7500011324882507,
      "learning_rate": 1.946269389397239e-05,
      "loss": 0.8667,
      "step": 6100
    },
    {
      "epoch": 0.12475790426843071,
      "grad_norm": 0.8498502373695374,
      "learning_rate": 1.9441637545957558e-05,
      "loss": 0.8717,
      "step": 6200
    },
    {
      "epoch": 0.12677012853082475,
      "grad_norm": 0.9230628609657288,
      "learning_rate": 1.9420188341267783e-05,
      "loss": 0.8689,
      "step": 6300
    },
    {
      "epoch": 0.12677012853082475,
      "eval_loss": 0.6047795414924622,
      "eval_runtime": 11.3052,
      "eval_samples_per_second": 33.436,
      "eval_steps_per_second": 1.15,
      "step": 6300
    },
    {
      "epoch": 0.1287823527932188,
      "grad_norm": 0.7312197089195251,
      "learning_rate": 1.939834717238207e-05,
      "loss": 0.8676,
      "step": 6400
    },
    {
      "epoch": 0.13079457705561284,
      "grad_norm": 0.7080931067466736,
      "learning_rate": 1.9376114948088634e-05,
      "loss": 0.8632,
      "step": 6500
    },
    {
      "epoch": 0.1328068013180069,
      "grad_norm": 0.793525755405426,
      "learning_rate": 1.9353492593447107e-05,
      "loss": 0.8682,
      "step": 6600
    },
    {
      "epoch": 0.1328068013180069,
      "eval_loss": 0.6011930704116821,
      "eval_runtime": 11.4543,
      "eval_samples_per_second": 33.001,
      "eval_steps_per_second": 1.135,
      "step": 6600
    },
    {
      "epoch": 0.13481902558040093,
      "grad_norm": 0.7798284292221069,
      "learning_rate": 1.9330481049750028e-05,
      "loss": 0.8636,
      "step": 6700
    },
    {
      "epoch": 0.136831249842795,
      "grad_norm": 0.9270545840263367,
      "learning_rate": 1.9307081274483698e-05,
      "loss": 0.8644,
      "step": 6800
    },
    {
      "epoch": 0.13884347410518902,
      "grad_norm": 0.7777066826820374,
      "learning_rate": 1.9283294241288315e-05,
      "loss": 0.8682,
      "step": 6900
    },
    {
      "epoch": 0.13884347410518902,
      "eval_loss": 0.6046885848045349,
      "eval_runtime": 11.4509,
      "eval_samples_per_second": 33.01,
      "eval_steps_per_second": 1.135,
      "step": 6900
    },
    {
      "epoch": 0.14085569836758308,
      "grad_norm": 0.7538514733314514,
      "learning_rate": 1.925912093991748e-05,
      "loss": 0.8654,
      "step": 7000
    },
    {
      "epoch": 0.1428679226299771,
      "grad_norm": 0.6866621375083923,
      "learning_rate": 1.9234562376197015e-05,
      "loss": 0.8497,
      "step": 7100
    },
    {
      "epoch": 0.14488014689237116,
      "grad_norm": 0.829768717288971,
      "learning_rate": 1.92096195719831e-05,
      "loss": 0.8575,
      "step": 7200
    },
    {
      "epoch": 0.14488014689237116,
      "eval_loss": 0.6001401543617249,
      "eval_runtime": 11.2516,
      "eval_samples_per_second": 33.595,
      "eval_steps_per_second": 1.155,
      "step": 7200
    },
    {
      "epoch": 0.1468923711547652,
      "grad_norm": 0.8665058016777039,
      "learning_rate": 1.9184293565119755e-05,
      "loss": 0.8612,
      "step": 7300
    },
    {
      "epoch": 0.14890459541715925,
      "grad_norm": 0.7740942239761353,
      "learning_rate": 1.9158585409395674e-05,
      "loss": 0.8596,
      "step": 7400
    },
    {
      "epoch": 0.15091681967955328,
      "grad_norm": 0.672917902469635,
      "learning_rate": 1.9132496174500364e-05,
      "loss": 0.854,
      "step": 7500
    },
    {
      "epoch": 0.15091681967955328,
      "eval_loss": 0.5939906239509583,
      "eval_runtime": 11.3101,
      "eval_samples_per_second": 33.421,
      "eval_steps_per_second": 1.149,
      "step": 7500
    },
    {
      "epoch": 0.15292904394194734,
      "grad_norm": 0.719465970993042,
      "learning_rate": 1.9106026945979627e-05,
      "loss": 0.8615,
      "step": 7600
    },
    {
      "epoch": 0.15494126820434137,
      "grad_norm": 0.7433097958564758,
      "learning_rate": 1.9079178825190416e-05,
      "loss": 0.8564,
      "step": 7700
    },
    {
      "epoch": 0.15695349246673543,
      "grad_norm": 0.7390840649604797,
      "learning_rate": 1.9051952929254983e-05,
      "loss": 0.8526,
      "step": 7800
    },
    {
      "epoch": 0.15695349246673543,
      "eval_loss": 0.5941105484962463,
      "eval_runtime": 11.2494,
      "eval_samples_per_second": 33.602,
      "eval_steps_per_second": 1.156,
      "step": 7800
    },
    {
      "epoch": 0.15896571672912946,
      "grad_norm": 0.721076488494873,
      "learning_rate": 1.902435039101442e-05,
      "loss": 0.8535,
      "step": 7900
    },
    {
      "epoch": 0.16097794099152352,
      "grad_norm": 0.7117634415626526,
      "learning_rate": 1.899637235898151e-05,
      "loss": 0.8548,
      "step": 8000
    },
    {
      "epoch": 0.16299016525391755,
      "grad_norm": 0.7325859069824219,
      "learning_rate": 1.8968019997292937e-05,
      "loss": 0.8661,
      "step": 8100
    },
    {
      "epoch": 0.16299016525391755,
      "eval_loss": 0.5943772196769714,
      "eval_runtime": 11.2277,
      "eval_samples_per_second": 33.667,
      "eval_steps_per_second": 1.158,
      "step": 8100
    },
    {
      "epoch": 0.1650023895163116,
      "grad_norm": 0.8927565217018127,
      "learning_rate": 1.893929448566085e-05,
      "loss": 0.8535,
      "step": 8200
    },
    {
      "epoch": 0.16701461377870563,
      "grad_norm": 0.9083840250968933,
      "learning_rate": 1.8910197019323782e-05,
      "loss": 0.8581,
      "step": 8300
    },
    {
      "epoch": 0.1690268380410997,
      "grad_norm": 0.7133694291114807,
      "learning_rate": 1.8880728808996906e-05,
      "loss": 0.8491,
      "step": 8400
    },
    {
      "epoch": 0.1690268380410997,
      "eval_loss": 0.5923792719841003,
      "eval_runtime": 11.2757,
      "eval_samples_per_second": 33.523,
      "eval_steps_per_second": 1.153,
      "step": 8400
    },
    {
      "epoch": 0.17103906230349372,
      "grad_norm": 0.7994174361228943,
      "learning_rate": 1.8850891080821673e-05,
      "loss": 0.8577,
      "step": 8500
    },
    {
      "epoch": 0.17305128656588778,
      "grad_norm": 1.106224775314331,
      "learning_rate": 1.8820685076314782e-05,
      "loss": 0.849,
      "step": 8600
    },
    {
      "epoch": 0.1750635108282818,
      "grad_norm": 1.0492300987243652,
      "learning_rate": 1.8790112052316523e-05,
      "loss": 0.8579,
      "step": 8700
    },
    {
      "epoch": 0.1750635108282818,
      "eval_loss": 0.6185858845710754,
      "eval_runtime": 11.3469,
      "eval_samples_per_second": 33.313,
      "eval_steps_per_second": 1.146,
      "step": 8700
    },
    {
      "epoch": 0.17707573509067587,
      "grad_norm": 0.7523091435432434,
      "learning_rate": 1.875917328093849e-05,
      "loss": 0.8548,
      "step": 8800
    },
    {
      "epoch": 0.1790879593530699,
      "grad_norm": 0.8177125453948975,
      "learning_rate": 1.8727870049510636e-05,
      "loss": 0.8512,
      "step": 8900
    },
    {
      "epoch": 0.18110018361546396,
      "grad_norm": 0.7863544821739197,
      "learning_rate": 1.869620366052772e-05,
      "loss": 0.8474,
      "step": 9000
    },
    {
      "epoch": 0.18110018361546396,
      "eval_loss": 0.5867164134979248,
      "eval_runtime": 11.2542,
      "eval_samples_per_second": 33.588,
      "eval_steps_per_second": 1.155,
      "step": 9000
    },
    {
      "epoch": 0.18311240787785799,
      "grad_norm": 0.7436131834983826,
      "learning_rate": 1.8664175431595106e-05,
      "loss": 0.8587,
      "step": 9100
    },
    {
      "epoch": 0.18512463214025204,
      "grad_norm": 0.803816020488739,
      "learning_rate": 1.8631786695373943e-05,
      "loss": 0.8455,
      "step": 9200
    },
    {
      "epoch": 0.18713685640264607,
      "grad_norm": 0.9202460050582886,
      "learning_rate": 1.8599038799525712e-05,
      "loss": 0.8513,
      "step": 9300
    },
    {
      "epoch": 0.18713685640264607,
      "eval_loss": 0.583454430103302,
      "eval_runtime": 11.2388,
      "eval_samples_per_second": 33.633,
      "eval_steps_per_second": 1.157,
      "step": 9300
    },
    {
      "epoch": 0.18914908066504013,
      "grad_norm": 0.8134105801582336,
      "learning_rate": 1.856593310665614e-05,
      "loss": 0.8499,
      "step": 9400
    },
    {
      "epoch": 0.19116130492743416,
      "grad_norm": 0.7113932967185974,
      "learning_rate": 1.8532470994258533e-05,
      "loss": 0.849,
      "step": 9500
    },
    {
      "epoch": 0.19317352918982822,
      "grad_norm": 0.8230564594268799,
      "learning_rate": 1.8498653854656424e-05,
      "loss": 0.8413,
      "step": 9600
    },
    {
      "epoch": 0.19317352918982822,
      "eval_loss": 0.5848163962364197,
      "eval_runtime": 11.2801,
      "eval_samples_per_second": 33.51,
      "eval_steps_per_second": 1.152,
      "step": 9600
    },
    {
      "epoch": 0.19518575345222225,
      "grad_norm": 0.6756404638290405,
      "learning_rate": 1.8464483094945667e-05,
      "loss": 0.8543,
      "step": 9700
    },
    {
      "epoch": 0.1971979777146163,
      "grad_norm": 0.7398785352706909,
      "learning_rate": 1.8429960136935878e-05,
      "loss": 0.8428,
      "step": 9800
    },
    {
      "epoch": 0.19921020197701034,
      "grad_norm": 0.7419747710227966,
      "learning_rate": 1.8395086417091272e-05,
      "loss": 0.8516,
      "step": 9900
    },
    {
      "epoch": 0.19921020197701034,
      "eval_loss": 0.5863896608352661,
      "eval_runtime": 11.3198,
      "eval_samples_per_second": 33.393,
      "eval_steps_per_second": 1.148,
      "step": 9900
    },
    {
      "epoch": 0.2012224262394044,
      "grad_norm": 0.8145945072174072,
      "learning_rate": 1.8359863386470904e-05,
      "loss": 0.8508,
      "step": 10000
    },
    {
      "epoch": 0.20323465050179843,
      "grad_norm": 0.7068437933921814,
      "learning_rate": 1.8324292510668278e-05,
      "loss": 0.8495,
      "step": 10100
    },
    {
      "epoch": 0.20524687476419248,
      "grad_norm": 0.7419267892837524,
      "learning_rate": 1.828837526975038e-05,
      "loss": 0.8461,
      "step": 10200
    },
    {
      "epoch": 0.20524687476419248,
      "eval_loss": 0.5834963917732239,
      "eval_runtime": 11.7842,
      "eval_samples_per_second": 32.077,
      "eval_steps_per_second": 1.103,
      "step": 10200
    },
    {
      "epoch": 0.2072590990265865,
      "grad_norm": 1.129436731338501,
      "learning_rate": 1.8252113158196078e-05,
      "loss": 0.8435,
      "step": 10300
    },
    {
      "epoch": 0.20927132328898054,
      "grad_norm": 0.6937255859375,
      "learning_rate": 1.821550768483396e-05,
      "loss": 0.8485,
      "step": 10400
    },
    {
      "epoch": 0.2112835475513746,
      "grad_norm": 0.8506975769996643,
      "learning_rate": 1.8178560372779525e-05,
      "loss": 0.8473,
      "step": 10500
    },
    {
      "epoch": 0.2112835475513746,
      "eval_loss": 0.5813661217689514,
      "eval_runtime": 11.832,
      "eval_samples_per_second": 31.947,
      "eval_steps_per_second": 1.099,
      "step": 10500
    },
    {
      "epoch": 0.21329577181376863,
      "grad_norm": 0.733964204788208,
      "learning_rate": 1.814127275937183e-05,
      "loss": 0.836,
      "step": 10600
    },
    {
      "epoch": 0.2153079960761627,
      "grad_norm": 0.7400948405265808,
      "learning_rate": 1.8103646396109523e-05,
      "loss": 0.8473,
      "step": 10700
    },
    {
      "epoch": 0.21732022033855672,
      "grad_norm": 0.9023438096046448,
      "learning_rate": 1.8065682848586266e-05,
      "loss": 0.8468,
      "step": 10800
    },
    {
      "epoch": 0.21732022033855672,
      "eval_loss": 0.5793610215187073,
      "eval_runtime": 11.234,
      "eval_samples_per_second": 33.648,
      "eval_steps_per_second": 1.157,
      "step": 10800
    },
    {
      "epoch": 0.21933244460095078,
      "grad_norm": 0.82066810131073,
      "learning_rate": 1.8027383696425613e-05,
      "loss": 0.8457,
      "step": 10900
    },
    {
      "epoch": 0.2213446688633448,
      "grad_norm": 0.6094478964805603,
      "learning_rate": 1.7988750533215276e-05,
      "loss": 0.8408,
      "step": 11000
    },
    {
      "epoch": 0.22335689312573886,
      "grad_norm": 0.7535290122032166,
      "learning_rate": 1.7949784966440823e-05,
      "loss": 0.8403,
      "step": 11100
    },
    {
      "epoch": 0.22335689312573886,
      "eval_loss": 0.578126072883606,
      "eval_runtime": 11.202,
      "eval_samples_per_second": 33.744,
      "eval_steps_per_second": 1.161,
      "step": 11100
    },
    {
      "epoch": 0.2253691173881329,
      "grad_norm": 0.7472143769264221,
      "learning_rate": 1.791048861741877e-05,
      "loss": 0.8434,
      "step": 11200
    },
    {
      "epoch": 0.22738134165052695,
      "grad_norm": 0.8236815333366394,
      "learning_rate": 1.7870863121229162e-05,
      "loss": 0.8273,
      "step": 11300
    },
    {
      "epoch": 0.22939356591292098,
      "grad_norm": 0.6772099137306213,
      "learning_rate": 1.783091012664749e-05,
      "loss": 0.8355,
      "step": 11400
    },
    {
      "epoch": 0.22939356591292098,
      "eval_loss": 0.5848814249038696,
      "eval_runtime": 11.4019,
      "eval_samples_per_second": 33.152,
      "eval_steps_per_second": 1.14,
      "step": 11400
    },
    {
      "epoch": 0.23140579017531504,
      "grad_norm": 0.7480434775352478,
      "learning_rate": 1.779063129607612e-05,
      "loss": 0.8437,
      "step": 11500
    },
    {
      "epoch": 0.23341801443770907,
      "grad_norm": 0.8341161608695984,
      "learning_rate": 1.7750028305475125e-05,
      "loss": 0.8384,
      "step": 11600
    },
    {
      "epoch": 0.23543023870010313,
      "grad_norm": 0.9399694800376892,
      "learning_rate": 1.7709102844292516e-05,
      "loss": 0.8419,
      "step": 11700
    },
    {
      "epoch": 0.23543023870010313,
      "eval_loss": 0.5769637227058411,
      "eval_runtime": 11.2547,
      "eval_samples_per_second": 33.586,
      "eval_steps_per_second": 1.155,
      "step": 11700
    },
    {
      "epoch": 0.23744246296249716,
      "grad_norm": 0.8473734855651855,
      "learning_rate": 1.7667856615393987e-05,
      "loss": 0.8346,
      "step": 11800
    },
    {
      "epoch": 0.23945468722489122,
      "grad_norm": 0.6887069940567017,
      "learning_rate": 1.7626291334992027e-05,
      "loss": 0.8381,
      "step": 11900
    },
    {
      "epoch": 0.24146691148728525,
      "grad_norm": 0.6946566700935364,
      "learning_rate": 1.758440873257454e-05,
      "loss": 0.8345,
      "step": 12000
    },
    {
      "epoch": 0.24146691148728525,
      "eval_loss": 0.5747541785240173,
      "eval_runtime": 11.4122,
      "eval_samples_per_second": 33.122,
      "eval_steps_per_second": 1.139,
      "step": 12000
    },
    {
      "epoch": 0.2434791357496793,
      "grad_norm": 0.681305468082428,
      "learning_rate": 1.7542210550832854e-05,
      "loss": 0.841,
      "step": 12100
    },
    {
      "epoch": 0.24549136001207333,
      "grad_norm": 0.8475384712219238,
      "learning_rate": 1.749969854558923e-05,
      "loss": 0.8392,
      "step": 12200
    },
    {
      "epoch": 0.2475035842744674,
      "grad_norm": 1.1652250289916992,
      "learning_rate": 1.745687448572379e-05,
      "loss": 0.8388,
      "step": 12300
    },
    {
      "epoch": 0.2475035842744674,
      "eval_loss": 0.5746700763702393,
      "eval_runtime": 11.4476,
      "eval_samples_per_second": 33.02,
      "eval_steps_per_second": 1.136,
      "step": 12300
    },
    {
      "epoch": 0.24951580853686142,
      "grad_norm": 0.7575956583023071,
      "learning_rate": 1.741374015310094e-05,
      "loss": 0.8362,
      "step": 12400
    },
    {
      "epoch": 0.25152803279925545,
      "grad_norm": 0.7489831447601318,
      "learning_rate": 1.737029734249519e-05,
      "loss": 0.836,
      "step": 12500
    },
    {
      "epoch": 0.2535402570616495,
      "grad_norm": 0.7467206716537476,
      "learning_rate": 1.732654786151651e-05,
      "loss": 0.8317,
      "step": 12600
    },
    {
      "epoch": 0.2535402570616495,
      "eval_loss": 0.5750060081481934,
      "eval_runtime": 11.2549,
      "eval_samples_per_second": 33.585,
      "eval_steps_per_second": 1.155,
      "step": 12600
    },
    {
      "epoch": 0.25555248132404357,
      "grad_norm": 0.7825116515159607,
      "learning_rate": 1.7282493530535095e-05,
      "loss": 0.8335,
      "step": 12700
    },
    {
      "epoch": 0.2575647055864376,
      "grad_norm": 0.8054665923118591,
      "learning_rate": 1.723813618260564e-05,
      "loss": 0.8332,
      "step": 12800
    },
    {
      "epoch": 0.25957692984883163,
      "grad_norm": 0.740932822227478,
      "learning_rate": 1.7193477663391055e-05,
      "loss": 0.8333,
      "step": 12900
    },
    {
      "epoch": 0.25957692984883163,
      "eval_loss": 0.574753999710083,
      "eval_runtime": 11.3005,
      "eval_samples_per_second": 33.45,
      "eval_steps_per_second": 1.15,
      "step": 12900
    },
    {
      "epoch": 0.2615891541112257,
      "grad_norm": 0.6655648350715637,
      "learning_rate": 1.714851983108567e-05,
      "loss": 0.8332,
      "step": 13000
    },
    {
      "epoch": 0.26360137837361974,
      "grad_norm": 0.8892366886138916,
      "learning_rate": 1.710326455633792e-05,
      "loss": 0.833,
      "step": 13100
    },
    {
      "epoch": 0.2656136026360138,
      "grad_norm": 0.7081986665725708,
      "learning_rate": 1.7057713722172505e-05,
      "loss": 0.8352,
      "step": 13200
    },
    {
      "epoch": 0.2656136026360138,
      "eval_loss": 0.569306492805481,
      "eval_runtime": 11.2208,
      "eval_samples_per_second": 33.688,
      "eval_steps_per_second": 1.159,
      "step": 13200
    },
    {
      "epoch": 0.2676258268984078,
      "grad_norm": 0.7726171612739563,
      "learning_rate": 1.701186922391206e-05,
      "loss": 0.8325,
      "step": 13300
    },
    {
      "epoch": 0.26963805116080186,
      "grad_norm": 0.6000068187713623,
      "learning_rate": 1.6965732969098262e-05,
      "loss": 0.8303,
      "step": 13400
    },
    {
      "epoch": 0.2716502754231959,
      "grad_norm": 0.7751488089561462,
      "learning_rate": 1.6919306877412474e-05,
      "loss": 0.8311,
      "step": 13500
    },
    {
      "epoch": 0.2716502754231959,
      "eval_loss": 0.5708428621292114,
      "eval_runtime": 11.2236,
      "eval_samples_per_second": 33.679,
      "eval_steps_per_second": 1.158,
      "step": 13500
    },
    {
      "epoch": 0.27366249968559,
      "grad_norm": 0.7674184441566467,
      "learning_rate": 1.6872592880595872e-05,
      "loss": 0.8391,
      "step": 13600
    },
    {
      "epoch": 0.275674723947984,
      "grad_norm": 0.999799370765686,
      "learning_rate": 1.6825592922369066e-05,
      "loss": 0.8215,
      "step": 13700
    },
    {
      "epoch": 0.27768694821037804,
      "grad_norm": 0.7192254662513733,
      "learning_rate": 1.6778308958351213e-05,
      "loss": 0.8304,
      "step": 13800
    },
    {
      "epoch": 0.27768694821037804,
      "eval_loss": 0.5696760416030884,
      "eval_runtime": 11.2331,
      "eval_samples_per_second": 33.65,
      "eval_steps_per_second": 1.157,
      "step": 13800
    },
    {
      "epoch": 0.2796991724727721,
      "grad_norm": 1.1758594512939453,
      "learning_rate": 1.673074295597867e-05,
      "loss": 0.8346,
      "step": 13900
    },
    {
      "epoch": 0.28171139673516615,
      "grad_norm": 0.5974677801132202,
      "learning_rate": 1.6682896894423094e-05,
      "loss": 0.824,
      "step": 14000
    },
    {
      "epoch": 0.28372362099756016,
      "grad_norm": 0.720886766910553,
      "learning_rate": 1.6634772764509128e-05,
      "loss": 0.8246,
      "step": 14100
    },
    {
      "epoch": 0.28372362099756016,
      "eval_loss": 0.5675772428512573,
      "eval_runtime": 11.3956,
      "eval_samples_per_second": 33.171,
      "eval_steps_per_second": 1.141,
      "step": 14100
    },
    {
      "epoch": 0.2857358452599542,
      "grad_norm": 0.6889091730117798,
      "learning_rate": 1.6586372568631545e-05,
      "loss": 0.8231,
      "step": 14200
    },
    {
      "epoch": 0.28774806952234827,
      "grad_norm": 0.6523007154464722,
      "learning_rate": 1.6537698320671933e-05,
      "loss": 0.8272,
      "step": 14300
    },
    {
      "epoch": 0.28976029378474233,
      "grad_norm": 0.7638033628463745,
      "learning_rate": 1.64887520459149e-05,
      "loss": 0.8306,
      "step": 14400
    },
    {
      "epoch": 0.28976029378474233,
      "eval_loss": 0.569464921951294,
      "eval_runtime": 11.248,
      "eval_samples_per_second": 33.606,
      "eval_steps_per_second": 1.156,
      "step": 14400
    },
    {
      "epoch": 0.29177251804713633,
      "grad_norm": 0.6883799433708191,
      "learning_rate": 1.6439535780963808e-05,
      "loss": 0.8327,
      "step": 14500
    },
    {
      "epoch": 0.2937847423095304,
      "grad_norm": 0.8693552017211914,
      "learning_rate": 1.6390051573656028e-05,
      "loss": 0.8299,
      "step": 14600
    },
    {
      "epoch": 0.29579696657192445,
      "grad_norm": 0.6811352372169495,
      "learning_rate": 1.634030148297773e-05,
      "loss": 0.8257,
      "step": 14700
    },
    {
      "epoch": 0.29579696657192445,
      "eval_loss": 0.5680450797080994,
      "eval_runtime": 11.451,
      "eval_samples_per_second": 33.01,
      "eval_steps_per_second": 1.135,
      "step": 14700
    },
    {
      "epoch": 0.2978091908343185,
      "grad_norm": 0.7108572721481323,
      "learning_rate": 1.629028757897821e-05,
      "loss": 0.826,
      "step": 14800
    },
    {
      "epoch": 0.2998214150967125,
      "grad_norm": 0.701524555683136,
      "learning_rate": 1.6240011942683774e-05,
      "loss": 0.8233,
      "step": 14900
    },
    {
      "epoch": 0.30183363935910656,
      "grad_norm": 0.6415804028511047,
      "learning_rate": 1.6189476666011123e-05,
      "loss": 0.8174,
      "step": 15000
    },
    {
      "epoch": 0.30183363935910656,
      "eval_loss": 0.5662389397621155,
      "eval_runtime": 11.3747,
      "eval_samples_per_second": 33.232,
      "eval_steps_per_second": 1.143,
      "step": 15000
    },
    {
      "epoch": 0.3038458636215006,
      "grad_norm": 0.593760073184967,
      "learning_rate": 1.6138683851680328e-05,
      "loss": 0.8269,
      "step": 15100
    },
    {
      "epoch": 0.3058580878838947,
      "grad_norm": 0.6708555221557617,
      "learning_rate": 1.608763561312733e-05,
      "loss": 0.8277,
      "step": 15200
    },
    {
      "epoch": 0.3078703121462887,
      "grad_norm": 0.5819365382194519,
      "learning_rate": 1.603633407441601e-05,
      "loss": 0.8237,
      "step": 15300
    },
    {
      "epoch": 0.3078703121462887,
      "eval_loss": 0.5628697872161865,
      "eval_runtime": 11.3199,
      "eval_samples_per_second": 33.393,
      "eval_steps_per_second": 1.148,
      "step": 15300
    },
    {
      "epoch": 0.30988253640868274,
      "grad_norm": 0.725537896156311,
      "learning_rate": 1.5984781370149798e-05,
      "loss": 0.8355,
      "step": 15400
    },
    {
      "epoch": 0.3118947606710768,
      "grad_norm": 0.642382800579071,
      "learning_rate": 1.5932979645382863e-05,
      "loss": 0.8292,
      "step": 15500
    },
    {
      "epoch": 0.31390698493347086,
      "grad_norm": 0.6141934394836426,
      "learning_rate": 1.588093105553086e-05,
      "loss": 0.8306,
      "step": 15600
    },
    {
      "epoch": 0.31390698493347086,
      "eval_loss": 0.5633600354194641,
      "eval_runtime": 11.3793,
      "eval_samples_per_second": 33.218,
      "eval_steps_per_second": 1.142,
      "step": 15600
    },
    {
      "epoch": 0.31591920919586486,
      "grad_norm": 0.6902384757995605,
      "learning_rate": 1.5828637766281238e-05,
      "loss": 0.8243,
      "step": 15700
    },
    {
      "epoch": 0.3179314334582589,
      "grad_norm": 0.7464603781700134,
      "learning_rate": 1.5776101953503134e-05,
      "loss": 0.8296,
      "step": 15800
    },
    {
      "epoch": 0.319943657720653,
      "grad_norm": 0.6735148429870605,
      "learning_rate": 1.5723325803156834e-05,
      "loss": 0.8168,
      "step": 15900
    },
    {
      "epoch": 0.319943657720653,
      "eval_loss": 0.5626727938652039,
      "eval_runtime": 11.3991,
      "eval_samples_per_second": 33.16,
      "eval_steps_per_second": 1.14,
      "step": 15900
    },
    {
      "epoch": 0.32195588198304703,
      "grad_norm": 0.7461301684379578,
      "learning_rate": 1.5670311511202823e-05,
      "loss": 0.8175,
      "step": 16000
    },
    {
      "epoch": 0.32396810624544103,
      "grad_norm": 0.6454249620437622,
      "learning_rate": 1.5617061283510404e-05,
      "loss": 0.8287,
      "step": 16100
    },
    {
      "epoch": 0.3259803305078351,
      "grad_norm": 0.723892331123352,
      "learning_rate": 1.5563577335765925e-05,
      "loss": 0.8256,
      "step": 16200
    },
    {
      "epoch": 0.3259803305078351,
      "eval_loss": 0.5635449290275574,
      "eval_runtime": 11.3171,
      "eval_samples_per_second": 33.401,
      "eval_steps_per_second": 1.149,
      "step": 16200
    },
    {
      "epoch": 0.32799255477022915,
      "grad_norm": 0.6277914047241211,
      "learning_rate": 1.5509861893380576e-05,
      "loss": 0.8274,
      "step": 16300
    },
    {
      "epoch": 0.3300047790326232,
      "grad_norm": 0.6103200316429138,
      "learning_rate": 1.5455917191397806e-05,
      "loss": 0.8207,
      "step": 16400
    },
    {
      "epoch": 0.3320170032950172,
      "grad_norm": 0.6216299533843994,
      "learning_rate": 1.5401745474400306e-05,
      "loss": 0.8218,
      "step": 16500
    },
    {
      "epoch": 0.3320170032950172,
      "eval_loss": 0.5613713264465332,
      "eval_runtime": 11.3097,
      "eval_samples_per_second": 33.423,
      "eval_steps_per_second": 1.149,
      "step": 16500
    },
    {
      "epoch": 0.33402922755741127,
      "grad_norm": 0.6130411624908447,
      "learning_rate": 1.5347348996416626e-05,
      "loss": 0.8193,
      "step": 16600
    },
    {
      "epoch": 0.3360414518198053,
      "grad_norm": 0.7175905704498291,
      "learning_rate": 1.5292730020827394e-05,
      "loss": 0.8205,
      "step": 16700
    },
    {
      "epoch": 0.3380536760821994,
      "grad_norm": 0.5804928541183472,
      "learning_rate": 1.5237890820271124e-05,
      "loss": 0.8256,
      "step": 16800
    },
    {
      "epoch": 0.3380536760821994,
      "eval_loss": 0.558940589427948,
      "eval_runtime": 11.507,
      "eval_samples_per_second": 32.849,
      "eval_steps_per_second": 1.13,
      "step": 16800
    },
    {
      "epoch": 0.3400659003445934,
      "grad_norm": 0.7494300007820129,
      "learning_rate": 1.518283367654966e-05,
      "loss": 0.8225,
      "step": 16900
    },
    {
      "epoch": 0.34207812460698744,
      "grad_norm": 0.5440366268157959,
      "learning_rate": 1.5127560880533242e-05,
      "loss": 0.8272,
      "step": 17000
    },
    {
      "epoch": 0.3440903488693815,
      "grad_norm": 0.5601567625999451,
      "learning_rate": 1.5072074732065165e-05,
      "loss": 0.829,
      "step": 17100
    },
    {
      "epoch": 0.3440903488693815,
      "eval_loss": 0.5592995285987854,
      "eval_runtime": 11.056,
      "eval_samples_per_second": 34.19,
      "eval_steps_per_second": 1.176,
      "step": 17100
    },
    {
      "epoch": 0.34610257313177556,
      "grad_norm": 0.6553789377212524,
      "learning_rate": 1.5016377539866106e-05,
      "loss": 0.824,
      "step": 17200
    },
    {
      "epoch": 0.34811479739416956,
      "grad_norm": 0.7243614792823792,
      "learning_rate": 1.4960471621438047e-05,
      "loss": 0.8206,
      "step": 17300
    },
    {
      "epoch": 0.3501270216565636,
      "grad_norm": 0.7584229111671448,
      "learning_rate": 1.4904359302967848e-05,
      "loss": 0.8264,
      "step": 17400
    },
    {
      "epoch": 0.3501270216565636,
      "eval_loss": 0.5582433342933655,
      "eval_runtime": 11.4613,
      "eval_samples_per_second": 32.98,
      "eval_steps_per_second": 1.134,
      "step": 17400
    },
    {
      "epoch": 0.3521392459189577,
      "grad_norm": 0.9413104057312012,
      "learning_rate": 1.4848042919230464e-05,
      "loss": 0.8082,
      "step": 17500
    },
    {
      "epoch": 0.35415147018135174,
      "grad_norm": 0.7952352166175842,
      "learning_rate": 1.4791524813491789e-05,
      "loss": 0.8138,
      "step": 17600
    },
    {
      "epoch": 0.35616369444374574,
      "grad_norm": 0.6611462235450745,
      "learning_rate": 1.4734807337411166e-05,
      "loss": 0.817,
      "step": 17700
    },
    {
      "epoch": 0.35616369444374574,
      "eval_loss": 0.5570442080497742,
      "eval_runtime": 11.4931,
      "eval_samples_per_second": 32.889,
      "eval_steps_per_second": 1.131,
      "step": 17700
    },
    {
      "epoch": 0.3581759187061398,
      "grad_norm": 0.8845998644828796,
      "learning_rate": 1.4677892850943516e-05,
      "loss": 0.8124,
      "step": 17800
    },
    {
      "epoch": 0.36018814296853385,
      "grad_norm": 0.6421878337860107,
      "learning_rate": 1.462078372224117e-05,
      "loss": 0.814,
      "step": 17900
    },
    {
      "epoch": 0.3622003672309279,
      "grad_norm": 0.6532554030418396,
      "learning_rate": 1.456348232755531e-05,
      "loss": 0.8081,
      "step": 18000
    },
    {
      "epoch": 0.3622003672309279,
      "eval_loss": 0.5557852983474731,
      "eval_runtime": 11.4159,
      "eval_samples_per_second": 33.112,
      "eval_steps_per_second": 1.139,
      "step": 18000
    },
    {
      "epoch": 0.3642125914933219,
      "grad_norm": 0.8483557105064392,
      "learning_rate": 1.4505991051137112e-05,
      "loss": 0.8137,
      "step": 18100
    },
    {
      "epoch": 0.36622481575571597,
      "grad_norm": 0.7414484620094299,
      "learning_rate": 1.4448312285138524e-05,
      "loss": 0.8095,
      "step": 18200
    },
    {
      "epoch": 0.36823704001811003,
      "grad_norm": 0.6685389280319214,
      "learning_rate": 1.4390448429512747e-05,
      "loss": 0.8108,
      "step": 18300
    },
    {
      "epoch": 0.36823704001811003,
      "eval_loss": 0.5559925436973572,
      "eval_runtime": 11.4267,
      "eval_samples_per_second": 33.081,
      "eval_steps_per_second": 1.138,
      "step": 18300
    },
    {
      "epoch": 0.3702492642805041,
      "grad_norm": 0.5973154306411743,
      "learning_rate": 1.4332401891914365e-05,
      "loss": 0.8144,
      "step": 18400
    },
    {
      "epoch": 0.3722614885428981,
      "grad_norm": 0.6153602004051208,
      "learning_rate": 1.4274175087599166e-05,
      "loss": 0.8234,
      "step": 18500
    },
    {
      "epoch": 0.37427371280529215,
      "grad_norm": 0.6379988789558411,
      "learning_rate": 1.4215770439323657e-05,
      "loss": 0.8137,
      "step": 18600
    },
    {
      "epoch": 0.37427371280529215,
      "eval_loss": 0.5545734763145447,
      "eval_runtime": 11.3444,
      "eval_samples_per_second": 33.32,
      "eval_steps_per_second": 1.146,
      "step": 18600
    },
    {
      "epoch": 0.3762859370676862,
      "grad_norm": 0.6836999654769897,
      "learning_rate": 1.4157190377244233e-05,
      "loss": 0.811,
      "step": 18700
    },
    {
      "epoch": 0.37829816133008026,
      "grad_norm": 0.5659916400909424,
      "learning_rate": 1.409843733881608e-05,
      "loss": 0.8175,
      "step": 18800
    },
    {
      "epoch": 0.38031038559247426,
      "grad_norm": 0.6270354986190796,
      "learning_rate": 1.4039513768691753e-05,
      "loss": 0.8221,
      "step": 18900
    },
    {
      "epoch": 0.38031038559247426,
      "eval_loss": 0.5561990737915039,
      "eval_runtime": 11.437,
      "eval_samples_per_second": 33.051,
      "eval_steps_per_second": 1.137,
      "step": 18900
    },
    {
      "epoch": 0.3823226098548683,
      "grad_norm": 0.6403433680534363,
      "learning_rate": 1.3980422118619447e-05,
      "loss": 0.8156,
      "step": 19000
    },
    {
      "epoch": 0.3843348341172624,
      "grad_norm": 0.5956655144691467,
      "learning_rate": 1.3921164847340996e-05,
      "loss": 0.8161,
      "step": 19100
    },
    {
      "epoch": 0.38634705837965644,
      "grad_norm": 1.1075905561447144,
      "learning_rate": 1.3861744420489547e-05,
      "loss": 0.8115,
      "step": 19200
    },
    {
      "epoch": 0.38634705837965644,
      "eval_loss": 0.5551438927650452,
      "eval_runtime": 11.6061,
      "eval_samples_per_second": 32.569,
      "eval_steps_per_second": 1.12,
      "step": 19200
    },
    {
      "epoch": 0.38835928264205044,
      "grad_norm": 0.5919958353042603,
      "learning_rate": 1.380216331048699e-05,
      "loss": 0.8042,
      "step": 19300
    },
    {
      "epoch": 0.3903715069044445,
      "grad_norm": 0.599104106426239,
      "learning_rate": 1.3742423996441067e-05,
      "loss": 0.8107,
      "step": 19400
    },
    {
      "epoch": 0.39238373116683856,
      "grad_norm": 0.6891294121742249,
      "learning_rate": 1.3682528964042234e-05,
      "loss": 0.8082,
      "step": 19500
    },
    {
      "epoch": 0.39238373116683856,
      "eval_loss": 0.5554007291793823,
      "eval_runtime": 11.5763,
      "eval_samples_per_second": 32.653,
      "eval_steps_per_second": 1.123,
      "step": 19500
    },
    {
      "epoch": 0.3943959554292326,
      "grad_norm": 0.6625336408615112,
      "learning_rate": 1.3622480705460217e-05,
      "loss": 0.8161,
      "step": 19600
    },
    {
      "epoch": 0.3964081796916266,
      "grad_norm": 0.6874691843986511,
      "learning_rate": 1.3562281719240323e-05,
      "loss": 0.808,
      "step": 19700
    },
    {
      "epoch": 0.3984204039540207,
      "grad_norm": 0.6335239410400391,
      "learning_rate": 1.3501934510199479e-05,
      "loss": 0.8172,
      "step": 19800
    },
    {
      "epoch": 0.3984204039540207,
      "eval_loss": 0.5533725023269653,
      "eval_runtime": 11.4224,
      "eval_samples_per_second": 33.093,
      "eval_steps_per_second": 1.138,
      "step": 19800
    },
    {
      "epoch": 0.40043262821641473,
      "grad_norm": 0.6799935102462769,
      "learning_rate": 1.3441441589322013e-05,
      "loss": 0.8102,
      "step": 19900
    },
    {
      "epoch": 0.4024448524788088,
      "grad_norm": 0.7125223278999329,
      "learning_rate": 1.338080547365517e-05,
      "loss": 0.8196,
      "step": 20000
    },
    {
      "epoch": 0.4044570767412028,
      "grad_norm": 0.6379702091217041,
      "learning_rate": 1.3320028686204378e-05,
      "loss": 0.7988,
      "step": 20100
    },
    {
      "epoch": 0.4044570767412028,
      "eval_loss": 0.5532128214836121,
      "eval_runtime": 11.5518,
      "eval_samples_per_second": 32.722,
      "eval_steps_per_second": 1.125,
      "step": 20100
    },
    {
      "epoch": 0.40646930100359685,
      "grad_norm": 0.6244897842407227,
      "learning_rate": 1.325911375582827e-05,
      "loss": 0.8078,
      "step": 20200
    },
    {
      "epoch": 0.4084815252659909,
      "grad_norm": 0.6567655801773071,
      "learning_rate": 1.319806321713346e-05,
      "loss": 0.812,
      "step": 20300
    },
    {
      "epoch": 0.41049374952838497,
      "grad_norm": 0.7605450749397278,
      "learning_rate": 1.3136879610369091e-05,
      "loss": 0.8078,
      "step": 20400
    },
    {
      "epoch": 0.41049374952838497,
      "eval_loss": 0.5506391525268555,
      "eval_runtime": 11.3697,
      "eval_samples_per_second": 33.246,
      "eval_steps_per_second": 1.143,
      "step": 20400
    },
    {
      "epoch": 0.41250597379077897,
      "grad_norm": 0.669282853603363,
      "learning_rate": 1.3075565481321122e-05,
      "loss": 0.8086,
      "step": 20500
    },
    {
      "epoch": 0.414518198053173,
      "grad_norm": 0.6792070269584656,
      "learning_rate": 1.301412338120641e-05,
      "loss": 0.8075,
      "step": 20600
    },
    {
      "epoch": 0.4165304223155671,
      "grad_norm": 0.5937780737876892,
      "learning_rate": 1.2952555866566554e-05,
      "loss": 0.8151,
      "step": 20700
    },
    {
      "epoch": 0.4165304223155671,
      "eval_loss": 0.5495349168777466,
      "eval_runtime": 11.3633,
      "eval_samples_per_second": 33.265,
      "eval_steps_per_second": 1.144,
      "step": 20700
    },
    {
      "epoch": 0.4185426465779611,
      "grad_norm": 0.6547305583953857,
      "learning_rate": 1.2890865499161522e-05,
      "loss": 0.8022,
      "step": 20800
    },
    {
      "epoch": 0.42055487084035514,
      "grad_norm": 0.5942917466163635,
      "learning_rate": 1.2829054845863054e-05,
      "loss": 0.8079,
      "step": 20900
    },
    {
      "epoch": 0.4225670951027492,
      "grad_norm": 0.5794849991798401,
      "learning_rate": 1.2767126478547865e-05,
      "loss": 0.8152,
      "step": 21000
    },
    {
      "epoch": 0.4225670951027492,
      "eval_loss": 0.5491987466812134,
      "eval_runtime": 11.3343,
      "eval_samples_per_second": 33.35,
      "eval_steps_per_second": 1.147,
      "step": 21000
    },
    {
      "epoch": 0.42457931936514326,
      "grad_norm": 0.6574000120162964,
      "learning_rate": 1.2705082973990623e-05,
      "loss": 0.8087,
      "step": 21100
    },
    {
      "epoch": 0.42659154362753726,
      "grad_norm": 0.6523112654685974,
      "learning_rate": 1.264292691375674e-05,
      "loss": 0.8098,
      "step": 21200
    },
    {
      "epoch": 0.4286037678899313,
      "grad_norm": 0.6403859853744507,
      "learning_rate": 1.2580660884094944e-05,
      "loss": 0.8125,
      "step": 21300
    },
    {
      "epoch": 0.4286037678899313,
      "eval_loss": 0.5487639307975769,
      "eval_runtime": 11.6017,
      "eval_samples_per_second": 32.581,
      "eval_steps_per_second": 1.121,
      "step": 21300
    },
    {
      "epoch": 0.4306159921523254,
      "grad_norm": 0.6883541345596313,
      "learning_rate": 1.2518287475829687e-05,
      "loss": 0.804,
      "step": 21400
    },
    {
      "epoch": 0.43262821641471944,
      "grad_norm": 0.6650357246398926,
      "learning_rate": 1.2455809284253329e-05,
      "loss": 0.8097,
      "step": 21500
    },
    {
      "epoch": 0.43464044067711344,
      "grad_norm": 0.6048406958580017,
      "learning_rate": 1.239322890901815e-05,
      "loss": 0.8059,
      "step": 21600
    },
    {
      "epoch": 0.43464044067711344,
      "eval_loss": 0.5487421751022339,
      "eval_runtime": 11.4779,
      "eval_samples_per_second": 32.933,
      "eval_steps_per_second": 1.133,
      "step": 21600
    },
    {
      "epoch": 0.4366526649395075,
      "grad_norm": 0.6876850724220276,
      "learning_rate": 1.233054895402819e-05,
      "loss": 0.8027,
      "step": 21700
    },
    {
      "epoch": 0.43866488920190155,
      "grad_norm": 0.656778872013092,
      "learning_rate": 1.2267772027330893e-05,
      "loss": 0.8124,
      "step": 21800
    },
    {
      "epoch": 0.4406771134642956,
      "grad_norm": 0.6603732109069824,
      "learning_rate": 1.22049007410086e-05,
      "loss": 0.8032,
      "step": 21900
    },
    {
      "epoch": 0.4406771134642956,
      "eval_loss": 0.547619104385376,
      "eval_runtime": 11.4392,
      "eval_samples_per_second": 33.044,
      "eval_steps_per_second": 1.136,
      "step": 21900
    },
    {
      "epoch": 0.4426893377266896,
      "grad_norm": 0.5987362861633301,
      "learning_rate": 1.2141937711069857e-05,
      "loss": 0.8075,
      "step": 22000
    },
    {
      "epoch": 0.44470156198908367,
      "grad_norm": 0.6756895780563354,
      "learning_rate": 1.2078885557340562e-05,
      "loss": 0.8092,
      "step": 22100
    },
    {
      "epoch": 0.44671378625147773,
      "grad_norm": 0.7242164015769958,
      "learning_rate": 1.2015746903354968e-05,
      "loss": 0.8156,
      "step": 22200
    },
    {
      "epoch": 0.44671378625147773,
      "eval_loss": 0.5490314364433289,
      "eval_runtime": 11.6139,
      "eval_samples_per_second": 32.547,
      "eval_steps_per_second": 1.119,
      "step": 22200
    },
    {
      "epoch": 0.4487260105138718,
      "grad_norm": 0.77918541431427,
      "learning_rate": 1.1952524376246504e-05,
      "loss": 0.8063,
      "step": 22300
    },
    {
      "epoch": 0.4507382347762658,
      "grad_norm": 0.6913318634033203,
      "learning_rate": 1.1889220606638476e-05,
      "loss": 0.8079,
      "step": 22400
    },
    {
      "epoch": 0.45275045903865985,
      "grad_norm": 0.747986376285553,
      "learning_rate": 1.1825838228534607e-05,
      "loss": 0.8033,
      "step": 22500
    },
    {
      "epoch": 0.45275045903865985,
      "eval_loss": 0.5468713045120239,
      "eval_runtime": 11.4,
      "eval_samples_per_second": 33.158,
      "eval_steps_per_second": 1.14,
      "step": 22500
    },
    {
      "epoch": 0.4547626833010539,
      "grad_norm": 0.6693961024284363,
      "learning_rate": 1.1762379879209442e-05,
      "loss": 0.8089,
      "step": 22600
    },
    {
      "epoch": 0.45677490756344796,
      "grad_norm": 0.6168875098228455,
      "learning_rate": 1.1698848199098596e-05,
      "loss": 0.7998,
      "step": 22700
    },
    {
      "epoch": 0.45878713182584197,
      "grad_norm": 0.6753715872764587,
      "learning_rate": 1.1635245831688913e-05,
      "loss": 0.8057,
      "step": 22800
    },
    {
      "epoch": 0.45878713182584197,
      "eval_loss": 0.5467536449432373,
      "eval_runtime": 11.3082,
      "eval_samples_per_second": 33.427,
      "eval_steps_per_second": 1.15,
      "step": 22800
    },
    {
      "epoch": 0.460799356088236,
      "grad_norm": 0.6399224996566772,
      "learning_rate": 1.1571575423408456e-05,
      "loss": 0.7965,
      "step": 22900
    },
    {
      "epoch": 0.4628115803506301,
      "grad_norm": 0.5371870994567871,
      "learning_rate": 1.1507839623516401e-05,
      "loss": 0.8014,
      "step": 23000
    },
    {
      "epoch": 0.46482380461302414,
      "grad_norm": 0.711793839931488,
      "learning_rate": 1.1444041083992801e-05,
      "loss": 0.8081,
      "step": 23100
    },
    {
      "epoch": 0.46482380461302414,
      "eval_loss": 0.5455725193023682,
      "eval_runtime": 11.4796,
      "eval_samples_per_second": 32.928,
      "eval_steps_per_second": 1.132,
      "step": 23100
    },
    {
      "epoch": 0.46683602887541814,
      "grad_norm": 0.566677451133728,
      "learning_rate": 1.1380182459428234e-05,
      "loss": 0.8027,
      "step": 23200
    },
    {
      "epoch": 0.4688482531378122,
      "grad_norm": 0.7086474895477295,
      "learning_rate": 1.1316266406913355e-05,
      "loss": 0.8024,
      "step": 23300
    },
    {
      "epoch": 0.47086047740020626,
      "grad_norm": 0.6261083483695984,
      "learning_rate": 1.1252295585928343e-05,
      "loss": 0.8054,
      "step": 23400
    },
    {
      "epoch": 0.47086047740020626,
      "eval_loss": 0.5444592833518982,
      "eval_runtime": 11.5945,
      "eval_samples_per_second": 32.602,
      "eval_steps_per_second": 1.121,
      "step": 23400
    },
    {
      "epoch": 0.4728727016626003,
      "grad_norm": 0.6763809323310852,
      "learning_rate": 1.1188272658232228e-05,
      "loss": 0.7952,
      "step": 23500
    },
    {
      "epoch": 0.4748849259249943,
      "grad_norm": 0.6690487265586853,
      "learning_rate": 1.1124200287752157e-05,
      "loss": 0.807,
      "step": 23600
    },
    {
      "epoch": 0.4768971501873884,
      "grad_norm": 0.5711999535560608,
      "learning_rate": 1.1060081140472519e-05,
      "loss": 0.8052,
      "step": 23700
    },
    {
      "epoch": 0.4768971501873884,
      "eval_loss": 0.5443876385688782,
      "eval_runtime": 11.4195,
      "eval_samples_per_second": 33.101,
      "eval_steps_per_second": 1.138,
      "step": 23700
    },
    {
      "epoch": 0.47890937444978243,
      "grad_norm": 0.6411765217781067,
      "learning_rate": 1.0995917884324056e-05,
      "loss": 0.7976,
      "step": 23800
    },
    {
      "epoch": 0.4809215987121765,
      "grad_norm": 0.5719566941261292,
      "learning_rate": 1.0931713189072827e-05,
      "loss": 0.7992,
      "step": 23900
    },
    {
      "epoch": 0.4829338229745705,
      "grad_norm": 0.5175074934959412,
      "learning_rate": 1.086746972620913e-05,
      "loss": 0.8009,
      "step": 24000
    },
    {
      "epoch": 0.4829338229745705,
      "eval_loss": 0.5424737334251404,
      "eval_runtime": 11.3763,
      "eval_samples_per_second": 33.227,
      "eval_steps_per_second": 1.143,
      "step": 24000
    },
    {
      "epoch": 0.48494604723696455,
      "grad_norm": 0.6476929783821106,
      "learning_rate": 1.0803190168836341e-05,
      "loss": 0.7984,
      "step": 24100
    },
    {
      "epoch": 0.4869582714993586,
      "grad_norm": 0.6742759943008423,
      "learning_rate": 1.0738877191559691e-05,
      "loss": 0.7989,
      "step": 24200
    },
    {
      "epoch": 0.48897049576175267,
      "grad_norm": 0.5645999908447266,
      "learning_rate": 1.067453347037498e-05,
      "loss": 0.7985,
      "step": 24300
    },
    {
      "epoch": 0.48897049576175267,
      "eval_loss": 0.5427749752998352,
      "eval_runtime": 11.4256,
      "eval_samples_per_second": 33.084,
      "eval_steps_per_second": 1.138,
      "step": 24300
    },
    {
      "epoch": 0.49098272002414667,
      "grad_norm": 0.5972943902015686,
      "learning_rate": 1.0610161682557225e-05,
      "loss": 0.7961,
      "step": 24400
    },
    {
      "epoch": 0.4929949442865407,
      "grad_norm": 0.6340279579162598,
      "learning_rate": 1.0545764506549273e-05,
      "loss": 0.8033,
      "step": 24500
    },
    {
      "epoch": 0.4950071685489348,
      "grad_norm": 0.6096486449241638,
      "learning_rate": 1.0481344621850347e-05,
      "loss": 0.7955,
      "step": 24600
    },
    {
      "epoch": 0.4950071685489348,
      "eval_loss": 0.5418882369995117,
      "eval_runtime": 11.4157,
      "eval_samples_per_second": 33.112,
      "eval_steps_per_second": 1.139,
      "step": 24600
    },
    {
      "epoch": 0.49701939281132884,
      "grad_norm": 0.5778651833534241,
      "learning_rate": 1.041690470890455e-05,
      "loss": 0.7954,
      "step": 24700
    },
    {
      "epoch": 0.49903161707372284,
      "grad_norm": 0.5838211178779602,
      "learning_rate": 1.0352447448989337e-05,
      "loss": 0.7854,
      "step": 24800
    },
    {
      "epoch": 0.5010438413361169,
      "grad_norm": 0.5919055342674255,
      "learning_rate": 1.0287975524103964e-05,
      "loss": 0.7925,
      "step": 24900
    },
    {
      "epoch": 0.5010438413361169,
      "eval_loss": 0.541851818561554,
      "eval_runtime": 11.2979,
      "eval_samples_per_second": 33.457,
      "eval_steps_per_second": 1.151,
      "step": 24900
    },
    {
      "epoch": 0.5030560655985109,
      "grad_norm": 0.5358749628067017,
      "learning_rate": 1.022349161685787e-05,
      "loss": 0.7986,
      "step": 25000
    },
    {
      "epoch": 0.505068289860905,
      "grad_norm": 0.6401896476745605,
      "learning_rate": 1.0158998410359074e-05,
      "loss": 0.7914,
      "step": 25100
    },
    {
      "epoch": 0.507080514123299,
      "grad_norm": 0.5817869901657104,
      "learning_rate": 1.0094498588102523e-05,
      "loss": 0.7956,
      "step": 25200
    },
    {
      "epoch": 0.507080514123299,
      "eval_loss": 0.5417122840881348,
      "eval_runtime": 11.503,
      "eval_samples_per_second": 32.861,
      "eval_steps_per_second": 1.13,
      "step": 25200
    },
    {
      "epoch": 0.5090927383856931,
      "grad_norm": 0.5595591068267822,
      "learning_rate": 1.0029994833858438e-05,
      "loss": 0.7943,
      "step": 25300
    },
    {
      "epoch": 0.5111049626480871,
      "grad_norm": 0.5861169099807739,
      "learning_rate": 9.965489831560652e-06,
      "loss": 0.8006,
      "step": 25400
    },
    {
      "epoch": 0.5131171869104811,
      "grad_norm": 0.5644922852516174,
      "learning_rate": 9.900986265194924e-06,
      "loss": 0.7868,
      "step": 25500
    },
    {
      "epoch": 0.5131171869104811,
      "eval_loss": 0.5409750938415527,
      "eval_runtime": 11.3254,
      "eval_samples_per_second": 33.376,
      "eval_steps_per_second": 1.148,
      "step": 25500
    },
    {
      "epoch": 0.5151294111728753,
      "grad_norm": 0.5210478901863098,
      "learning_rate": 9.836486818687262e-06,
      "loss": 0.7967,
      "step": 25600
    },
    {
      "epoch": 0.5171416354352693,
      "grad_norm": 0.5937855839729309,
      "learning_rate": 9.771994175792262e-06,
      "loss": 0.7839,
      "step": 25700
    },
    {
      "epoch": 0.5191538596976633,
      "grad_norm": 0.68199622631073,
      "learning_rate": 9.707511019981416e-06,
      "loss": 0.7929,
      "step": 25800
    },
    {
      "epoch": 0.5191538596976633,
      "eval_loss": 0.53957599401474,
      "eval_runtime": 11.2847,
      "eval_samples_per_second": 33.497,
      "eval_steps_per_second": 1.152,
      "step": 25800
    },
    {
      "epoch": 0.5211660839600574,
      "grad_norm": 0.6363146305084229,
      "learning_rate": 9.643040034331475e-06,
      "loss": 0.7893,
      "step": 25900
    },
    {
      "epoch": 0.5231783082224514,
      "grad_norm": 0.6275014877319336,
      "learning_rate": 9.578583901412802e-06,
      "loss": 0.7883,
      "step": 26000
    },
    {
      "epoch": 0.5251905324848455,
      "grad_norm": 0.5840523838996887,
      "learning_rate": 9.514145303177751e-06,
      "loss": 0.7961,
      "step": 26100
    },
    {
      "epoch": 0.5251905324848455,
      "eval_loss": 0.5387553572654724,
      "eval_runtime": 11.2936,
      "eval_samples_per_second": 33.47,
      "eval_steps_per_second": 1.151,
      "step": 26100
    },
    {
      "epoch": 0.5272027567472395,
      "grad_norm": 0.706901490688324,
      "learning_rate": 9.449726920849085e-06,
      "loss": 0.795,
      "step": 26200
    },
    {
      "epoch": 0.5292149810096335,
      "grad_norm": 0.5236905813217163,
      "learning_rate": 9.385331434808386e-06,
      "loss": 0.7919,
      "step": 26300
    },
    {
      "epoch": 0.5312272052720276,
      "grad_norm": 0.6014547348022461,
      "learning_rate": 9.320961524484565e-06,
      "loss": 0.7917,
      "step": 26400
    },
    {
      "epoch": 0.5312272052720276,
      "eval_loss": 0.5388390421867371,
      "eval_runtime": 11.3827,
      "eval_samples_per_second": 33.208,
      "eval_steps_per_second": 1.142,
      "step": 26400
    },
    {
      "epoch": 0.5332394295344216,
      "grad_norm": 0.5613085031509399,
      "learning_rate": 9.256619868242341e-06,
      "loss": 0.7957,
      "step": 26500
    },
    {
      "epoch": 0.5352516537968156,
      "grad_norm": 0.6822344064712524,
      "learning_rate": 9.192309143270818e-06,
      "loss": 0.7867,
      "step": 26600
    },
    {
      "epoch": 0.5372638780592097,
      "grad_norm": 0.6041319370269775,
      "learning_rate": 9.128032025472077e-06,
      "loss": 0.7884,
      "step": 26700
    },
    {
      "epoch": 0.5372638780592097,
      "eval_loss": 0.5368719696998596,
      "eval_runtime": 11.3484,
      "eval_samples_per_second": 33.309,
      "eval_steps_per_second": 1.146,
      "step": 26700
    },
    {
      "epoch": 0.5392761023216037,
      "grad_norm": 0.644088089466095,
      "learning_rate": 9.063791189349841e-06,
      "loss": 0.7867,
      "step": 26800
    },
    {
      "epoch": 0.5412883265839978,
      "grad_norm": 0.627928614616394,
      "learning_rate": 8.999589307898192e-06,
      "loss": 0.7896,
      "step": 26900
    },
    {
      "epoch": 0.5433005508463918,
      "grad_norm": 0.6207029819488525,
      "learning_rate": 8.935429052490347e-06,
      "loss": 0.7853,
      "step": 27000
    },
    {
      "epoch": 0.5433005508463918,
      "eval_loss": 0.5371023416519165,
      "eval_runtime": 11.3461,
      "eval_samples_per_second": 33.316,
      "eval_steps_per_second": 1.146,
      "step": 27000
    },
    {
      "epoch": 0.5453127751087858,
      "grad_norm": 0.541533887386322,
      "learning_rate": 8.87131309276751e-06,
      "loss": 0.7916,
      "step": 27100
    },
    {
      "epoch": 0.54732499937118,
      "grad_norm": 0.590813934803009,
      "learning_rate": 8.807244096527783e-06,
      "loss": 0.7948,
      "step": 27200
    },
    {
      "epoch": 0.549337223633574,
      "grad_norm": 0.584229588508606,
      "learning_rate": 8.743224729615168e-06,
      "loss": 0.7918,
      "step": 27300
    },
    {
      "epoch": 0.549337223633574,
      "eval_loss": 0.5366615653038025,
      "eval_runtime": 11.3157,
      "eval_samples_per_second": 33.405,
      "eval_steps_per_second": 1.149,
      "step": 27300
    },
    {
      "epoch": 0.551349447895968,
      "grad_norm": 0.6746295094490051,
      "learning_rate": 8.679257655808645e-06,
      "loss": 0.7911,
      "step": 27400
    },
    {
      "epoch": 0.5533616721583621,
      "grad_norm": 0.6765587329864502,
      "learning_rate": 8.615345536711331e-06,
      "loss": 0.7906,
      "step": 27500
    },
    {
      "epoch": 0.5553738964207561,
      "grad_norm": 0.5838325619697571,
      "learning_rate": 8.551491031639736e-06,
      "loss": 0.7937,
      "step": 27600
    },
    {
      "epoch": 0.5553738964207561,
      "eval_loss": 0.5361348390579224,
      "eval_runtime": 11.3123,
      "eval_samples_per_second": 33.415,
      "eval_steps_per_second": 1.149,
      "step": 27600
    },
    {
      "epoch": 0.5573861206831502,
      "grad_norm": 0.6001378893852234,
      "learning_rate": 8.487696797513108e-06,
      "loss": 0.7777,
      "step": 27700
    },
    {
      "epoch": 0.5593983449455442,
      "grad_norm": 0.5667701363563538,
      "learning_rate": 8.423965488742885e-06,
      "loss": 0.7856,
      "step": 27800
    },
    {
      "epoch": 0.5614105692079382,
      "grad_norm": 0.632291316986084,
      "learning_rate": 8.360299757122247e-06,
      "loss": 0.7792,
      "step": 27900
    },
    {
      "epoch": 0.5614105692079382,
      "eval_loss": 0.5353109240531921,
      "eval_runtime": 11.3749,
      "eval_samples_per_second": 33.231,
      "eval_steps_per_second": 1.143,
      "step": 27900
    },
    {
      "epoch": 0.5634227934703323,
      "grad_norm": 0.5472155213356018,
      "learning_rate": 8.296702251715778e-06,
      "loss": 0.7831,
      "step": 28000
    },
    {
      "epoch": 0.5654350177327263,
      "grad_norm": 0.590352475643158,
      "learning_rate": 8.233175618749243e-06,
      "loss": 0.7833,
      "step": 28100
    },
    {
      "epoch": 0.5674472419951203,
      "grad_norm": 0.5392365455627441,
      "learning_rate": 8.16972250149947e-06,
      "loss": 0.7846,
      "step": 28200
    },
    {
      "epoch": 0.5674472419951203,
      "eval_loss": 0.5345659852027893,
      "eval_runtime": 11.3797,
      "eval_samples_per_second": 33.217,
      "eval_steps_per_second": 1.142,
      "step": 28200
    },
    {
      "epoch": 0.5694594662575144,
      "grad_norm": 0.5367996692657471,
      "learning_rate": 8.106345540184382e-06,
      "loss": 0.7881,
      "step": 28300
    },
    {
      "epoch": 0.5714716905199084,
      "grad_norm": 0.7017585039138794,
      "learning_rate": 8.043047371853135e-06,
      "loss": 0.7902,
      "step": 28400
    },
    {
      "epoch": 0.5734839147823025,
      "grad_norm": 0.6775383353233337,
      "learning_rate": 7.979830630276384e-06,
      "loss": 0.795,
      "step": 28500
    },
    {
      "epoch": 0.5734839147823025,
      "eval_loss": 0.5349369645118713,
      "eval_runtime": 11.3477,
      "eval_samples_per_second": 33.311,
      "eval_steps_per_second": 1.146,
      "step": 28500
    },
    {
      "epoch": 0.5754961390446965,
      "grad_norm": 0.5782616138458252,
      "learning_rate": 7.91669794583671e-06,
      "loss": 0.7902,
      "step": 28600
    },
    {
      "epoch": 0.5775083633070905,
      "grad_norm": 0.5419892072677612,
      "learning_rate": 7.853651945419155e-06,
      "loss": 0.7858,
      "step": 28700
    },
    {
      "epoch": 0.5795205875694847,
      "grad_norm": 0.6611707210540771,
      "learning_rate": 7.790695252301938e-06,
      "loss": 0.7894,
      "step": 28800
    },
    {
      "epoch": 0.5795205875694847,
      "eval_loss": 0.5343945026397705,
      "eval_runtime": 11.4492,
      "eval_samples_per_second": 33.015,
      "eval_steps_per_second": 1.135,
      "step": 28800
    },
    {
      "epoch": 0.5815328118318787,
      "grad_norm": 0.5788918137550354,
      "learning_rate": 7.727830486047288e-06,
      "loss": 0.7868,
      "step": 28900
    },
    {
      "epoch": 0.5835450360942727,
      "grad_norm": 0.5480091571807861,
      "learning_rate": 7.665060262392461e-06,
      "loss": 0.7858,
      "step": 29000
    },
    {
      "epoch": 0.5855572603566668,
      "grad_norm": 0.730056881904602,
      "learning_rate": 7.602387193140887e-06,
      "loss": 0.7884,
      "step": 29100
    },
    {
      "epoch": 0.5855572603566668,
      "eval_loss": 0.5339014530181885,
      "eval_runtime": 11.3802,
      "eval_samples_per_second": 33.216,
      "eval_steps_per_second": 1.142,
      "step": 29100
    },
    {
      "epoch": 0.5875694846190608,
      "grad_norm": 0.5774337649345398,
      "learning_rate": 7.539813886053502e-06,
      "loss": 0.7893,
      "step": 29200
    },
    {
      "epoch": 0.5895817088814549,
      "grad_norm": 0.615470290184021,
      "learning_rate": 7.477342944740249e-06,
      "loss": 0.7817,
      "step": 29300
    },
    {
      "epoch": 0.5915939331438489,
      "grad_norm": 0.6776989698410034,
      "learning_rate": 7.414976968551735e-06,
      "loss": 0.7783,
      "step": 29400
    },
    {
      "epoch": 0.5915939331438489,
      "eval_loss": 0.533939003944397,
      "eval_runtime": 11.3711,
      "eval_samples_per_second": 33.242,
      "eval_steps_per_second": 1.143,
      "step": 29400
    },
    {
      "epoch": 0.5936061574062429,
      "grad_norm": 0.5885875821113586,
      "learning_rate": 7.352718552471077e-06,
      "loss": 0.784,
      "step": 29500
    },
    {
      "epoch": 0.595618381668637,
      "grad_norm": 0.5772850513458252,
      "learning_rate": 7.290570287005931e-06,
      "loss": 0.7819,
      "step": 29600
    },
    {
      "epoch": 0.597630605931031,
      "grad_norm": 0.6122897863388062,
      "learning_rate": 7.228534758080694e-06,
      "loss": 0.7891,
      "step": 29700
    },
    {
      "epoch": 0.597630605931031,
      "eval_loss": 0.5327485799789429,
      "eval_runtime": 11.3326,
      "eval_samples_per_second": 33.355,
      "eval_steps_per_second": 1.147,
      "step": 29700
    },
    {
      "epoch": 0.599642830193425,
      "grad_norm": 0.6210538148880005,
      "learning_rate": 7.1666145469289226e-06,
      "loss": 0.7832,
      "step": 29800
    },
    {
      "epoch": 0.6016550544558191,
      "grad_norm": 0.593087911605835,
      "learning_rate": 7.1048122299859145e-06,
      "loss": 0.7888,
      "step": 29900
    },
    {
      "epoch": 0.6036672787182131,
      "grad_norm": 0.5805263519287109,
      "learning_rate": 7.043130378781516e-06,
      "loss": 0.7825,
      "step": 30000
    },
    {
      "epoch": 0.6036672787182131,
      "eval_loss": 0.5322030782699585,
      "eval_runtime": 11.3763,
      "eval_samples_per_second": 33.227,
      "eval_steps_per_second": 1.143,
      "step": 30000
    },
    {
      "epoch": 0.6056795029806072,
      "grad_norm": 0.5463854074478149,
      "learning_rate": 6.981571559833122e-06,
      "loss": 0.7881,
      "step": 30100
    },
    {
      "epoch": 0.6076917272430012,
      "grad_norm": 0.5730445384979248,
      "learning_rate": 6.920138334538878e-06,
      "loss": 0.7858,
      "step": 30200
    },
    {
      "epoch": 0.6097039515053952,
      "grad_norm": 0.5871597528457642,
      "learning_rate": 6.858833259071108e-06,
      "loss": 0.7777,
      "step": 30300
    },
    {
      "epoch": 0.6097039515053952,
      "eval_loss": 0.5328507423400879,
      "eval_runtime": 11.3806,
      "eval_samples_per_second": 33.215,
      "eval_steps_per_second": 1.142,
      "step": 30300
    },
    {
      "epoch": 0.6117161757677894,
      "grad_norm": 0.6252338290214539,
      "learning_rate": 6.797658884269962e-06,
      "loss": 0.778,
      "step": 30400
    },
    {
      "epoch": 0.6137284000301834,
      "grad_norm": 0.588524580001831,
      "learning_rate": 6.736617755537267e-06,
      "loss": 0.7772,
      "step": 30500
    },
    {
      "epoch": 0.6157406242925774,
      "grad_norm": 0.621525228023529,
      "learning_rate": 6.675712412730625e-06,
      "loss": 0.7832,
      "step": 30600
    },
    {
      "epoch": 0.6157406242925774,
      "eval_loss": 0.5325730443000793,
      "eval_runtime": 11.3314,
      "eval_samples_per_second": 33.359,
      "eval_steps_per_second": 1.147,
      "step": 30600
    },
    {
      "epoch": 0.6177528485549715,
      "grad_norm": 0.5612871646881104,
      "learning_rate": 6.614945390057723e-06,
      "loss": 0.7831,
      "step": 30700
    },
    {
      "epoch": 0.6197650728173655,
      "grad_norm": 0.5247837901115417,
      "learning_rate": 6.554319215970895e-06,
      "loss": 0.7828,
      "step": 30800
    },
    {
      "epoch": 0.6217772970797596,
      "grad_norm": 0.5758721232414246,
      "learning_rate": 6.493836413061907e-06,
      "loss": 0.781,
      "step": 30900
    },
    {
      "epoch": 0.6217772970797596,
      "eval_loss": 0.5314515829086304,
      "eval_runtime": 11.3823,
      "eval_samples_per_second": 33.21,
      "eval_steps_per_second": 1.142,
      "step": 30900
    },
    {
      "epoch": 0.6237895213421536,
      "grad_norm": 0.7134236693382263,
      "learning_rate": 6.433499497957006e-06,
      "loss": 0.7852,
      "step": 31000
    },
    {
      "epoch": 0.6258017456045476,
      "grad_norm": 0.5432785153388977,
      "learning_rate": 6.373310981212197e-06,
      "loss": 0.7776,
      "step": 31100
    },
    {
      "epoch": 0.6278139698669417,
      "grad_norm": 0.6110942959785461,
      "learning_rate": 6.3132733672087875e-06,
      "loss": 0.787,
      "step": 31200
    },
    {
      "epoch": 0.6278139698669417,
      "eval_loss": 0.5303037166595459,
      "eval_runtime": 11.4219,
      "eval_samples_per_second": 33.094,
      "eval_steps_per_second": 1.138,
      "step": 31200
    },
    {
      "epoch": 0.6298261941293357,
      "grad_norm": 0.5783369541168213,
      "learning_rate": 6.253389154049177e-06,
      "loss": 0.7807,
      "step": 31300
    },
    {
      "epoch": 0.6318384183917297,
      "grad_norm": 0.5356603860855103,
      "learning_rate": 6.19366083345291e-06,
      "loss": 0.7801,
      "step": 31400
    },
    {
      "epoch": 0.6338506426541238,
      "grad_norm": 0.5529428124427795,
      "learning_rate": 6.134090890653015e-06,
      "loss": 0.7774,
      "step": 31500
    },
    {
      "epoch": 0.6338506426541238,
      "eval_loss": 0.5301904678344727,
      "eval_runtime": 11.4476,
      "eval_samples_per_second": 33.02,
      "eval_steps_per_second": 1.136,
      "step": 31500
    },
    {
      "epoch": 0.6358628669165178,
      "grad_norm": 0.5553627610206604,
      "learning_rate": 6.074681804292581e-06,
      "loss": 0.7791,
      "step": 31600
    },
    {
      "epoch": 0.6378750911789118,
      "grad_norm": 0.5281953811645508,
      "learning_rate": 6.0154360463216325e-06,
      "loss": 0.7769,
      "step": 31700
    },
    {
      "epoch": 0.639887315441306,
      "grad_norm": 0.6406475305557251,
      "learning_rate": 5.956356081894259e-06,
      "loss": 0.7799,
      "step": 31800
    },
    {
      "epoch": 0.639887315441306,
      "eval_loss": 0.5294053554534912,
      "eval_runtime": 11.3422,
      "eval_samples_per_second": 33.327,
      "eval_steps_per_second": 1.146,
      "step": 31800
    },
    {
      "epoch": 0.6418995397037,
      "grad_norm": 0.49855828285217285,
      "learning_rate": 5.897444369266066e-06,
      "loss": 0.7759,
      "step": 31900
    },
    {
      "epoch": 0.6439117639660941,
      "grad_norm": 0.5699638724327087,
      "learning_rate": 5.838703359691873e-06,
      "loss": 0.7673,
      "step": 32000
    },
    {
      "epoch": 0.6459239882284881,
      "grad_norm": 0.5306676030158997,
      "learning_rate": 5.780135497323724e-06,
      "loss": 0.7799,
      "step": 32100
    },
    {
      "epoch": 0.6459239882284881,
      "eval_loss": 0.5290261507034302,
      "eval_runtime": 11.3435,
      "eval_samples_per_second": 33.323,
      "eval_steps_per_second": 1.146,
      "step": 32100
    },
    {
      "epoch": 0.6479362124908821,
      "grad_norm": 0.5989037752151489,
      "learning_rate": 5.721743219109187e-06,
      "loss": 0.7757,
      "step": 32200
    },
    {
      "epoch": 0.6499484367532762,
      "grad_norm": 0.5595914721488953,
      "learning_rate": 5.663528954689958e-06,
      "loss": 0.7761,
      "step": 32300
    },
    {
      "epoch": 0.6519606610156702,
      "grad_norm": 0.5618345737457275,
      "learning_rate": 5.605495126300766e-06,
      "loss": 0.779,
      "step": 32400
    },
    {
      "epoch": 0.6519606610156702,
      "eval_loss": 0.529247522354126,
      "eval_runtime": 11.3716,
      "eval_samples_per_second": 33.241,
      "eval_steps_per_second": 1.143,
      "step": 32400
    },
    {
      "epoch": 0.6539728852780642,
      "grad_norm": 0.5271475315093994,
      "learning_rate": 5.547644148668585e-06,
      "loss": 0.7747,
      "step": 32500
    },
    {
      "epoch": 0.6559851095404583,
      "grad_norm": 0.5703973770141602,
      "learning_rate": 5.489978428912157e-06,
      "loss": 0.7801,
      "step": 32600
    },
    {
      "epoch": 0.6579973338028523,
      "grad_norm": 0.570797860622406,
      "learning_rate": 5.432500366441843e-06,
      "loss": 0.7756,
      "step": 32700
    },
    {
      "epoch": 0.6579973338028523,
      "eval_loss": 0.5275307893753052,
      "eval_runtime": 11.3412,
      "eval_samples_per_second": 33.33,
      "eval_steps_per_second": 1.146,
      "step": 32700
    },
    {
      "epoch": 0.6600095580652464,
      "grad_norm": 0.564414918422699,
      "learning_rate": 5.3752123528597746e-06,
      "loss": 0.7688,
      "step": 32800
    },
    {
      "epoch": 0.6620217823276404,
      "grad_norm": 0.5405446290969849,
      "learning_rate": 5.318116771860351e-06,
      "loss": 0.7777,
      "step": 32900
    },
    {
      "epoch": 0.6640340065900344,
      "grad_norm": 0.5645068883895874,
      "learning_rate": 5.261215999131055e-06,
      "loss": 0.7723,
      "step": 33000
    },
    {
      "epoch": 0.6640340065900344,
      "eval_loss": 0.5280060172080994,
      "eval_runtime": 11.3103,
      "eval_samples_per_second": 33.421,
      "eval_steps_per_second": 1.149,
      "step": 33000
    },
    {
      "epoch": 0.6660462308524285,
      "grad_norm": 0.5821409225463867,
      "learning_rate": 5.204512402253592e-06,
      "loss": 0.7857,
      "step": 33100
    },
    {
      "epoch": 0.6680584551148225,
      "grad_norm": 0.5534176230430603,
      "learning_rate": 5.148008340605393e-06,
      "loss": 0.7726,
      "step": 33200
    },
    {
      "epoch": 0.6700706793772165,
      "grad_norm": 0.5734113454818726,
      "learning_rate": 5.091706165261438e-06,
      "loss": 0.7806,
      "step": 33300
    },
    {
      "epoch": 0.6700706793772165,
      "eval_loss": 0.527226984500885,
      "eval_runtime": 11.3532,
      "eval_samples_per_second": 33.295,
      "eval_steps_per_second": 1.145,
      "step": 33300
    },
    {
      "epoch": 0.6720829036396107,
      "grad_norm": 0.5118337273597717,
      "learning_rate": 5.035608218896424e-06,
      "loss": 0.7794,
      "step": 33400
    },
    {
      "epoch": 0.6740951279020047,
      "grad_norm": 0.520524799823761,
      "learning_rate": 4.979716835687296e-06,
      "loss": 0.7833,
      "step": 33500
    },
    {
      "epoch": 0.6761073521643988,
      "grad_norm": 0.5260956883430481,
      "learning_rate": 4.924034341216123e-06,
      "loss": 0.7722,
      "step": 33600
    },
    {
      "epoch": 0.6761073521643988,
      "eval_loss": 0.5266076326370239,
      "eval_runtime": 11.3351,
      "eval_samples_per_second": 33.348,
      "eval_steps_per_second": 1.147,
      "step": 33600
    },
    {
      "epoch": 0.6781195764267928,
      "grad_norm": 0.5933238863945007,
      "learning_rate": 4.868563052373329e-06,
      "loss": 0.778,
      "step": 33700
    },
    {
      "epoch": 0.6801318006891868,
      "grad_norm": 0.5882487297058105,
      "learning_rate": 4.813305277261294e-06,
      "loss": 0.778,
      "step": 33800
    },
    {
      "epoch": 0.6821440249515809,
      "grad_norm": 0.5495398640632629,
      "learning_rate": 4.758263315098319e-06,
      "loss": 0.7749,
      "step": 33900
    },
    {
      "epoch": 0.6821440249515809,
      "eval_loss": 0.527021050453186,
      "eval_runtime": 11.3019,
      "eval_samples_per_second": 33.446,
      "eval_steps_per_second": 1.15,
      "step": 33900
    },
    {
      "epoch": 0.6841562492139749,
      "grad_norm": 0.5372888445854187,
      "learning_rate": 4.703439456122942e-06,
      "loss": 0.7726,
      "step": 34000
    },
    {
      "epoch": 0.6861684734763689,
      "grad_norm": 0.5453928709030151,
      "learning_rate": 4.648835981498665e-06,
      "loss": 0.7736,
      "step": 34100
    },
    {
      "epoch": 0.688180697738763,
      "grad_norm": 0.534249484539032,
      "learning_rate": 4.594455163219025e-06,
      "loss": 0.7669,
      "step": 34200
    },
    {
      "epoch": 0.688180697738763,
      "eval_loss": 0.5258325934410095,
      "eval_runtime": 11.3315,
      "eval_samples_per_second": 33.358,
      "eval_steps_per_second": 1.147,
      "step": 34200
    },
    {
      "epoch": 0.690192922001157,
      "grad_norm": 0.602557897567749,
      "learning_rate": 4.5402992640130615e-06,
      "loss": 0.7776,
      "step": 34300
    },
    {
      "epoch": 0.6922051462635511,
      "grad_norm": 0.6340908408164978,
      "learning_rate": 4.486370537251166e-06,
      "loss": 0.7724,
      "step": 34400
    },
    {
      "epoch": 0.6942173705259451,
      "grad_norm": 0.5442144870758057,
      "learning_rate": 4.43267122685132e-06,
      "loss": 0.7678,
      "step": 34500
    },
    {
      "epoch": 0.6942173705259451,
      "eval_loss": 0.52588951587677,
      "eval_runtime": 11.3113,
      "eval_samples_per_second": 33.418,
      "eval_steps_per_second": 1.149,
      "step": 34500
    },
    {
      "epoch": 0.6962295947883391,
      "grad_norm": 0.5438702702522278,
      "learning_rate": 4.379203567185733e-06,
      "loss": 0.7722,
      "step": 34600
    },
    {
      "epoch": 0.6982418190507332,
      "grad_norm": 0.575579822063446,
      "learning_rate": 4.325969782987868e-06,
      "loss": 0.7806,
      "step": 34700
    },
    {
      "epoch": 0.7002540433131272,
      "grad_norm": 0.53037029504776,
      "learning_rate": 4.2729720892598725e-06,
      "loss": 0.7677,
      "step": 34800
    },
    {
      "epoch": 0.7002540433131272,
      "eval_loss": 0.5252464413642883,
      "eval_runtime": 11.2976,
      "eval_samples_per_second": 33.458,
      "eval_steps_per_second": 1.151,
      "step": 34800
    },
    {
      "epoch": 0.7022662675755212,
      "grad_norm": 0.5570893883705139,
      "learning_rate": 4.220212691180422e-06,
      "loss": 0.7674,
      "step": 34900
    },
    {
      "epoch": 0.7042784918379154,
      "grad_norm": 0.564457893371582,
      "learning_rate": 4.167693784012948e-06,
      "loss": 0.7774,
      "step": 35000
    },
    {
      "epoch": 0.7062907161003094,
      "grad_norm": 0.6193362474441528,
      "learning_rate": 4.115417553014317e-06,
      "loss": 0.7739,
      "step": 35100
    },
    {
      "epoch": 0.7062907161003094,
      "eval_loss": 0.5251539349555969,
      "eval_runtime": 11.3037,
      "eval_samples_per_second": 33.44,
      "eval_steps_per_second": 1.15,
      "step": 35100
    },
    {
      "epoch": 0.7083029403627035,
      "grad_norm": 0.5650792121887207,
      "learning_rate": 4.063386173343888e-06,
      "loss": 0.775,
      "step": 35200
    },
    {
      "epoch": 0.7103151646250975,
      "grad_norm": 0.5598296523094177,
      "learning_rate": 4.0116018099730155e-06,
      "loss": 0.7736,
      "step": 35300
    },
    {
      "epoch": 0.7123273888874915,
      "grad_norm": 0.5999264717102051,
      "learning_rate": 3.960066617594962e-06,
      "loss": 0.7728,
      "step": 35400
    },
    {
      "epoch": 0.7123273888874915,
      "eval_loss": 0.5251903533935547,
      "eval_runtime": 11.3608,
      "eval_samples_per_second": 33.272,
      "eval_steps_per_second": 1.144,
      "step": 35400
    },
    {
      "epoch": 0.7143396131498856,
      "grad_norm": 0.5485169291496277,
      "learning_rate": 3.908782740535244e-06,
      "loss": 0.7663,
      "step": 35500
    },
    {
      "epoch": 0.7163518374122796,
      "grad_norm": 0.5973437428474426,
      "learning_rate": 3.857752312662413e-06,
      "loss": 0.7731,
      "step": 35600
    },
    {
      "epoch": 0.7183640616746736,
      "grad_norm": 0.559617280960083,
      "learning_rate": 3.8069774572992614e-06,
      "loss": 0.7623,
      "step": 35700
    },
    {
      "epoch": 0.7183640616746736,
      "eval_loss": 0.5247710347175598,
      "eval_runtime": 11.3529,
      "eval_samples_per_second": 33.296,
      "eval_steps_per_second": 1.145,
      "step": 35700
    },
    {
      "epoch": 0.7203762859370677,
      "grad_norm": 0.5565606355667114,
      "learning_rate": 3.756460287134479e-06,
      "loss": 0.7773,
      "step": 35800
    },
    {
      "epoch": 0.7223885101994617,
      "grad_norm": 0.5371571779251099,
      "learning_rate": 3.706202904134747e-06,
      "loss": 0.7761,
      "step": 35900
    },
    {
      "epoch": 0.7244007344618558,
      "grad_norm": 0.5425861477851868,
      "learning_rate": 3.6562073994572624e-06,
      "loss": 0.7775,
      "step": 36000
    },
    {
      "epoch": 0.7244007344618558,
      "eval_loss": 0.5243012309074402,
      "eval_runtime": 11.3858,
      "eval_samples_per_second": 33.199,
      "eval_steps_per_second": 1.142,
      "step": 36000
    },
    {
      "epoch": 0.7264129587242498,
      "grad_norm": 0.5546737909317017,
      "learning_rate": 3.6064758533627496e-06,
      "loss": 0.7712,
      "step": 36100
    },
    {
      "epoch": 0.7284251829866438,
      "grad_norm": 0.6678885221481323,
      "learning_rate": 3.55701033512889e-06,
      "loss": 0.769,
      "step": 36200
    },
    {
      "epoch": 0.7304374072490379,
      "grad_norm": 0.5747791528701782,
      "learning_rate": 3.5078129029642192e-06,
      "loss": 0.7671,
      "step": 36300
    },
    {
      "epoch": 0.7304374072490379,
      "eval_loss": 0.523876428604126,
      "eval_runtime": 11.3643,
      "eval_samples_per_second": 33.262,
      "eval_steps_per_second": 1.144,
      "step": 36300
    },
    {
      "epoch": 0.7324496315114319,
      "grad_norm": 0.6479108333587646,
      "learning_rate": 3.458885603922498e-06,
      "loss": 0.7678,
      "step": 36400
    },
    {
      "epoch": 0.734461855773826,
      "grad_norm": 0.5260623693466187,
      "learning_rate": 3.4102304738175264e-06,
      "loss": 0.7686,
      "step": 36500
    },
    {
      "epoch": 0.7364740800362201,
      "grad_norm": 0.5565561056137085,
      "learning_rate": 3.3618495371384384e-06,
      "loss": 0.7722,
      "step": 36600
    },
    {
      "epoch": 0.7364740800362201,
      "eval_loss": 0.5241602659225464,
      "eval_runtime": 11.2637,
      "eval_samples_per_second": 33.559,
      "eval_steps_per_second": 1.154,
      "step": 36600
    },
    {
      "epoch": 0.7384863042986141,
      "grad_norm": 0.5522435307502747,
      "learning_rate": 3.3137448069654687e-06,
      "loss": 0.7753,
      "step": 36700
    },
    {
      "epoch": 0.7404985285610082,
      "grad_norm": 0.5111953020095825,
      "learning_rate": 3.265918284886186e-06,
      "loss": 0.7739,
      "step": 36800
    },
    {
      "epoch": 0.7425107528234022,
      "grad_norm": 0.5280485153198242,
      "learning_rate": 3.2183719609122146e-06,
      "loss": 0.7626,
      "step": 36900
    },
    {
      "epoch": 0.7425107528234022,
      "eval_loss": 0.5227437615394592,
      "eval_runtime": 11.3194,
      "eval_samples_per_second": 33.394,
      "eval_steps_per_second": 1.148,
      "step": 36900
    },
    {
      "epoch": 0.7445229770857962,
      "grad_norm": 0.5183678865432739,
      "learning_rate": 3.171107813396418e-06,
      "loss": 0.7745,
      "step": 37000
    },
    {
      "epoch": 0.7465352013481903,
      "grad_norm": 0.5712314248085022,
      "learning_rate": 3.124127808950602e-06,
      "loss": 0.7711,
      "step": 37100
    },
    {
      "epoch": 0.7485474256105843,
      "grad_norm": 0.5488412380218506,
      "learning_rate": 3.0774339023636756e-06,
      "loss": 0.7689,
      "step": 37200
    },
    {
      "epoch": 0.7485474256105843,
      "eval_loss": 0.5230608582496643,
      "eval_runtime": 11.338,
      "eval_samples_per_second": 33.339,
      "eval_steps_per_second": 1.147,
      "step": 37200
    },
    {
      "epoch": 0.7505596498729783,
      "grad_norm": 0.5331023335456848,
      "learning_rate": 3.0310280365203102e-06,
      "loss": 0.7663,
      "step": 37300
    },
    {
      "epoch": 0.7525718741353724,
      "grad_norm": 0.5227448344230652,
      "learning_rate": 2.9849121423201054e-06,
      "loss": 0.7645,
      "step": 37400
    },
    {
      "epoch": 0.7545840983977664,
      "grad_norm": 0.5383438467979431,
      "learning_rate": 2.9390881385972445e-06,
      "loss": 0.7624,
      "step": 37500
    },
    {
      "epoch": 0.7545840983977664,
      "eval_loss": 0.5230525732040405,
      "eval_runtime": 11.3076,
      "eval_samples_per_second": 33.429,
      "eval_steps_per_second": 1.15,
      "step": 37500
    },
    {
      "epoch": 0.7565963226601605,
      "grad_norm": 0.5267183184623718,
      "learning_rate": 2.8935579320406504e-06,
      "loss": 0.7744,
      "step": 37600
    },
    {
      "epoch": 0.7586085469225545,
      "grad_norm": 0.5995730757713318,
      "learning_rate": 2.8483234171146544e-06,
      "loss": 0.77,
      "step": 37700
    },
    {
      "epoch": 0.7606207711849485,
      "grad_norm": 0.5342182517051697,
      "learning_rate": 2.803386475980171e-06,
      "loss": 0.772,
      "step": 37800
    },
    {
      "epoch": 0.7606207711849485,
      "eval_loss": 0.5222497582435608,
      "eval_runtime": 11.6813,
      "eval_samples_per_second": 32.36,
      "eval_steps_per_second": 1.113,
      "step": 37800
    },
    {
      "epoch": 0.7626329954473426,
      "grad_norm": 0.5149078965187073,
      "learning_rate": 2.758748978416369e-06,
      "loss": 0.7675,
      "step": 37900
    },
    {
      "epoch": 0.7646452197097366,
      "grad_norm": 0.5688450932502747,
      "learning_rate": 2.7144127817428965e-06,
      "loss": 0.7655,
      "step": 38000
    },
    {
      "epoch": 0.7666574439721306,
      "grad_norm": 0.5706648826599121,
      "learning_rate": 2.6703797307425792e-06,
      "loss": 0.7645,
      "step": 38100
    },
    {
      "epoch": 0.7666574439721306,
      "eval_loss": 0.5218858122825623,
      "eval_runtime": 11.6659,
      "eval_samples_per_second": 32.402,
      "eval_steps_per_second": 1.114,
      "step": 38100
    },
    {
      "epoch": 0.7686696682345248,
      "grad_norm": 0.5271847248077393,
      "learning_rate": 2.626651657584672e-06,
      "loss": 0.7699,
      "step": 38200
    },
    {
      "epoch": 0.7706818924969188,
      "grad_norm": 0.5311073064804077,
      "learning_rate": 2.5832303817486137e-06,
      "loss": 0.766,
      "step": 38300
    },
    {
      "epoch": 0.7726941167593129,
      "grad_norm": 0.5762016177177429,
      "learning_rate": 2.540117709948332e-06,
      "loss": 0.7612,
      "step": 38400
    },
    {
      "epoch": 0.7726941167593129,
      "eval_loss": 0.5214508175849915,
      "eval_runtime": 11.4525,
      "eval_samples_per_second": 33.006,
      "eval_steps_per_second": 1.135,
      "step": 38400
    },
    {
      "epoch": 0.7747063410217069,
      "grad_norm": 0.5659816861152649,
      "learning_rate": 2.497315436057064e-06,
      "loss": 0.7693,
      "step": 38500
    },
    {
      "epoch": 0.7767185652841009,
      "grad_norm": 0.530085563659668,
      "learning_rate": 2.4548253410327104e-06,
      "loss": 0.7598,
      "step": 38600
    },
    {
      "epoch": 0.778730789546495,
      "grad_norm": 0.624070405960083,
      "learning_rate": 2.412649192843739e-06,
      "loss": 0.7722,
      "step": 38700
    },
    {
      "epoch": 0.778730789546495,
      "eval_loss": 0.5214821100234985,
      "eval_runtime": 11.3194,
      "eval_samples_per_second": 33.394,
      "eval_steps_per_second": 1.148,
      "step": 38700
    },
    {
      "epoch": 0.780743013808889,
      "grad_norm": 0.5348799228668213,
      "learning_rate": 2.3707887463956146e-06,
      "loss": 0.7615,
      "step": 38800
    },
    {
      "epoch": 0.782755238071283,
      "grad_norm": 0.5490187406539917,
      "learning_rate": 2.3292457434577854e-06,
      "loss": 0.7714,
      "step": 38900
    },
    {
      "epoch": 0.7847674623336771,
      "grad_norm": 0.5568532943725586,
      "learning_rate": 2.2880219125912064e-06,
      "loss": 0.7604,
      "step": 39000
    },
    {
      "epoch": 0.7847674623336771,
      "eval_loss": 0.5214923620223999,
      "eval_runtime": 11.3214,
      "eval_samples_per_second": 33.388,
      "eval_steps_per_second": 1.148,
      "step": 39000
    },
    {
      "epoch": 0.7867796865960711,
      "grad_norm": 0.5511381030082703,
      "learning_rate": 2.2471189690764093e-06,
      "loss": 0.7644,
      "step": 39100
    },
    {
      "epoch": 0.7887919108584652,
      "grad_norm": 0.5425460338592529,
      "learning_rate": 2.2065386148421486e-06,
      "loss": 0.7633,
      "step": 39200
    },
    {
      "epoch": 0.7908041351208592,
      "grad_norm": 0.4867189824581146,
      "learning_rate": 2.1662825383945686e-06,
      "loss": 0.7674,
      "step": 39300
    },
    {
      "epoch": 0.7908041351208592,
      "eval_loss": 0.5209300518035889,
      "eval_runtime": 11.3182,
      "eval_samples_per_second": 33.397,
      "eval_steps_per_second": 1.149,
      "step": 39300
    },
    {
      "epoch": 0.7928163593832532,
      "grad_norm": 0.5154452919960022,
      "learning_rate": 2.1263524147469573e-06,
      "loss": 0.7663,
      "step": 39400
    },
    {
      "epoch": 0.7948285836456473,
      "grad_norm": 0.5264437198638916,
      "learning_rate": 2.0867499053500473e-06,
      "loss": 0.7642,
      "step": 39500
    },
    {
      "epoch": 0.7968408079080413,
      "grad_norm": 0.5303503274917603,
      "learning_rate": 2.047476658022881e-06,
      "loss": 0.7722,
      "step": 39600
    },
    {
      "epoch": 0.7968408079080413,
      "eval_loss": 0.5208966135978699,
      "eval_runtime": 11.3632,
      "eval_samples_per_second": 33.265,
      "eval_steps_per_second": 1.144,
      "step": 39600
    },
    {
      "epoch": 0.7988530321704354,
      "grad_norm": 0.5367266535758972,
      "learning_rate": 2.0085343068842546e-06,
      "loss": 0.753,
      "step": 39700
    },
    {
      "epoch": 0.8008652564328295,
      "grad_norm": 0.5081086754798889,
      "learning_rate": 1.9699244722847143e-06,
      "loss": 0.7571,
      "step": 39800
    },
    {
      "epoch": 0.8028774806952235,
      "grad_norm": 0.5019336938858032,
      "learning_rate": 1.9316487607391465e-06,
      "loss": 0.7723,
      "step": 39900
    },
    {
      "epoch": 0.8028774806952235,
      "eval_loss": 0.5206644535064697,
      "eval_runtime": 11.3602,
      "eval_samples_per_second": 33.274,
      "eval_steps_per_second": 1.144,
      "step": 39900
    },
    {
      "epoch": 0.8048897049576176,
      "grad_norm": 0.5184951424598694,
      "learning_rate": 1.893708764859924e-06,
      "loss": 0.7677,
      "step": 40000
    },
    {
      "epoch": 0.8069019292200116,
      "grad_norm": 0.5265465974807739,
      "learning_rate": 1.8561060632906369e-06,
      "loss": 0.7686,
      "step": 40100
    },
    {
      "epoch": 0.8089141534824056,
      "grad_norm": 0.5161654353141785,
      "learning_rate": 1.8188422206404165e-06,
      "loss": 0.769,
      "step": 40200
    },
    {
      "epoch": 0.8089141534824056,
      "eval_loss": 0.5201809406280518,
      "eval_runtime": 11.369,
      "eval_samples_per_second": 33.248,
      "eval_steps_per_second": 1.143,
      "step": 40200
    },
    {
      "epoch": 0.8109263777447997,
      "grad_norm": 0.5580165982246399,
      "learning_rate": 1.7819187874188293e-06,
      "loss": 0.7686,
      "step": 40300
    },
    {
      "epoch": 0.8129386020071937,
      "grad_norm": 0.5577532052993774,
      "learning_rate": 1.7453372999713557e-06,
      "loss": 0.7616,
      "step": 40400
    },
    {
      "epoch": 0.8149508262695877,
      "grad_norm": 0.5307947993278503,
      "learning_rate": 1.709099280415476e-06,
      "loss": 0.7705,
      "step": 40500
    },
    {
      "epoch": 0.8149508262695877,
      "eval_loss": 0.5200989842414856,
      "eval_runtime": 11.3357,
      "eval_samples_per_second": 33.346,
      "eval_steps_per_second": 1.147,
      "step": 40500
    },
    {
      "epoch": 0.8169630505319818,
      "grad_norm": 0.5261068940162659,
      "learning_rate": 1.6732062365773272e-06,
      "loss": 0.7674,
      "step": 40600
    },
    {
      "epoch": 0.8189752747943758,
      "grad_norm": 0.4946574568748474,
      "learning_rate": 1.6376596619289653e-06,
      "loss": 0.7654,
      "step": 40700
    },
    {
      "epoch": 0.8209874990567699,
      "grad_norm": 0.5491064786911011,
      "learning_rate": 1.6024610355262282e-06,
      "loss": 0.7695,
      "step": 40800
    },
    {
      "epoch": 0.8209874990567699,
      "eval_loss": 0.5198547840118408,
      "eval_runtime": 11.316,
      "eval_samples_per_second": 33.404,
      "eval_steps_per_second": 1.149,
      "step": 40800
    },
    {
      "epoch": 0.8229997233191639,
      "grad_norm": 0.5306958556175232,
      "learning_rate": 1.5676118219471891e-06,
      "loss": 0.7619,
      "step": 40900
    },
    {
      "epoch": 0.8250119475815579,
      "grad_norm": 0.5380471348762512,
      "learning_rate": 1.5331134712312235e-06,
      "loss": 0.767,
      "step": 41000
    },
    {
      "epoch": 0.827024171843952,
      "grad_norm": 0.5167573094367981,
      "learning_rate": 1.4989674188186598e-06,
      "loss": 0.7599,
      "step": 41100
    },
    {
      "epoch": 0.827024171843952,
      "eval_loss": 0.5196862816810608,
      "eval_runtime": 11.2973,
      "eval_samples_per_second": 33.459,
      "eval_steps_per_second": 1.151,
      "step": 41100
    },
    {
      "epoch": 0.829036396106346,
      "grad_norm": 0.5409244894981384,
      "learning_rate": 1.4651750854910685e-06,
      "loss": 0.7587,
      "step": 41200
    },
    {
      "epoch": 0.83104862036874,
      "grad_norm": 0.5431727170944214,
      "learning_rate": 1.4317378773121393e-06,
      "loss": 0.7579,
      "step": 41300
    },
    {
      "epoch": 0.8330608446311342,
      "grad_norm": 0.53000807762146,
      "learning_rate": 1.3986571855691744e-06,
      "loss": 0.7688,
      "step": 41400
    },
    {
      "epoch": 0.8330608446311342,
      "eval_loss": 0.5197826623916626,
      "eval_runtime": 11.3928,
      "eval_samples_per_second": 33.179,
      "eval_steps_per_second": 1.141,
      "step": 41400
    },
    {
      "epoch": 0.8350730688935282,
      "grad_norm": 0.5434339046478271,
      "learning_rate": 1.3659343867151975e-06,
      "loss": 0.7695,
      "step": 41500
    },
    {
      "epoch": 0.8370852931559222,
      "grad_norm": 0.5368450284004211,
      "learning_rate": 1.3335708423116856e-06,
      "loss": 0.7636,
      "step": 41600
    },
    {
      "epoch": 0.8390975174183163,
      "grad_norm": 0.5331200361251831,
      "learning_rate": 1.3015678989719116e-06,
      "loss": 0.7696,
      "step": 41700
    },
    {
      "epoch": 0.8390975174183163,
      "eval_loss": 0.519400954246521,
      "eval_runtime": 11.3064,
      "eval_samples_per_second": 33.432,
      "eval_steps_per_second": 1.15,
      "step": 41700
    },
    {
      "epoch": 0.8411097416807103,
      "grad_norm": 0.5858904123306274,
      "learning_rate": 1.2699268883049154e-06,
      "loss": 0.7648,
      "step": 41800
    },
    {
      "epoch": 0.8431219659431044,
      "grad_norm": 0.5302870273590088,
      "learning_rate": 1.2386491268600976e-06,
      "loss": 0.7553,
      "step": 41900
    },
    {
      "epoch": 0.8451341902054984,
      "grad_norm": 0.4971041679382324,
      "learning_rate": 1.2077359160724388e-06,
      "loss": 0.7655,
      "step": 42000
    },
    {
      "epoch": 0.8451341902054984,
      "eval_loss": 0.519396960735321,
      "eval_runtime": 11.3912,
      "eval_samples_per_second": 33.183,
      "eval_steps_per_second": 1.141,
      "step": 42000
    },
    {
      "epoch": 0.8471464144678924,
      "grad_norm": 0.5351930856704712,
      "learning_rate": 1.1771885422083418e-06,
      "loss": 0.7603,
      "step": 42100
    },
    {
      "epoch": 0.8491586387302865,
      "grad_norm": 0.4970718026161194,
      "learning_rate": 1.1470082763121227e-06,
      "loss": 0.7661,
      "step": 42200
    },
    {
      "epoch": 0.8511708629926805,
      "grad_norm": 0.5322678089141846,
      "learning_rate": 1.1171963741531178e-06,
      "loss": 0.7616,
      "step": 42300
    },
    {
      "epoch": 0.8511708629926805,
      "eval_loss": 0.5193082094192505,
      "eval_runtime": 11.3559,
      "eval_samples_per_second": 33.287,
      "eval_steps_per_second": 1.145,
      "step": 42300
    },
    {
      "epoch": 0.8531830872550745,
      "grad_norm": 0.5380090475082397,
      "learning_rate": 1.0877540761734317e-06,
      "loss": 0.7623,
      "step": 42400
    },
    {
      "epoch": 0.8551953115174686,
      "grad_norm": 0.5419859290122986,
      "learning_rate": 1.0586826074363277e-06,
      "loss": 0.761,
      "step": 42500
    },
    {
      "epoch": 0.8572075357798626,
      "grad_norm": 0.5447313189506531,
      "learning_rate": 1.0299831775752478e-06,
      "loss": 0.7635,
      "step": 42600
    },
    {
      "epoch": 0.8572075357798626,
      "eval_loss": 0.5189518332481384,
      "eval_runtime": 11.3146,
      "eval_samples_per_second": 33.408,
      "eval_steps_per_second": 1.149,
      "step": 42600
    },
    {
      "epoch": 0.8592197600422568,
      "grad_norm": 0.5054132342338562,
      "learning_rate": 1.0016569807434894e-06,
      "loss": 0.7553,
      "step": 42700
    },
    {
      "epoch": 0.8612319843046508,
      "grad_norm": 0.5626354217529297,
      "learning_rate": 9.737051955645104e-07,
      "loss": 0.76,
      "step": 42800
    },
    {
      "epoch": 0.8632442085670448,
      "grad_norm": 0.6139233112335205,
      "learning_rate": 9.461289850828936e-07,
      "loss": 0.7586,
      "step": 42900
    },
    {
      "epoch": 0.8632442085670448,
      "eval_loss": 0.5188504457473755,
      "eval_runtime": 11.3931,
      "eval_samples_per_second": 33.178,
      "eval_steps_per_second": 1.141,
      "step": 42900
    },
    {
      "epoch": 0.8652564328294389,
      "grad_norm": 0.5168823003768921,
      "learning_rate": 9.189294967159457e-07,
      "loss": 0.7569,
      "step": 43000
    },
    {
      "epoch": 0.8672686570918329,
      "grad_norm": 0.5103846192359924,
      "learning_rate": 8.921078622059643e-07,
      "loss": 0.7598,
      "step": 43100
    },
    {
      "epoch": 0.8692808813542269,
      "grad_norm": 0.5376741290092468,
      "learning_rate": 8.656651975731434e-07,
      "loss": 0.7687,
      "step": 43200
    },
    {
      "epoch": 0.8692808813542269,
      "eval_loss": 0.5187187790870667,
      "eval_runtime": 11.3132,
      "eval_samples_per_second": 33.412,
      "eval_steps_per_second": 1.149,
      "step": 43200
    },
    {
      "epoch": 0.871293105616621,
      "grad_norm": 0.5139674544334412,
      "learning_rate": 8.396026030691329e-07,
      "loss": 0.7543,
      "step": 43300
    },
    {
      "epoch": 0.873305329879015,
      "grad_norm": 0.4912608563899994,
      "learning_rate": 8.139211631312638e-07,
      "loss": 0.759,
      "step": 43400
    },
    {
      "epoch": 0.8753175541414091,
      "grad_norm": 0.5286913514137268,
      "learning_rate": 7.886219463374256e-07,
      "loss": 0.7579,
      "step": 43500
    },
    {
      "epoch": 0.8753175541414091,
      "eval_loss": 0.5185059905052185,
      "eval_runtime": 11.3249,
      "eval_samples_per_second": 33.378,
      "eval_steps_per_second": 1.148,
      "step": 43500
    },
    {
      "epoch": 0.8773297784038031,
      "grad_norm": 0.4960270822048187,
      "learning_rate": 7.637060053615963e-07,
      "loss": 0.7582,
      "step": 43600
    },
    {
      "epoch": 0.8793420026661971,
      "grad_norm": 0.5134163498878479,
      "learning_rate": 7.391743769300541e-07,
      "loss": 0.7624,
      "step": 43700
    },
    {
      "epoch": 0.8813542269285912,
      "grad_norm": 0.5594838857650757,
      "learning_rate": 7.150280817782296e-07,
      "loss": 0.7626,
      "step": 43800
    },
    {
      "epoch": 0.8813542269285912,
      "eval_loss": 0.5184139013290405,
      "eval_runtime": 11.3303,
      "eval_samples_per_second": 33.362,
      "eval_steps_per_second": 1.147,
      "step": 43800
    },
    {
      "epoch": 0.8833664511909852,
      "grad_norm": 0.523009717464447,
      "learning_rate": 6.912681246082409e-07,
      "loss": 0.7554,
      "step": 43900
    },
    {
      "epoch": 0.8853786754533792,
      "grad_norm": 0.50362229347229,
      "learning_rate": 6.678954940470806e-07,
      "loss": 0.758,
      "step": 44000
    },
    {
      "epoch": 0.8873908997157733,
      "grad_norm": 0.5441898107528687,
      "learning_rate": 6.449111626054927e-07,
      "loss": 0.7573,
      "step": 44100
    },
    {
      "epoch": 0.8873908997157733,
      "eval_loss": 0.5184325575828552,
      "eval_runtime": 11.3938,
      "eval_samples_per_second": 33.176,
      "eval_steps_per_second": 1.141,
      "step": 44100
    },
    {
      "epoch": 0.8894031239781673,
      "grad_norm": 0.520699679851532,
      "learning_rate": 6.223160866374967e-07,
      "loss": 0.7638,
      "step": 44200
    },
    {
      "epoch": 0.8914153482405615,
      "grad_norm": 0.4745332598686218,
      "learning_rate": 6.001112063005998e-07,
      "loss": 0.7577,
      "step": 44300
    },
    {
      "epoch": 0.8934275725029555,
      "grad_norm": 0.49645400047302246,
      "learning_rate": 5.782974455166767e-07,
      "loss": 0.7619,
      "step": 44400
    },
    {
      "epoch": 0.8934275725029555,
      "eval_loss": 0.518170952796936,
      "eval_runtime": 11.3133,
      "eval_samples_per_second": 33.412,
      "eval_steps_per_second": 1.149,
      "step": 44400
    },
    {
      "epoch": 0.8954397967653495,
      "grad_norm": 0.5159271955490112,
      "learning_rate": 5.568757119335244e-07,
      "loss": 0.7571,
      "step": 44500
    },
    {
      "epoch": 0.8974520210277436,
      "grad_norm": 0.5097435712814331,
      "learning_rate": 5.358468968871e-07,
      "loss": 0.7697,
      "step": 44600
    },
    {
      "epoch": 0.8994642452901376,
      "grad_norm": 0.5482389330863953,
      "learning_rate": 5.152118753644275e-07,
      "loss": 0.7682,
      "step": 44700
    },
    {
      "epoch": 0.8994642452901376,
      "eval_loss": 0.5181338787078857,
      "eval_runtime": 11.4656,
      "eval_samples_per_second": 32.968,
      "eval_steps_per_second": 1.134,
      "step": 44700
    },
    {
      "epoch": 0.9014764695525316,
      "grad_norm": 0.5253916382789612,
      "learning_rate": 4.949715059671978e-07,
      "loss": 0.7656,
      "step": 44800
    },
    {
      "epoch": 0.9034886938149257,
      "grad_norm": 0.4978592097759247,
      "learning_rate": 4.7512663087603826e-07,
      "loss": 0.7621,
      "step": 44900
    },
    {
      "epoch": 0.9055009180773197,
      "grad_norm": 0.5216113924980164,
      "learning_rate": 4.5567807581546664e-07,
      "loss": 0.7595,
      "step": 45000
    },
    {
      "epoch": 0.9055009180773197,
      "eval_loss": 0.5181112885475159,
      "eval_runtime": 11.5213,
      "eval_samples_per_second": 32.809,
      "eval_steps_per_second": 1.128,
      "step": 45000
    },
    {
      "epoch": 0.9075131423397138,
      "grad_norm": 0.5027504563331604,
      "learning_rate": 4.366266500195426e-07,
      "loss": 0.7588,
      "step": 45100
    },
    {
      "epoch": 0.9095253666021078,
      "grad_norm": 0.5365561842918396,
      "learning_rate": 4.1797314619819285e-07,
      "loss": 0.7612,
      "step": 45200
    },
    {
      "epoch": 0.9115375908645018,
      "grad_norm": 0.5316836833953857,
      "learning_rate": 3.997183405042238e-07,
      "loss": 0.7639,
      "step": 45300
    },
    {
      "epoch": 0.9115375908645018,
      "eval_loss": 0.5180224776268005,
      "eval_runtime": 11.5144,
      "eval_samples_per_second": 32.828,
      "eval_steps_per_second": 1.129,
      "step": 45300
    },
    {
      "epoch": 0.9135498151268959,
      "grad_norm": 0.5350984930992126,
      "learning_rate": 3.8186299250103085e-07,
      "loss": 0.7582,
      "step": 45400
    },
    {
      "epoch": 0.9155620393892899,
      "grad_norm": 0.5509154796600342,
      "learning_rate": 3.644078451309907e-07,
      "loss": 0.7686,
      "step": 45500
    },
    {
      "epoch": 0.9175742636516839,
      "grad_norm": 0.5419358611106873,
      "learning_rate": 3.47353624684551e-07,
      "loss": 0.762,
      "step": 45600
    },
    {
      "epoch": 0.9175742636516839,
      "eval_loss": 0.5179212689399719,
      "eval_runtime": 11.4423,
      "eval_samples_per_second": 33.035,
      "eval_steps_per_second": 1.136,
      "step": 45600
    },
    {
      "epoch": 0.919586487914078,
      "grad_norm": 0.5258903503417969,
      "learning_rate": 3.307010407700084e-07,
      "loss": 0.7598,
      "step": 45700
    },
    {
      "epoch": 0.921598712176472,
      "grad_norm": 0.519910454750061,
      "learning_rate": 3.1445078628398294e-07,
      "loss": 0.7589,
      "step": 45800
    },
    {
      "epoch": 0.9236109364388662,
      "grad_norm": 0.5140842795372009,
      "learning_rate": 2.986035373825902e-07,
      "loss": 0.762,
      "step": 45900
    },
    {
      "epoch": 0.9236109364388662,
      "eval_loss": 0.5178348422050476,
      "eval_runtime": 11.4694,
      "eval_samples_per_second": 32.957,
      "eval_steps_per_second": 1.133,
      "step": 45900
    },
    {
      "epoch": 0.9256231607012602,
      "grad_norm": 0.5274850726127625,
      "learning_rate": 2.8315995345329804e-07,
      "loss": 0.758,
      "step": 46000
    },
    {
      "epoch": 0.9276353849636542,
      "grad_norm": 0.5443992018699646,
      "learning_rate": 2.681206770875022e-07,
      "loss": 0.7614,
      "step": 46100
    },
    {
      "epoch": 0.9296476092260483,
      "grad_norm": 0.5250468254089355,
      "learning_rate": 2.5348633405378296e-07,
      "loss": 0.7666,
      "step": 46200
    },
    {
      "epoch": 0.9296476092260483,
      "eval_loss": 0.5178038477897644,
      "eval_runtime": 11.6986,
      "eval_samples_per_second": 32.311,
      "eval_steps_per_second": 1.111,
      "step": 46200
    },
    {
      "epoch": 0.9316598334884423,
      "grad_norm": 0.5096211433410645,
      "learning_rate": 2.392575332718627e-07,
      "loss": 0.7697,
      "step": 46300
    },
    {
      "epoch": 0.9336720577508363,
      "grad_norm": 0.549790620803833,
      "learning_rate": 2.2543486678727855e-07,
      "loss": 0.7676,
      "step": 46400
    },
    {
      "epoch": 0.9356842820132304,
      "grad_norm": 0.524726152420044,
      "learning_rate": 2.120189097467451e-07,
      "loss": 0.7673,
      "step": 46500
    },
    {
      "epoch": 0.9356842820132304,
      "eval_loss": 0.5176617503166199,
      "eval_runtime": 11.5673,
      "eval_samples_per_second": 32.678,
      "eval_steps_per_second": 1.124,
      "step": 46500
    },
    {
      "epoch": 0.9376965062756244,
      "grad_norm": 0.5029181838035583,
      "learning_rate": 1.9901022037421723e-07,
      "loss": 0.7642,
      "step": 46600
    },
    {
      "epoch": 0.9397087305380185,
      "grad_norm": 0.5207979679107666,
      "learning_rate": 1.8640933994767073e-07,
      "loss": 0.7592,
      "step": 46700
    },
    {
      "epoch": 0.9417209548004125,
      "grad_norm": 0.5468851923942566,
      "learning_rate": 1.74216792776577e-07,
      "loss": 0.7631,
      "step": 46800
    },
    {
      "epoch": 0.9417209548004125,
      "eval_loss": 0.5177092552185059,
      "eval_runtime": 11.4559,
      "eval_samples_per_second": 32.996,
      "eval_steps_per_second": 1.135,
      "step": 46800
    },
    {
      "epoch": 0.9437331790628065,
      "grad_norm": 0.5044853091239929,
      "learning_rate": 1.62433086180086e-07,
      "loss": 0.7644,
      "step": 46900
    },
    {
      "epoch": 0.9457454033252006,
      "grad_norm": 0.5245229005813599,
      "learning_rate": 1.5105871046592e-07,
      "loss": 0.7605,
      "step": 47000
    },
    {
      "epoch": 0.9477576275875946,
      "grad_norm": 0.49839621782302856,
      "learning_rate": 1.400941389099697e-07,
      "loss": 0.7565,
      "step": 47100
    },
    {
      "epoch": 0.9477576275875946,
      "eval_loss": 0.5176432132720947,
      "eval_runtime": 11.5662,
      "eval_samples_per_second": 32.681,
      "eval_steps_per_second": 1.124,
      "step": 47100
    },
    {
      "epoch": 0.9497698518499886,
      "grad_norm": 0.4973909556865692,
      "learning_rate": 1.2953982773660223e-07,
      "loss": 0.7656,
      "step": 47200
    },
    {
      "epoch": 0.9517820761123827,
      "grad_norm": 0.5007102489471436,
      "learning_rate": 1.1939621609968088e-07,
      "loss": 0.7506,
      "step": 47300
    },
    {
      "epoch": 0.9537943003747767,
      "grad_norm": 0.49358874559402466,
      "learning_rate": 1.0966372606428855e-07,
      "loss": 0.7562,
      "step": 47400
    },
    {
      "epoch": 0.9537943003747767,
      "eval_loss": 0.5176478624343872,
      "eval_runtime": 11.3727,
      "eval_samples_per_second": 33.237,
      "eval_steps_per_second": 1.143,
      "step": 47400
    },
    {
      "epoch": 0.9558065246371709,
      "grad_norm": 0.5771644115447998,
      "learning_rate": 1.0034276258916953e-07,
      "loss": 0.766,
      "step": 47500
    },
    {
      "epoch": 0.9578187488995649,
      "grad_norm": 0.5385919213294983,
      "learning_rate": 9.14337135098764e-08,
      "loss": 0.7605,
      "step": 47600
    },
    {
      "epoch": 0.9598309731619589,
      "grad_norm": 0.5119192004203796,
      "learning_rate": 8.293694952263286e-08,
      "loss": 0.757,
      "step": 47700
    },
    {
      "epoch": 0.9598309731619589,
      "eval_loss": 0.5176236033439636,
      "eval_runtime": 11.3818,
      "eval_samples_per_second": 33.211,
      "eval_steps_per_second": 1.142,
      "step": 47700
    },
    {
      "epoch": 0.961843197424353,
      "grad_norm": 0.5380053520202637,
      "learning_rate": 7.485282416891393e-08,
      "loss": 0.7574,
      "step": 47800
    },
    {
      "epoch": 0.963855421686747,
      "grad_norm": 0.5267532467842102,
      "learning_rate": 6.718167382072983e-08,
      "loss": 0.7668,
      "step": 47900
    },
    {
      "epoch": 0.965867645949141,
      "grad_norm": 0.5199303030967712,
      "learning_rate": 5.99238176666328e-08,
      "loss": 0.756,
      "step": 48000
    },
    {
      "epoch": 0.965867645949141,
      "eval_loss": 0.5175907015800476,
      "eval_runtime": 11.4752,
      "eval_samples_per_second": 32.941,
      "eval_steps_per_second": 1.133,
      "step": 48000
    },
    {
      "epoch": 0.9678798702115351,
      "grad_norm": 0.5405638217926025,
      "learning_rate": 5.307955769843443e-08,
      "loss": 0.7612,
      "step": 48100
    },
    {
      "epoch": 0.9698920944739291,
      "grad_norm": 0.47063717246055603,
      "learning_rate": 4.664917869864338e-08,
      "loss": 0.7667,
      "step": 48200
    },
    {
      "epoch": 0.9719043187363232,
      "grad_norm": 0.48465442657470703,
      "learning_rate": 4.063294822861163e-08,
      "loss": 0.7605,
      "step": 48300
    },
    {
      "epoch": 0.9719043187363232,
      "eval_loss": 0.5175836682319641,
      "eval_runtime": 11.3838,
      "eval_samples_per_second": 33.205,
      "eval_steps_per_second": 1.142,
      "step": 48300
    },
    {
      "epoch": 0.9739165429987172,
      "grad_norm": 0.48423367738723755,
      "learning_rate": 3.5031116617404435e-08,
      "loss": 0.7574,
      "step": 48400
    },
    {
      "epoch": 0.9759287672611112,
      "grad_norm": 0.5320655107498169,
      "learning_rate": 2.9843916951382e-08,
      "loss": 0.767,
      "step": 48500
    },
    {
      "epoch": 0.9779409915235053,
      "grad_norm": 0.5267395377159119,
      "learning_rate": 2.5071565064506143e-08,
      "loss": 0.7593,
      "step": 48600
    },
    {
      "epoch": 0.9779409915235053,
      "eval_loss": 0.5175591707229614,
      "eval_runtime": 11.3501,
      "eval_samples_per_second": 33.304,
      "eval_steps_per_second": 1.145,
      "step": 48600
    },
    {
      "epoch": 0.9799532157858993,
      "grad_norm": 0.514837920665741,
      "learning_rate": 2.071425952934969e-08,
      "loss": 0.7641,
      "step": 48700
    },
    {
      "epoch": 0.9819654400482933,
      "grad_norm": 0.5345449447631836,
      "learning_rate": 1.677218164884753e-08,
      "loss": 0.7685,
      "step": 48800
    },
    {
      "epoch": 0.9839776643106874,
      "grad_norm": 0.5339971780776978,
      "learning_rate": 1.3245495448739321e-08,
      "loss": 0.7612,
      "step": 48900
    },
    {
      "epoch": 0.9839776643106874,
      "eval_loss": 0.5175919532775879,
      "eval_runtime": 11.3829,
      "eval_samples_per_second": 33.208,
      "eval_steps_per_second": 1.142,
      "step": 48900
    },
    {
      "epoch": 0.9859898885730815,
      "grad_norm": 0.49889686703681946,
      "learning_rate": 1.013434767075605e-08,
      "loss": 0.7692,
      "step": 49000
    },
    {
      "epoch": 0.9880021128354756,
      "grad_norm": 0.5119482278823853,
      "learning_rate": 7.438867766504931e-09,
      "loss": 0.7578,
      "step": 49100
    },
    {
      "epoch": 0.9900143370978696,
      "grad_norm": 0.5316244959831238,
      "learning_rate": 5.159167892089256e-09,
      "loss": 0.7568,
      "step": 49200
    },
    {
      "epoch": 0.9900143370978696,
      "eval_loss": 0.5176030993461609,
      "eval_runtime": 11.4046,
      "eval_samples_per_second": 33.145,
      "eval_steps_per_second": 1.14,
      "step": 49200
    },
    {
      "epoch": 0.9920265613602636,
      "grad_norm": 7.261257648468018,
      "learning_rate": 3.2953429034399133e-09,
      "loss": 0.7576,
      "step": 49300
    },
    {
      "epoch": 0.9940387856226577,
      "grad_norm": 0.48430758714675903,
      "learning_rate": 1.847470352367431e-09,
      "loss": 0.7577,
      "step": 49400
    },
    {
      "epoch": 0.9960510098850517,
      "grad_norm": 0.4918181598186493,
      "learning_rate": 8.156104833345613e-10,
      "loss": 0.7649,
      "step": 49500
    },
    {
      "epoch": 0.9960510098850517,
      "eval_loss": 0.5175663232803345,
      "eval_runtime": 11.4598,
      "eval_samples_per_second": 32.985,
      "eval_steps_per_second": 1.134,
      "step": 49500
    },
    {
      "epoch": 0.9980632341474457,
      "grad_norm": 0.5409220457077026,
      "learning_rate": 1.9980623095494645e-10,
      "loss": 0.7531,
      "step": 49600
    }
  ],
  "logging_steps": 100,
  "max_steps": 49697,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 300,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9.166027593741658e+19,
  "train_batch_size": 10,
  "trial_name": null,
  "trial_params": null
}