{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 5000,
  "global_step": 87895,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05688605722737357,
      "grad_norm": 2.3711910247802734,
      "learning_rate": 0.0007909073326127766,
      "loss": 2.6366,
      "step": 1000
    },
    {
      "epoch": 0.11377211445474714,
      "grad_norm": 2.2273147106170654,
      "learning_rate": 0.0007818055634563969,
      "loss": 1.7361,
      "step": 2000
    },
    {
      "epoch": 0.17065817168212072,
      "grad_norm": 2.9114110469818115,
      "learning_rate": 0.000772703794300017,
      "loss": 1.5903,
      "step": 3000
    },
    {
      "epoch": 0.22754422890949427,
      "grad_norm": 1.7726603746414185,
      "learning_rate": 0.0007636020251436373,
      "loss": 1.5127,
      "step": 4000
    },
    {
      "epoch": 0.2844302861368678,
      "grad_norm": 1.8174991607666016,
      "learning_rate": 0.0007545002559872575,
      "loss": 1.4609,
      "step": 5000
    },
    {
      "epoch": 0.2844302861368678,
      "eval_accuracy": 0.653196,
      "eval_loss": 1.3989018201828003,
      "eval_runtime": 65.7885,
      "eval_samples_per_second": 3800.055,
      "eval_steps_per_second": 14.851,
      "step": 5000
    },
    {
      "epoch": 0.34131634336424144,
      "grad_norm": 1.7002882957458496,
      "learning_rate": 0.0007453984868308778,
      "loss": 1.4214,
      "step": 6000
    },
    {
      "epoch": 0.398202400591615,
      "grad_norm": 1.6060094833374023,
      "learning_rate": 0.0007362967176744981,
      "loss": 1.3803,
      "step": 7000
    },
    {
      "epoch": 0.45508845781898855,
      "grad_norm": 2.100240468978882,
      "learning_rate": 0.0007271949485181182,
      "loss": 1.358,
      "step": 8000
    },
    {
      "epoch": 0.5119745150463622,
      "grad_norm": 1.507076621055603,
      "learning_rate": 0.0007180931793617385,
      "loss": 1.3392,
      "step": 9000
    },
    {
      "epoch": 0.5688605722737357,
      "grad_norm": 1.8028790950775146,
      "learning_rate": 0.0007089914102053587,
      "loss": 1.3211,
      "step": 10000
    },
    {
      "epoch": 0.5688605722737357,
      "eval_accuracy": 0.680348,
      "eval_loss": 1.2739007472991943,
      "eval_runtime": 64.9042,
      "eval_samples_per_second": 3851.83,
      "eval_steps_per_second": 15.053,
      "step": 10000
    },
    {
      "epoch": 0.6257466295011093,
      "grad_norm": 1.699574589729309,
      "learning_rate": 0.000699889641048979,
      "loss": 1.3131,
      "step": 11000
    },
    {
      "epoch": 0.6826326867284829,
      "grad_norm": 1.6491554975509644,
      "learning_rate": 0.0006907878718925991,
      "loss": 1.2837,
      "step": 12000
    },
    {
      "epoch": 0.7395187439558564,
      "grad_norm": 1.8563138246536255,
      "learning_rate": 0.0006816861027362194,
      "loss": 1.276,
      "step": 13000
    },
    {
      "epoch": 0.79640480118323,
      "grad_norm": 1.5511844158172607,
      "learning_rate": 0.0006725843335798396,
      "loss": 1.2678,
      "step": 14000
    },
    {
      "epoch": 0.8532908584106036,
      "grad_norm": 1.3686333894729614,
      "learning_rate": 0.0006634825644234599,
      "loss": 1.2531,
      "step": 15000
    },
    {
      "epoch": 0.8532908584106036,
      "eval_accuracy": 0.694232,
      "eval_loss": 1.2132482528686523,
      "eval_runtime": 64.8716,
      "eval_samples_per_second": 3853.765,
      "eval_steps_per_second": 15.061,
      "step": 15000
    },
    {
      "epoch": 0.9101769156379771,
      "grad_norm": 1.958629846572876,
      "learning_rate": 0.00065438079526708,
      "loss": 1.2457,
      "step": 16000
    },
    {
      "epoch": 0.9670629728653507,
      "grad_norm": 1.528414011001587,
      "learning_rate": 0.0006452790261107003,
      "loss": 1.2338,
      "step": 17000
    },
    {
      "epoch": 1.0239490300927243,
      "grad_norm": 1.2693781852722168,
      "learning_rate": 0.0006361772569543205,
      "loss": 1.2142,
      "step": 18000
    },
    {
      "epoch": 1.0808350873200978,
      "grad_norm": 1.4573434591293335,
      "learning_rate": 0.0006270754877979408,
      "loss": 1.19,
      "step": 19000
    },
    {
      "epoch": 1.1377211445474713,
      "grad_norm": 1.236939787864685,
      "learning_rate": 0.0006179737186415609,
      "loss": 1.1875,
      "step": 20000
    },
    {
      "epoch": 1.1377211445474713,
      "eval_accuracy": 0.704068,
      "eval_loss": 1.1761754751205444,
      "eval_runtime": 65.8177,
      "eval_samples_per_second": 3798.369,
      "eval_steps_per_second": 14.844,
      "step": 20000
    },
    {
      "epoch": 1.194607201774845,
      "grad_norm": 1.241289496421814,
      "learning_rate": 0.0006088719494851812,
      "loss": 1.1814,
      "step": 21000
    },
    {
      "epoch": 1.2514932590022185,
      "grad_norm": 1.483782410621643,
      "learning_rate": 0.0005997701803288014,
      "loss": 1.1822,
      "step": 22000
    },
    {
      "epoch": 1.3083793162295922,
      "grad_norm": 1.5755152702331543,
      "learning_rate": 0.0005906684111724217,
      "loss": 1.1767,
      "step": 23000
    },
    {
      "epoch": 1.3652653734569657,
      "grad_norm": 1.333516001701355,
      "learning_rate": 0.0005815666420160419,
      "loss": 1.1731,
      "step": 24000
    },
    {
      "epoch": 1.4221514306843392,
      "grad_norm": 1.8660708665847778,
      "learning_rate": 0.0005724648728596621,
      "loss": 1.157,
      "step": 25000
    },
    {
      "epoch": 1.4221514306843392,
      "eval_accuracy": 0.711072,
      "eval_loss": 1.145967960357666,
      "eval_runtime": 63.5002,
      "eval_samples_per_second": 3936.992,
      "eval_steps_per_second": 15.386,
      "step": 25000
    },
    {
      "epoch": 1.4790374879117127,
      "grad_norm": 1.3808480501174927,
      "learning_rate": 0.0005633631037032824,
      "loss": 1.1574,
      "step": 26000
    },
    {
      "epoch": 1.5359235451390862,
      "grad_norm": 1.1691391468048096,
      "learning_rate": 0.0005542613345469026,
      "loss": 1.1554,
      "step": 27000
    },
    {
      "epoch": 1.59280960236646,
      "grad_norm": 1.4390947818756104,
      "learning_rate": 0.0005451595653905228,
      "loss": 1.1497,
      "step": 28000
    },
    {
      "epoch": 1.6496956595938337,
      "grad_norm": 1.3637901544570923,
      "learning_rate": 0.000536057796234143,
      "loss": 1.1452,
      "step": 29000
    },
    {
      "epoch": 1.7065817168212072,
      "grad_norm": 1.2076903581619263,
      "learning_rate": 0.0005269560270777633,
      "loss": 1.144,
      "step": 30000
    },
    {
      "epoch": 1.7065817168212072,
      "eval_accuracy": 0.716336,
      "eval_loss": 1.11836576461792,
      "eval_runtime": 64.1718,
      "eval_samples_per_second": 3895.791,
      "eval_steps_per_second": 15.225,
      "step": 30000
    },
    {
      "epoch": 1.7634677740485807,
      "grad_norm": 1.349098801612854,
      "learning_rate": 0.0005178542579213835,
      "loss": 1.1383,
      "step": 31000
    },
    {
      "epoch": 1.8203538312759542,
      "grad_norm": 1.4453612565994263,
      "learning_rate": 0.0005087524887650037,
      "loss": 1.1391,
      "step": 32000
    },
    {
      "epoch": 1.8772398885033277,
      "grad_norm": 1.0392345190048218,
      "learning_rate": 0.0004996507196086239,
      "loss": 1.1328,
      "step": 33000
    },
    {
      "epoch": 1.9341259457307014,
      "grad_norm": 1.1520024538040161,
      "learning_rate": 0.0004905489504522442,
      "loss": 1.1238,
      "step": 34000
    },
    {
      "epoch": 1.9910120029580751,
      "grad_norm": 1.515512228012085,
      "learning_rate": 0.0004814471812958644,
      "loss": 1.1217,
      "step": 35000
    },
    {
      "epoch": 1.9910120029580751,
      "eval_accuracy": 0.724676,
      "eval_loss": 1.0880111455917358,
      "eval_runtime": 64.3813,
      "eval_samples_per_second": 3883.115,
      "eval_steps_per_second": 15.175,
      "step": 35000
    },
    {
      "epoch": 2.0478980601854486,
      "grad_norm": 1.4771007299423218,
      "learning_rate": 0.00047234541213948464,
      "loss": 1.0919,
      "step": 36000
    },
    {
      "epoch": 2.104784117412822,
      "grad_norm": 1.3845994472503662,
      "learning_rate": 0.00046324364298310487,
      "loss": 1.0838,
      "step": 37000
    },
    {
      "epoch": 2.1616701746401956,
      "grad_norm": 1.250450611114502,
      "learning_rate": 0.00045414187382672515,
      "loss": 1.0785,
      "step": 38000
    },
    {
      "epoch": 2.218556231867569,
      "grad_norm": 1.5783060789108276,
      "learning_rate": 0.0004450401046703453,
      "loss": 1.0753,
      "step": 39000
    },
    {
      "epoch": 2.2754422890949426,
      "grad_norm": 1.7228904962539673,
      "learning_rate": 0.0004359383355139656,
      "loss": 1.0831,
      "step": 40000
    },
    {
      "epoch": 2.2754422890949426,
      "eval_accuracy": 0.727968,
      "eval_loss": 1.0728965997695923,
      "eval_runtime": 64.3156,
      "eval_samples_per_second": 3887.084,
      "eval_steps_per_second": 15.191,
      "step": 40000
    },
    {
      "epoch": 2.3323283463223166,
      "grad_norm": 1.333543062210083,
      "learning_rate": 0.00042683656635758577,
      "loss": 1.0798,
      "step": 41000
    },
    {
      "epoch": 2.38921440354969,
      "grad_norm": 1.3213781118392944,
      "learning_rate": 0.00041773479720120594,
      "loss": 1.0804,
      "step": 42000
    },
    {
      "epoch": 2.4461004607770636,
      "grad_norm": 1.43584406375885,
      "learning_rate": 0.0004086330280448262,
      "loss": 1.0713,
      "step": 43000
    },
    {
      "epoch": 2.502986518004437,
      "grad_norm": 1.2614803314208984,
      "learning_rate": 0.0003995312588884465,
      "loss": 1.0697,
      "step": 44000
    },
    {
      "epoch": 2.5598725752318106,
      "grad_norm": 1.1319971084594727,
      "learning_rate": 0.0003904294897320667,
      "loss": 1.0761,
      "step": 45000
    },
    {
      "epoch": 2.5598725752318106,
      "eval_accuracy": 0.731168,
      "eval_loss": 1.0593221187591553,
      "eval_runtime": 64.6765,
      "eval_samples_per_second": 3865.393,
      "eval_steps_per_second": 15.106,
      "step": 45000
    },
    {
      "epoch": 2.6167586324591845,
      "grad_norm": 1.2045773267745972,
      "learning_rate": 0.00038132772057568694,
      "loss": 1.0723,
      "step": 46000
    },
    {
      "epoch": 2.673644689686558,
      "grad_norm": 1.3462469577789307,
      "learning_rate": 0.00037222595141930717,
      "loss": 1.067,
      "step": 47000
    },
    {
      "epoch": 2.7305307469139315,
      "grad_norm": 1.3573272228240967,
      "learning_rate": 0.0003631241822629274,
      "loss": 1.0636,
      "step": 48000
    },
    {
      "epoch": 2.787416804141305,
      "grad_norm": 1.2870041131973267,
      "learning_rate": 0.0003540224131065476,
      "loss": 1.0655,
      "step": 49000
    },
    {
      "epoch": 2.8443028613686785,
      "grad_norm": 1.3287382125854492,
      "learning_rate": 0.0003449206439501678,
      "loss": 1.0565,
      "step": 50000
    },
    {
      "epoch": 2.8443028613686785,
      "eval_accuracy": 0.734552,
      "eval_loss": 1.0479968786239624,
      "eval_runtime": 65.2161,
      "eval_samples_per_second": 3833.412,
      "eval_steps_per_second": 14.981,
      "step": 50000
    },
    {
      "epoch": 2.901188918596052,
      "grad_norm": 1.384717345237732,
      "learning_rate": 0.000335818874793788,
      "loss": 1.0529,
      "step": 51000
    },
    {
      "epoch": 2.9580749758234255,
      "grad_norm": 1.1834776401519775,
      "learning_rate": 0.0003267171056374083,
      "loss": 1.0608,
      "step": 52000
    },
    {
      "epoch": 3.0149610330507994,
      "grad_norm": 1.0646686553955078,
      "learning_rate": 0.0003176153364810285,
      "loss": 1.0417,
      "step": 53000
    },
    {
      "epoch": 3.071847090278173,
      "grad_norm": 1.348777174949646,
      "learning_rate": 0.00030851356732464874,
      "loss": 1.0168,
      "step": 54000
    },
    {
      "epoch": 3.1287331475055464,
      "grad_norm": 1.2929068803787231,
      "learning_rate": 0.00029941179816826897,
      "loss": 1.0149,
      "step": 55000
    },
    {
      "epoch": 3.1287331475055464,
      "eval_accuracy": 0.73796,
      "eval_loss": 1.0355563163757324,
      "eval_runtime": 66.0157,
      "eval_samples_per_second": 3786.979,
      "eval_steps_per_second": 14.8,
      "step": 55000
    },
    {
      "epoch": 3.18561920473292,
      "grad_norm": 1.3426847457885742,
      "learning_rate": 0.0002903100290118892,
      "loss": 1.0145,
      "step": 56000
    },
    {
      "epoch": 3.2425052619602934,
      "grad_norm": 1.3112365007400513,
      "learning_rate": 0.0002812082598555094,
      "loss": 1.013,
      "step": 57000
    },
    {
      "epoch": 3.299391319187667,
      "grad_norm": 1.3956024646759033,
      "learning_rate": 0.00027210649069912964,
      "loss": 1.0117,
      "step": 58000
    },
    {
      "epoch": 3.356277376415041,
      "grad_norm": 1.2679752111434937,
      "learning_rate": 0.00026300472154274987,
      "loss": 1.0155,
      "step": 59000
    },
    {
      "epoch": 3.4131634336424144,
      "grad_norm": 1.5014774799346924,
      "learning_rate": 0.0002539029523863701,
      "loss": 1.0102,
      "step": 60000
    },
    {
      "epoch": 3.4131634336424144,
      "eval_accuracy": 0.74012,
      "eval_loss": 1.0263450145721436,
      "eval_runtime": 64.1919,
      "eval_samples_per_second": 3894.574,
      "eval_steps_per_second": 15.22,
      "step": 60000
    },
    {
      "epoch": 3.470049490869788,
      "grad_norm": 1.4669406414031982,
      "learning_rate": 0.0002448011832299904,
      "loss": 1.0145,
      "step": 61000
    },
    {
      "epoch": 3.5269355480971614,
      "grad_norm": 1.3615577220916748,
      "learning_rate": 0.00023569941407361057,
      "loss": 1.0173,
      "step": 62000
    },
    {
      "epoch": 3.583821605324535,
      "grad_norm": 1.126437783241272,
      "learning_rate": 0.00022659764491723082,
      "loss": 1.0125,
      "step": 63000
    },
    {
      "epoch": 3.6407076625519084,
      "grad_norm": 1.2467857599258423,
      "learning_rate": 0.00021749587576085105,
      "loss": 1.0133,
      "step": 64000
    },
    {
      "epoch": 3.697593719779282,
      "grad_norm": 1.3474713563919067,
      "learning_rate": 0.00020839410660447127,
      "loss": 1.0014,
      "step": 65000
    },
    {
      "epoch": 3.697593719779282,
      "eval_accuracy": 0.743688,
      "eval_loss": 1.0122489929199219,
      "eval_runtime": 64.6438,
      "eval_samples_per_second": 3867.347,
      "eval_steps_per_second": 15.114,
      "step": 65000
    },
    {
      "epoch": 3.754479777006656,
      "grad_norm": 1.3319435119628906,
      "learning_rate": 0.00019929233744809147,
      "loss": 1.0034,
      "step": 66000
    },
    {
      "epoch": 3.8113658342340293,
      "grad_norm": 1.9685286283493042,
      "learning_rate": 0.00019019056829171172,
      "loss": 0.995,
      "step": 67000
    },
    {
      "epoch": 3.868251891461403,
      "grad_norm": 1.2180532217025757,
      "learning_rate": 0.00018108879913533195,
      "loss": 1.0069,
      "step": 68000
    },
    {
      "epoch": 3.9251379486887763,
      "grad_norm": 1.3233805894851685,
      "learning_rate": 0.00017198702997895217,
      "loss": 0.9983,
      "step": 69000
    },
    {
      "epoch": 3.98202400591615,
      "grad_norm": 1.7491425275802612,
      "learning_rate": 0.0001628852608225724,
      "loss": 0.9972,
      "step": 70000
    },
    {
      "epoch": 3.98202400591615,
      "eval_accuracy": 0.745936,
      "eval_loss": 1.0027811527252197,
      "eval_runtime": 65.7257,
      "eval_samples_per_second": 3803.688,
      "eval_steps_per_second": 14.865,
      "step": 70000
    },
    {
      "epoch": 4.038910063143524,
      "grad_norm": 1.1467124223709106,
      "learning_rate": 0.00015378349166619262,
      "loss": 0.9752,
      "step": 71000
    },
    {
      "epoch": 4.095796120370897,
      "grad_norm": 1.2129188776016235,
      "learning_rate": 0.00014468172250981285,
      "loss": 0.9652,
      "step": 72000
    },
    {
      "epoch": 4.152682177598271,
      "grad_norm": 1.3177002668380737,
      "learning_rate": 0.00013557995335343307,
      "loss": 0.9615,
      "step": 73000
    },
    {
      "epoch": 4.209568234825644,
      "grad_norm": 1.1324489116668701,
      "learning_rate": 0.0001264781841970533,
      "loss": 0.9629,
      "step": 74000
    },
    {
      "epoch": 4.266454292053018,
      "grad_norm": 1.2428852319717407,
      "learning_rate": 0.00011737641504067354,
      "loss": 0.9556,
      "step": 75000
    },
    {
      "epoch": 4.266454292053018,
      "eval_accuracy": 0.747436,
      "eval_loss": 0.9971279501914978,
      "eval_runtime": 66.3789,
      "eval_samples_per_second": 3766.258,
      "eval_steps_per_second": 14.719,
      "step": 75000
    },
    {
      "epoch": 4.323340349280391,
      "grad_norm": 1.4413901567459106,
      "learning_rate": 0.00010827464588429376,
      "loss": 0.9616,
      "step": 76000
    },
    {
      "epoch": 4.380226406507765,
      "grad_norm": 1.312136173248291,
      "learning_rate": 9.917287672791399e-05,
      "loss": 0.9657,
      "step": 77000
    },
    {
      "epoch": 4.437112463735138,
      "grad_norm": 1.3660274744033813,
      "learning_rate": 9.007110757153423e-05,
      "loss": 0.9613,
      "step": 78000
    },
    {
      "epoch": 4.493998520962512,
      "grad_norm": 1.4278331995010376,
      "learning_rate": 8.096933841515445e-05,
      "loss": 0.9576,
      "step": 79000
    },
    {
      "epoch": 4.550884578189885,
      "grad_norm": 1.20628821849823,
      "learning_rate": 7.186756925877468e-05,
      "loss": 0.9606,
      "step": 80000
    },
    {
      "epoch": 4.550884578189885,
      "eval_accuracy": 0.749644,
      "eval_loss": 0.990385890007019,
      "eval_runtime": 65.0093,
      "eval_samples_per_second": 3845.605,
      "eval_steps_per_second": 15.029,
      "step": 80000
    },
    {
      "epoch": 4.607770635417259,
      "grad_norm": 1.8617701530456543,
      "learning_rate": 6.27658001023949e-05,
      "loss": 0.954,
      "step": 81000
    },
    {
      "epoch": 4.664656692644633,
      "grad_norm": 1.352597951889038,
      "learning_rate": 5.366403094601513e-05,
      "loss": 0.957,
      "step": 82000
    },
    {
      "epoch": 4.721542749872007,
      "grad_norm": 1.4314864873886108,
      "learning_rate": 4.4562261789635364e-05,
      "loss": 0.9541,
      "step": 83000
    },
    {
      "epoch": 4.77842880709938,
      "grad_norm": 1.2464176416397095,
      "learning_rate": 3.5460492633255596e-05,
      "loss": 0.9545,
      "step": 84000
    },
    {
      "epoch": 4.835314864326754,
      "grad_norm": 1.4721029996871948,
      "learning_rate": 2.6358723476875817e-05,
      "loss": 0.9544,
      "step": 85000
    },
    {
      "epoch": 4.835314864326754,
      "eval_accuracy": 0.750732,
      "eval_loss": 0.9842203259468079,
      "eval_runtime": 65.3657,
      "eval_samples_per_second": 3824.637,
      "eval_steps_per_second": 14.947,
      "step": 85000
    },
    {
      "epoch": 4.892200921554127,
      "grad_norm": 1.383285403251648,
      "learning_rate": 1.7256954320496046e-05,
      "loss": 0.9556,
      "step": 86000
    },
    {
      "epoch": 4.949086978781501,
      "grad_norm": 1.3051174879074097,
      "learning_rate": 8.155185164116276e-06,
      "loss": 0.9503,
      "step": 87000
    },
    {
      "epoch": 5.0,
      "step": 87895,
      "total_flos": 5.4597447576e+17,
      "train_loss": 1.1272559640920097,
      "train_runtime": 10316.2205,
      "train_samples_per_second": 2181.031,
      "train_steps_per_second": 8.52
    }
  ],
  "logging_steps": 1000,
  "max_steps": 87895,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 5000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.4597447576e+17,
  "train_batch_size": 256,
  "trial_name": null,
  "trial_params": null
}