{
  "best_global_step": 9000,
  "best_metric": 0.9195617437362671,
  "best_model_checkpoint": "./results/checkpoint-9000",
  "epoch": 4.757171183079974,
  "eval_steps": 250,
  "global_step": 9000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.026437541308658295,
      "grad_norm": 43.99717712402344,
      "learning_rate": 0.00034625958983852136,
      "loss": 9.1282,
      "mean_token_accuracy": 0.3046248774370179,
      "num_tokens": 1638400.0,
      "step": 50
    },
    {
      "epoch": 0.05287508261731659,
      "grad_norm": 6.144142150878906,
      "learning_rate": 0.000407611186724682,
      "loss": 4.215,
      "mean_token_accuracy": 0.4404753165692091,
      "num_tokens": 3276800.0,
      "step": 100
    },
    {
      "epoch": 0.07931262392597488,
      "grad_norm": 2.289468288421631,
      "learning_rate": 0.0004434995702624468,
      "loss": 3.3619,
      "mean_token_accuracy": 0.4969379284977913,
      "num_tokens": 4915200.0,
      "step": 150
    },
    {
      "epoch": 0.10575016523463318,
      "grad_norm": 1.4314253330230713,
      "learning_rate": 0.0004689627836108426,
      "loss": 2.3482,
      "mean_token_accuracy": 0.6427779817581176,
      "num_tokens": 6553600.0,
      "step": 200
    },
    {
      "epoch": 0.13218770654329148,
      "grad_norm": 1.0555275678634644,
      "learning_rate": 0.0004887135863147016,
      "loss": 2.0093,
      "step": 250
    },
    {
      "epoch": 0.13218770654329148,
      "eval_loss": 1.941351056098938,
      "eval_mean_token_accuracy": 0.6896467157826616,
      "eval_num_tokens": 8192000.0,
      "eval_runtime": 1710.841,
      "eval_samples_per_second": 4.422,
      "eval_steps_per_second": 0.553,
      "step": 250
    },
    {
      "epoch": 0.15862524785194976,
      "grad_norm": 1.0403132438659668,
      "learning_rate": 0.0004991822047759241,
      "loss": 1.8613,
      "mean_token_accuracy": 0.6918438403308391,
      "num_tokens": 9830400.0,
      "step": 300
    },
    {
      "epoch": 0.18506278916060806,
      "grad_norm": 1.0463595390319824,
      "learning_rate": 0.0004964562206956711,
      "loss": 1.7529,
      "mean_token_accuracy": 0.7160025656223297,
      "num_tokens": 11468800.0,
      "step": 350
    },
    {
      "epoch": 0.21150033046926636,
      "grad_norm": 0.8012986183166504,
      "learning_rate": 0.0004937302366154182,
      "loss": 1.642,
      "mean_token_accuracy": 0.731451002061367,
      "num_tokens": 13107200.0,
      "step": 400
    },
    {
      "epoch": 0.23793787177792466,
      "grad_norm": 0.9207384586334229,
      "learning_rate": 0.0004910042525351653,
      "loss": 1.5717,
      "mean_token_accuracy": 0.7387188410758972,
      "num_tokens": 14745600.0,
      "step": 450
    },
    {
      "epoch": 0.26437541308658297,
      "grad_norm": 0.6695268750190735,
      "learning_rate": 0.00048827826845491225,
      "loss": 1.5342,
      "step": 500
    },
    {
      "epoch": 0.26437541308658297,
      "eval_loss": 1.520922064781189,
      "eval_mean_token_accuracy": 0.7428315233982643,
      "eval_num_tokens": 16384000.0,
      "eval_runtime": 1711.3798,
      "eval_samples_per_second": 4.42,
      "eval_steps_per_second": 0.553,
      "step": 500
    },
    {
      "epoch": 0.29081295439524124,
      "grad_norm": 0.7166313529014587,
      "learning_rate": 0.0004855522843746593,
      "loss": 1.5115,
      "mean_token_accuracy": 0.7436290304362774,
      "num_tokens": 18022400.0,
      "step": 550
    },
    {
      "epoch": 0.3172504957038995,
      "grad_norm": 0.7090346217155457,
      "learning_rate": 0.00048282630029440626,
      "loss": 1.4558,
      "mean_token_accuracy": 0.7508443316817284,
      "num_tokens": 19660800.0,
      "step": 600
    },
    {
      "epoch": 0.34368803701255785,
      "grad_norm": 0.8063613176345825,
      "learning_rate": 0.00048010031621415335,
      "loss": 1.4464,
      "mean_token_accuracy": 0.7509249743819236,
      "num_tokens": 21299200.0,
      "step": 650
    },
    {
      "epoch": 0.3701255783212161,
      "grad_norm": 1.142205834388733,
      "learning_rate": 0.0004773743321339004,
      "loss": 1.3984,
      "mean_token_accuracy": 0.756721040904522,
      "num_tokens": 22937600.0,
      "step": 700
    },
    {
      "epoch": 0.3965631196298744,
      "grad_norm": 0.8467270135879517,
      "learning_rate": 0.00047464834805364736,
      "loss": 1.3935,
      "step": 750
    },
    {
      "epoch": 0.3965631196298744,
      "eval_loss": 1.3857780694961548,
      "eval_mean_token_accuracy": 0.7577579059888142,
      "eval_num_tokens": 24576000.0,
      "eval_runtime": 1712.2261,
      "eval_samples_per_second": 4.418,
      "eval_steps_per_second": 0.552,
      "step": 750
    },
    {
      "epoch": 0.4230006609385327,
      "grad_norm": 0.7939649820327759,
      "learning_rate": 0.0004719223639733944,
      "loss": 1.3699,
      "mean_token_accuracy": 0.7578213591873646,
      "num_tokens": 26214400.0,
      "step": 800
    },
    {
      "epoch": 0.449438202247191,
      "grad_norm": 0.7455005645751953,
      "learning_rate": 0.0004691963798931415,
      "loss": 1.3693,
      "mean_token_accuracy": 0.7589296215772628,
      "num_tokens": 27852800.0,
      "step": 850
    },
    {
      "epoch": 0.47587574355584933,
      "grad_norm": 0.7528285980224609,
      "learning_rate": 0.00046647039581288846,
      "loss": 1.3242,
      "mean_token_accuracy": 0.7669953557848931,
      "num_tokens": 29491200.0,
      "step": 900
    },
    {
      "epoch": 0.5023132848645075,
      "grad_norm": 0.8056386113166809,
      "learning_rate": 0.0004637444117326355,
      "loss": 1.335,
      "mean_token_accuracy": 0.7646432068943977,
      "num_tokens": 31129600.0,
      "step": 950
    },
    {
      "epoch": 0.5287508261731659,
      "grad_norm": 0.7774543166160583,
      "learning_rate": 0.0004610184276523825,
      "loss": 1.3286,
      "step": 1000
    },
    {
      "epoch": 0.5287508261731659,
      "eval_loss": 1.3367868661880493,
      "eval_mean_token_accuracy": 0.7645143720362706,
      "eval_num_tokens": 32768000.0,
      "eval_runtime": 1713.3241,
      "eval_samples_per_second": 4.415,
      "eval_steps_per_second": 0.552,
      "step": 1000
    },
    {
      "epoch": 0.5551883674818242,
      "grad_norm": 1.0932977199554443,
      "learning_rate": 0.00045829244357212956,
      "loss": 1.3357,
      "mean_token_accuracy": 0.7644849714636802,
      "num_tokens": 34406400.0,
      "step": 1050
    },
    {
      "epoch": 0.5816259087904825,
      "grad_norm": 0.9064853191375732,
      "learning_rate": 0.0004555664594918766,
      "loss": 1.3309,
      "mean_token_accuracy": 0.7655669602751732,
      "num_tokens": 36044800.0,
      "step": 1100
    },
    {
      "epoch": 0.6080634500991408,
      "grad_norm": 1.1222511529922485,
      "learning_rate": 0.0004528404754116236,
      "loss": 1.3088,
      "mean_token_accuracy": 0.7684097030758857,
      "num_tokens": 37683200.0,
      "step": 1150
    },
    {
      "epoch": 0.634500991407799,
      "grad_norm": 0.8550713658332825,
      "learning_rate": 0.0004501144913313706,
      "loss": 1.3121,
      "mean_token_accuracy": 0.7672879993915558,
      "num_tokens": 39321600.0,
      "step": 1200
    },
    {
      "epoch": 0.6609385327164574,
      "grad_norm": 1.1444681882858276,
      "learning_rate": 0.0004473885072511177,
      "loss": 1.3124,
      "step": 1250
    },
    {
      "epoch": 0.6609385327164574,
      "eval_loss": 1.3140060901641846,
      "eval_mean_token_accuracy": 0.7666200130988882,
      "eval_num_tokens": 40960000.0,
      "eval_runtime": 1711.9779,
      "eval_samples_per_second": 4.419,
      "eval_steps_per_second": 0.553,
      "step": 1250
    },
    {
      "epoch": 0.6873760740251157,
      "grad_norm": 0.9385507702827454,
      "learning_rate": 0.0004446625231708647,
      "loss": 1.299,
      "mean_token_accuracy": 0.7683782380819321,
      "num_tokens": 42598400.0,
      "step": 1300
    },
    {
      "epoch": 0.713813615333774,
      "grad_norm": 0.9909027218818665,
      "learning_rate": 0.0004419365390906117,
      "loss": 1.2776,
      "mean_token_accuracy": 0.7721034941077233,
      "num_tokens": 44236800.0,
      "step": 1350
    },
    {
      "epoch": 0.7402511566424322,
      "grad_norm": 1.0495429039001465,
      "learning_rate": 0.00043921055501035873,
      "loss": 1.2533,
      "mean_token_accuracy": 0.7770307904481888,
      "num_tokens": 45875200.0,
      "step": 1400
    },
    {
      "epoch": 0.7666886979510905,
      "grad_norm": 0.9478822350502014,
      "learning_rate": 0.0004364845709301058,
      "loss": 1.2386,
      "mean_token_accuracy": 0.7782954525947571,
      "num_tokens": 47513600.0,
      "step": 1450
    },
    {
      "epoch": 0.7931262392597488,
      "grad_norm": 0.9904903173446655,
      "learning_rate": 0.0004337585868498528,
      "loss": 1.2542,
      "step": 1500
    },
    {
      "epoch": 0.7931262392597488,
      "eval_loss": 1.2644829750061035,
      "eval_mean_token_accuracy": 0.7736368500027042,
      "eval_num_tokens": 49152000.0,
      "eval_runtime": 1711.2255,
      "eval_samples_per_second": 4.421,
      "eval_steps_per_second": 0.553,
      "step": 1500
    },
    {
      "epoch": 0.8195637805684072,
      "grad_norm": 0.797590970993042,
      "learning_rate": 0.00043103260276959983,
      "loss": 1.2613,
      "mean_token_accuracy": 0.7753057803213597,
      "num_tokens": 50790400.0,
      "step": 1550
    },
    {
      "epoch": 0.8460013218770654,
      "grad_norm": 1.1253471374511719,
      "learning_rate": 0.0004283066186893468,
      "loss": 1.2626,
      "mean_token_accuracy": 0.7741856071352958,
      "num_tokens": 52428800.0,
      "step": 1600
    },
    {
      "epoch": 0.8724388631857237,
      "grad_norm": 0.9880785346031189,
      "learning_rate": 0.0004255806346090939,
      "loss": 1.2731,
      "mean_token_accuracy": 0.7714717736840249,
      "num_tokens": 54067200.0,
      "step": 1650
    },
    {
      "epoch": 0.898876404494382,
      "grad_norm": 0.7777257561683655,
      "learning_rate": 0.00042285465052884093,
      "loss": 1.2649,
      "mean_token_accuracy": 0.7737677192687988,
      "num_tokens": 55705600.0,
      "step": 1700
    },
    {
      "epoch": 0.9253139458030403,
      "grad_norm": 0.8958262801170349,
      "learning_rate": 0.0004201286664485879,
      "loss": 1.2498,
      "step": 1750
    },
    {
      "epoch": 0.9253139458030403,
      "eval_loss": 1.2289273738861084,
      "eval_mean_token_accuracy": 0.7793115381836639,
      "eval_num_tokens": 57344000.0,
      "eval_runtime": 1711.9208,
      "eval_samples_per_second": 4.419,
      "eval_steps_per_second": 0.553,
      "step": 1750
    },
    {
      "epoch": 0.9517514871116987,
      "grad_norm": 0.9251750111579895,
      "learning_rate": 0.00041740268236833495,
      "loss": 1.2212,
      "mean_token_accuracy": 0.7776866452395916,
      "num_tokens": 58982400.0,
      "step": 1800
    },
    {
      "epoch": 0.9781890284203569,
      "grad_norm": 0.8101162910461426,
      "learning_rate": 0.00041467669828808203,
      "loss": 1.2025,
      "mean_token_accuracy": 0.7838043755292893,
      "num_tokens": 60620800.0,
      "step": 1850
    },
    {
      "epoch": 1.0042300066093852,
      "grad_norm": 1.5328075885772705,
      "learning_rate": 0.00041200523388943414,
      "loss": 1.2204,
      "mean_token_accuracy": 0.7796021451804843,
      "num_tokens": 62234624.0,
      "step": 1900
    },
    {
      "epoch": 1.0306675479180436,
      "grad_norm": 0.9993696212768555,
      "learning_rate": 0.0004092792498091811,
      "loss": 1.1622,
      "mean_token_accuracy": 0.7850250500440598,
      "num_tokens": 63873024.0,
      "step": 1950
    },
    {
      "epoch": 1.057105089226702,
      "grad_norm": 0.9176653027534485,
      "learning_rate": 0.00040655326572892816,
      "loss": 1.1807,
      "step": 2000
    },
    {
      "epoch": 1.057105089226702,
      "eval_loss": 1.2058873176574707,
      "eval_mean_token_accuracy": 0.7832688034588893,
      "eval_num_tokens": 65511424.0,
      "eval_runtime": 1712.3284,
      "eval_samples_per_second": 4.418,
      "eval_steps_per_second": 0.552,
      "step": 2000
    },
    {
      "epoch": 1.0835426305353602,
      "grad_norm": 1.060483455657959,
      "learning_rate": 0.00040382728164867513,
      "loss": 1.1635,
      "mean_token_accuracy": 0.7839937689900398,
      "num_tokens": 67149824.0,
      "step": 2050
    },
    {
      "epoch": 1.1099801718440185,
      "grad_norm": 1.3085092306137085,
      "learning_rate": 0.0004011012975684222,
      "loss": 1.1928,
      "mean_token_accuracy": 0.7807007575035095,
      "num_tokens": 68788224.0,
      "step": 2100
    },
    {
      "epoch": 1.1364177131526767,
      "grad_norm": 0.9808939695358276,
      "learning_rate": 0.00039837531348816925,
      "loss": 1.1454,
      "mean_token_accuracy": 0.7877211648225785,
      "num_tokens": 70426624.0,
      "step": 2150
    },
    {
      "epoch": 1.162855254461335,
      "grad_norm": 0.8935715556144714,
      "learning_rate": 0.00039564932940791623,
      "loss": 1.1514,
      "mean_token_accuracy": 0.7872568437457085,
      "num_tokens": 72065024.0,
      "step": 2200
    },
    {
      "epoch": 1.1892927957699935,
      "grad_norm": 0.9606215357780457,
      "learning_rate": 0.00039292334532766327,
      "loss": 1.1569,
      "step": 2250
    },
    {
      "epoch": 1.1892927957699935,
      "eval_loss": 1.1869500875473022,
      "eval_mean_token_accuracy": 0.7853513486037547,
      "eval_num_tokens": 73703424.0,
      "eval_runtime": 1713.6219,
      "eval_samples_per_second": 4.415,
      "eval_steps_per_second": 0.552,
      "step": 2250
    },
    {
      "epoch": 1.2157303370786516,
      "grad_norm": 1.2232052087783813,
      "learning_rate": 0.00039019736124741035,
      "loss": 1.1651,
      "mean_token_accuracy": 0.785599644035101,
      "num_tokens": 75341824.0,
      "step": 2300
    },
    {
      "epoch": 1.24216787838731,
      "grad_norm": 1.2846604585647583,
      "learning_rate": 0.00038747137716715733,
      "loss": 1.1691,
      "mean_token_accuracy": 0.7854020059108734,
      "num_tokens": 76980224.0,
      "step": 2350
    },
    {
      "epoch": 1.2686054196959682,
      "grad_norm": 1.0899465084075928,
      "learning_rate": 0.00038474539308690437,
      "loss": 1.1416,
      "mean_token_accuracy": 0.7897036933898925,
      "num_tokens": 78618624.0,
      "step": 2400
    },
    {
      "epoch": 1.2950429610046266,
      "grad_norm": 1.0662829875946045,
      "learning_rate": 0.0003820194090066514,
      "loss": 1.1435,
      "mean_token_accuracy": 0.7887658843398094,
      "num_tokens": 80257024.0,
      "step": 2450
    },
    {
      "epoch": 1.321480502313285,
      "grad_norm": 0.9844885468482971,
      "learning_rate": 0.00037929342492639843,
      "loss": 1.1374,
      "step": 2500
    },
    {
      "epoch": 1.321480502313285,
      "eval_loss": 1.1827911138534546,
      "eval_mean_token_accuracy": 0.7856577540930936,
      "eval_num_tokens": 81895424.0,
      "eval_runtime": 1711.6622,
      "eval_samples_per_second": 4.42,
      "eval_steps_per_second": 0.553,
      "step": 2500
    },
    {
      "epoch": 1.3479180436219431,
      "grad_norm": 0.8380193710327148,
      "learning_rate": 0.00037656744084614547,
      "loss": 1.1353,
      "mean_token_accuracy": 0.790248963534832,
      "num_tokens": 83533824.0,
      "step": 2550
    },
    {
      "epoch": 1.3743555849306015,
      "grad_norm": 0.7707766890525818,
      "learning_rate": 0.0003738414567658925,
      "loss": 1.1309,
      "mean_token_accuracy": 0.7910679399967193,
      "num_tokens": 85172224.0,
      "step": 2600
    },
    {
      "epoch": 1.4007931262392597,
      "grad_norm": 1.3123962879180908,
      "learning_rate": 0.0003711154726856395,
      "loss": 1.119,
      "mean_token_accuracy": 0.7927541556954384,
      "num_tokens": 86810624.0,
      "step": 2650
    },
    {
      "epoch": 1.427230667547918,
      "grad_norm": 0.9434394836425781,
      "learning_rate": 0.00036838948860538656,
      "loss": 1.1233,
      "mean_token_accuracy": 0.7917754176259041,
      "num_tokens": 88449024.0,
      "step": 2700
    },
    {
      "epoch": 1.4536682088565764,
      "grad_norm": 1.0501152276992798,
      "learning_rate": 0.0003656635045251336,
      "loss": 1.1463,
      "step": 2750
    },
    {
      "epoch": 1.4536682088565764,
      "eval_loss": 1.1497071981430054,
      "eval_mean_token_accuracy": 0.7899814840981119,
      "eval_num_tokens": 90087424.0,
      "eval_runtime": 1712.288,
      "eval_samples_per_second": 4.418,
      "eval_steps_per_second": 0.552,
      "step": 2750
    },
    {
      "epoch": 1.4801057501652346,
      "grad_norm": 1.1930551528930664,
      "learning_rate": 0.0003629375204448806,
      "loss": 1.1309,
      "mean_token_accuracy": 0.7891275675594807,
      "num_tokens": 91725824.0,
      "step": 2800
    },
    {
      "epoch": 1.5065432914738928,
      "grad_norm": 1.3507503271102905,
      "learning_rate": 0.0003602115363646276,
      "loss": 1.1303,
      "mean_token_accuracy": 0.7900684276223182,
      "num_tokens": 93364224.0,
      "step": 2850
    },
    {
      "epoch": 1.5329808327825512,
      "grad_norm": 0.935932993888855,
      "learning_rate": 0.0003574855522843747,
      "loss": 1.124,
      "mean_token_accuracy": 0.7918371230363845,
      "num_tokens": 95002624.0,
      "step": 2900
    },
    {
      "epoch": 1.5594183740912095,
      "grad_norm": 1.3527334928512573,
      "learning_rate": 0.0003547595682041217,
      "loss": 1.1103,
      "mean_token_accuracy": 0.7935648819804192,
      "num_tokens": 96641024.0,
      "step": 2950
    },
    {
      "epoch": 1.585855915399868,
      "grad_norm": 0.8783284425735474,
      "learning_rate": 0.0003520335841238687,
      "loss": 1.113,
      "step": 3000
    },
    {
      "epoch": 1.585855915399868,
      "eval_loss": 1.1312052011489868,
      "eval_mean_token_accuracy": 0.7928862137597913,
      "eval_num_tokens": 98279424.0,
      "eval_runtime": 1712.2465,
      "eval_samples_per_second": 4.418,
      "eval_steps_per_second": 0.552,
      "step": 3000
    },
    {
      "epoch": 1.612293456708526,
      "grad_norm": 1.079725980758667,
      "learning_rate": 0.00034930760004361574,
      "loss": 1.107,
      "mean_token_accuracy": 0.7933507452905179,
      "num_tokens": 99917824.0,
      "step": 3050
    },
    {
      "epoch": 1.6387309980171842,
      "grad_norm": 1.188661813735962,
      "learning_rate": 0.0003465816159633628,
      "loss": 1.1139,
      "mean_token_accuracy": 0.7925458225607872,
      "num_tokens": 101556224.0,
      "step": 3100
    },
    {
      "epoch": 1.6651685393258426,
      "grad_norm": 0.983051061630249,
      "learning_rate": 0.0003438556318831098,
      "loss": 1.1198,
      "mean_token_accuracy": 0.7924914485216141,
      "num_tokens": 103194624.0,
      "step": 3150
    },
    {
      "epoch": 1.691606080634501,
      "grad_norm": 0.9756836891174316,
      "learning_rate": 0.00034112964780285684,
      "loss": 1.1175,
      "mean_token_accuracy": 0.7917662528157234,
      "num_tokens": 104833024.0,
      "step": 3200
    },
    {
      "epoch": 1.7180436219431594,
      "grad_norm": 1.1230757236480713,
      "learning_rate": 0.0003384036637226039,
      "loss": 1.0988,
      "step": 3250
    },
    {
      "epoch": 1.7180436219431594,
      "eval_loss": 1.1241850852966309,
      "eval_mean_token_accuracy": 0.793406566215116,
      "eval_num_tokens": 106471424.0,
      "eval_runtime": 1712.6064,
      "eval_samples_per_second": 4.417,
      "eval_steps_per_second": 0.552,
      "step": 3250
    },
    {
      "epoch": 1.7444811632518176,
      "grad_norm": 1.3361942768096924,
      "learning_rate": 0.0003356776796423509,
      "loss": 1.0957,
      "mean_token_accuracy": 0.7953433538973331,
      "num_tokens": 108109824.0,
      "step": 3300
    },
    {
      "epoch": 1.7709187045604757,
      "grad_norm": 0.8606221079826355,
      "learning_rate": 0.00033295169556209794,
      "loss": 1.072,
      "mean_token_accuracy": 0.7988990727066994,
      "num_tokens": 109748224.0,
      "step": 3350
    },
    {
      "epoch": 1.7973562458691341,
      "grad_norm": 1.1985405683517456,
      "learning_rate": 0.0003302257114818449,
      "loss": 1.0964,
      "mean_token_accuracy": 0.7953415229916573,
      "num_tokens": 111386624.0,
      "step": 3400
    },
    {
      "epoch": 1.8237937871777925,
      "grad_norm": 1.0375052690505981,
      "learning_rate": 0.000327499727401592,
      "loss": 1.0821,
      "mean_token_accuracy": 0.7982869046926498,
      "num_tokens": 113025024.0,
      "step": 3450
    },
    {
      "epoch": 1.8502313284864509,
      "grad_norm": 1.037645936012268,
      "learning_rate": 0.00032477374332133904,
      "loss": 1.0854,
      "step": 3500
    },
    {
      "epoch": 1.8502313284864509,
      "eval_loss": 1.1053054332733154,
      "eval_mean_token_accuracy": 0.7964076004119051,
      "eval_num_tokens": 114663424.0,
      "eval_runtime": 1713.2036,
      "eval_samples_per_second": 4.416,
      "eval_steps_per_second": 0.552,
      "step": 3500
    },
    {
      "epoch": 1.876668869795109,
      "grad_norm": 0.8609442114830017,
      "learning_rate": 0.000322047759241086,
      "loss": 1.0789,
      "mean_token_accuracy": 0.7976255512237549,
      "num_tokens": 116301824.0,
      "step": 3550
    },
    {
      "epoch": 1.9031064111037672,
      "grad_norm": 0.7845131158828735,
      "learning_rate": 0.00031932177516083305,
      "loss": 1.1106,
      "mean_token_accuracy": 0.7933571606874465,
      "num_tokens": 117940224.0,
      "step": 3600
    },
    {
      "epoch": 1.9295439524124256,
      "grad_norm": 0.9003056287765503,
      "learning_rate": 0.00031659579108058014,
      "loss": 1.0636,
      "mean_token_accuracy": 0.7998753663897514,
      "num_tokens": 119578624.0,
      "step": 3650
    },
    {
      "epoch": 1.955981493721084,
      "grad_norm": 1.202172040939331,
      "learning_rate": 0.0003138698070003271,
      "loss": 1.0809,
      "mean_token_accuracy": 0.7975763711333275,
      "num_tokens": 121217024.0,
      "step": 3700
    },
    {
      "epoch": 1.9824190350297424,
      "grad_norm": 0.6643933653831482,
      "learning_rate": 0.00031114382292007415,
      "loss": 1.0808,
      "step": 3750
    },
    {
      "epoch": 1.9824190350297424,
      "eval_loss": 1.0950915813446045,
      "eval_mean_token_accuracy": 0.7972050871833939,
      "eval_num_tokens": 122855424.0,
      "eval_runtime": 1713.9729,
      "eval_samples_per_second": 4.414,
      "eval_steps_per_second": 0.552,
      "step": 3750
    },
    {
      "epoch": 2.0084600132187704,
      "grad_norm": 1.0089055299758911,
      "learning_rate": 0.00030847235852142626,
      "loss": 1.0434,
      "mean_token_accuracy": 0.7995400524860065,
      "num_tokens": 124469248.0,
      "step": 3800
    },
    {
      "epoch": 2.034897554527429,
      "grad_norm": 1.8495018482208252,
      "learning_rate": 0.00030574637444117324,
      "loss": 1.0069,
      "mean_token_accuracy": 0.8041293996572495,
      "num_tokens": 126107648.0,
      "step": 3850
    },
    {
      "epoch": 2.061335095836087,
      "grad_norm": 0.9792631268501282,
      "learning_rate": 0.0003030203903609203,
      "loss": 1.0248,
      "mean_token_accuracy": 0.800488149523735,
      "num_tokens": 127746048.0,
      "step": 3900
    },
    {
      "epoch": 2.0877726371447456,
      "grad_norm": 1.0454398393630981,
      "learning_rate": 0.00030029440628066736,
      "loss": 1.0032,
      "mean_token_accuracy": 0.8048930823802948,
      "num_tokens": 129384448.0,
      "step": 3950
    },
    {
      "epoch": 2.114210178453404,
      "grad_norm": 1.124090313911438,
      "learning_rate": 0.00029756842220041434,
      "loss": 1.0141,
      "step": 4000
    },
    {
      "epoch": 2.114210178453404,
      "eval_loss": 1.0894951820373535,
      "eval_mean_token_accuracy": 0.7976183624146604,
      "eval_num_tokens": 131022848.0,
      "eval_runtime": 1713.146,
      "eval_samples_per_second": 4.416,
      "eval_steps_per_second": 0.552,
      "step": 4000
    },
    {
      "epoch": 2.140647719762062,
      "grad_norm": 1.068744421005249,
      "learning_rate": 0.0002948424381201614,
      "loss": 1.017,
      "mean_token_accuracy": 0.8032655183970928,
      "num_tokens": 132661248.0,
      "step": 4050
    },
    {
      "epoch": 2.1670852610707203,
      "grad_norm": 0.6453216671943665,
      "learning_rate": 0.0002921164540399084,
      "loss": 1.0173,
      "mean_token_accuracy": 0.8023881965875626,
      "num_tokens": 134299648.0,
      "step": 4100
    },
    {
      "epoch": 2.1935228023793787,
      "grad_norm": 0.8488343954086304,
      "learning_rate": 0.00028939046995965544,
      "loss": 1.0192,
      "mean_token_accuracy": 0.8028500735759735,
      "num_tokens": 135938048.0,
      "step": 4150
    },
    {
      "epoch": 2.219960343688037,
      "grad_norm": 1.107086181640625,
      "learning_rate": 0.00028666448587940247,
      "loss": 1.0167,
      "mean_token_accuracy": 0.8023680368065834,
      "num_tokens": 137576448.0,
      "step": 4200
    },
    {
      "epoch": 2.2463978849966955,
      "grad_norm": 0.9816263914108276,
      "learning_rate": 0.0002839385017991495,
      "loss": 1.026,
      "step": 4250
    },
    {
      "epoch": 2.2463978849966955,
      "eval_loss": 1.070574402809143,
      "eval_mean_token_accuracy": 0.8008053159738948,
      "eval_num_tokens": 139214848.0,
      "eval_runtime": 1713.5677,
      "eval_samples_per_second": 4.415,
      "eval_steps_per_second": 0.552,
      "step": 4250
    },
    {
      "epoch": 2.2728354263053534,
      "grad_norm": 1.0816267728805542,
      "learning_rate": 0.00028121251771889654,
      "loss": 1.0271,
      "mean_token_accuracy": 0.8018050470948219,
      "num_tokens": 140853248.0,
      "step": 4300
    },
    {
      "epoch": 2.299272967614012,
      "grad_norm": 1.1499203443527222,
      "learning_rate": 0.00027848653363864357,
      "loss": 1.0008,
      "mean_token_accuracy": 0.8052902013063431,
      "num_tokens": 142491648.0,
      "step": 4350
    },
    {
      "epoch": 2.32571050892267,
      "grad_norm": 0.9058449864387512,
      "learning_rate": 0.0002757605495583906,
      "loss": 1.002,
      "mean_token_accuracy": 0.806196848154068,
      "num_tokens": 144130048.0,
      "step": 4400
    },
    {
      "epoch": 2.3521480502313286,
      "grad_norm": 0.8086408972740173,
      "learning_rate": 0.0002730345654781376,
      "loss": 0.9968,
      "mean_token_accuracy": 0.8068004646897315,
      "num_tokens": 145768448.0,
      "step": 4450
    },
    {
      "epoch": 2.378585591539987,
      "grad_norm": 0.9422939419746399,
      "learning_rate": 0.00027030858139788467,
      "loss": 0.9925,
      "step": 4500
    },
    {
      "epoch": 2.378585591539987,
      "eval_loss": 1.0708719491958618,
      "eval_mean_token_accuracy": 0.8005553823570872,
      "eval_num_tokens": 147406848.0,
      "eval_runtime": 1714.6525,
      "eval_samples_per_second": 4.412,
      "eval_steps_per_second": 0.552,
      "step": 4500
    },
    {
      "epoch": 2.405023132848645,
      "grad_norm": 0.9562957882881165,
      "learning_rate": 0.0002675825973176317,
      "loss": 1.0125,
      "mean_token_accuracy": 0.8054704304039478,
      "num_tokens": 149045248.0,
      "step": 4550
    },
    {
      "epoch": 2.4314606741573033,
      "grad_norm": 0.8408384919166565,
      "learning_rate": 0.0002648566132373787,
      "loss": 1.0194,
      "mean_token_accuracy": 0.8027529340982437,
      "num_tokens": 150683648.0,
      "step": 4600
    },
    {
      "epoch": 2.4578982154659617,
      "grad_norm": 0.9756256341934204,
      "learning_rate": 0.0002621306291571257,
      "loss": 0.9828,
      "mean_token_accuracy": 0.8083504402637481,
      "num_tokens": 152322048.0,
      "step": 4650
    },
    {
      "epoch": 2.48433575677462,
      "grad_norm": 1.2137442827224731,
      "learning_rate": 0.0002594046450768728,
      "loss": 1.0021,
      "mean_token_accuracy": 0.8056860953569412,
      "num_tokens": 153960448.0,
      "step": 4700
    },
    {
      "epoch": 2.5107732980832784,
      "grad_norm": 0.7544079422950745,
      "learning_rate": 0.0002566786609966198,
      "loss": 1.0089,
      "step": 4750
    },
    {
      "epoch": 2.5107732980832784,
      "eval_loss": 1.0549876689910889,
      "eval_mean_token_accuracy": 0.8026504306158102,
      "eval_num_tokens": 155598848.0,
      "eval_runtime": 1712.6528,
      "eval_samples_per_second": 4.417,
      "eval_steps_per_second": 0.552,
      "step": 4750
    },
    {
      "epoch": 2.5372108393919364,
      "grad_norm": 1.3571584224700928,
      "learning_rate": 0.0002539526769163668,
      "loss": 0.9947,
      "mean_token_accuracy": 0.8055629892647267,
      "num_tokens": 157237248.0,
      "step": 4800
    },
    {
      "epoch": 2.5636483807005948,
      "grad_norm": 0.9661728739738464,
      "learning_rate": 0.00025122669283611385,
      "loss": 0.9934,
      "mean_token_accuracy": 0.8067454797029495,
      "num_tokens": 158875648.0,
      "step": 4850
    },
    {
      "epoch": 2.590085922009253,
      "grad_norm": 0.8960219025611877,
      "learning_rate": 0.0002485007087558609,
      "loss": 1.0084,
      "mean_token_accuracy": 0.8042240959405899,
      "num_tokens": 160514048.0,
      "step": 4900
    },
    {
      "epoch": 2.6165234633179115,
      "grad_norm": 0.8337807059288025,
      "learning_rate": 0.0002457747246756079,
      "loss": 1.0028,
      "mean_token_accuracy": 0.8062023460865021,
      "num_tokens": 162152448.0,
      "step": 4950
    },
    {
      "epoch": 2.64296100462657,
      "grad_norm": 1.2237184047698975,
      "learning_rate": 0.00024304874059535492,
      "loss": 0.9907,
      "step": 5000
    },
    {
      "epoch": 2.64296100462657,
      "eval_loss": 1.0443217754364014,
      "eval_mean_token_accuracy": 0.8038508863706165,
      "eval_num_tokens": 163790848.0,
      "eval_runtime": 1716.2002,
      "eval_samples_per_second": 4.408,
      "eval_steps_per_second": 0.551,
      "step": 5000
    },
    {
      "epoch": 2.669398545935228,
      "grad_norm": 0.7289232015609741,
      "learning_rate": 0.00024032275651510195,
      "loss": 1.0012,
      "mean_token_accuracy": 0.8063395051658153,
      "num_tokens": 165429248.0,
      "step": 5050
    },
    {
      "epoch": 2.6958360872438862,
      "grad_norm": 1.0250189304351807,
      "learning_rate": 0.000237596772434849,
      "loss": 0.976,
      "mean_token_accuracy": 0.8098240447044373,
      "num_tokens": 167067648.0,
      "step": 5100
    },
    {
      "epoch": 2.7222736285525446,
      "grad_norm": 1.0034643411636353,
      "learning_rate": 0.00023487078835459602,
      "loss": 0.9848,
      "mean_token_accuracy": 0.8076087480783463,
      "num_tokens": 168706048.0,
      "step": 5150
    },
    {
      "epoch": 2.748711169861203,
      "grad_norm": 0.9291382431983948,
      "learning_rate": 0.00023214480427434303,
      "loss": 0.9757,
      "mean_token_accuracy": 0.8101533487439155,
      "num_tokens": 170344448.0,
      "step": 5200
    },
    {
      "epoch": 2.7751487111698614,
      "grad_norm": 0.6038099527359009,
      "learning_rate": 0.00022941882019409009,
      "loss": 0.989,
      "step": 5250
    },
    {
      "epoch": 2.7751487111698614,
      "eval_loss": 1.0298680067062378,
      "eval_mean_token_accuracy": 0.8057682283584966,
      "eval_num_tokens": 171982848.0,
      "eval_runtime": 1715.5734,
      "eval_samples_per_second": 4.41,
      "eval_steps_per_second": 0.551,
      "step": 5250
    },
    {
      "epoch": 2.8015862524785193,
      "grad_norm": 0.8782141804695129,
      "learning_rate": 0.0002266928361138371,
      "loss": 1.0017,
      "mean_token_accuracy": 0.8068728642165661,
      "num_tokens": 173621248.0,
      "step": 5300
    },
    {
      "epoch": 2.8280237937871777,
      "grad_norm": 0.5077300667762756,
      "learning_rate": 0.00022396685203358413,
      "loss": 0.9759,
      "mean_token_accuracy": 0.8097360721230507,
      "num_tokens": 175259648.0,
      "step": 5350
    },
    {
      "epoch": 2.854461335095836,
      "grad_norm": 0.571225643157959,
      "learning_rate": 0.00022124086795333116,
      "loss": 0.9693,
      "mean_token_accuracy": 0.8103903934359551,
      "num_tokens": 176898048.0,
      "step": 5400
    },
    {
      "epoch": 2.8808988764044945,
      "grad_norm": 0.9907204508781433,
      "learning_rate": 0.0002185148838730782,
      "loss": 0.9783,
      "mean_token_accuracy": 0.8095271262526512,
      "num_tokens": 178536448.0,
      "step": 5450
    },
    {
      "epoch": 2.907336417713153,
      "grad_norm": 1.0461844205856323,
      "learning_rate": 0.0002157888997928252,
      "loss": 0.9796,
      "step": 5500
    },
    {
      "epoch": 2.907336417713153,
      "eval_loss": 1.0164023637771606,
      "eval_mean_token_accuracy": 0.8078667395462698,
      "eval_num_tokens": 180174848.0,
      "eval_runtime": 1713.163,
      "eval_samples_per_second": 4.416,
      "eval_steps_per_second": 0.552,
      "step": 5500
    },
    {
      "epoch": 2.933773959021811,
      "grad_norm": 0.5164626240730286,
      "learning_rate": 0.00021306291571257226,
      "loss": 0.9813,
      "mean_token_accuracy": 0.8092189015448094,
      "num_tokens": 181813248.0,
      "step": 5550
    },
    {
      "epoch": 2.960211500330469,
      "grad_norm": 0.9014139771461487,
      "learning_rate": 0.00021033693163231926,
      "loss": 0.9785,
      "mean_token_accuracy": 0.808426809310913,
      "num_tokens": 183451648.0,
      "step": 5600
    },
    {
      "epoch": 2.9866490416391276,
      "grad_norm": 1.2656482458114624,
      "learning_rate": 0.0002076109475520663,
      "loss": 0.9546,
      "mean_token_accuracy": 0.8128830647468567,
      "num_tokens": 185090048.0,
      "step": 5650
    },
    {
      "epoch": 3.012690019828156,
      "grad_norm": 0.6291442513465881,
      "learning_rate": 0.0002049394831534184,
      "loss": 0.9425,
      "mean_token_accuracy": 0.8123012103405095,
      "num_tokens": 186703872.0,
      "step": 5700
    },
    {
      "epoch": 3.0391275611368145,
      "grad_norm": 0.9149487614631653,
      "learning_rate": 0.0002022134990731654,
      "loss": 0.9036,
      "step": 5750
    },
    {
      "epoch": 3.0391275611368145,
      "eval_loss": 1.010271668434143,
      "eval_mean_token_accuracy": 0.8088774525463959,
      "eval_num_tokens": 188342272.0,
      "eval_runtime": 1714.8688,
      "eval_samples_per_second": 4.411,
      "eval_steps_per_second": 0.552,
      "step": 5750
    },
    {
      "epoch": 3.0655651024454724,
      "grad_norm": 0.7065662741661072,
      "learning_rate": 0.00019948751499291245,
      "loss": 0.9032,
      "mean_token_accuracy": 0.816273825019598,
      "num_tokens": 189980672.0,
      "step": 5800
    },
    {
      "epoch": 3.092002643754131,
      "grad_norm": 0.8670871257781982,
      "learning_rate": 0.00019676153091265948,
      "loss": 0.9084,
      "mean_token_accuracy": 0.8148881956934929,
      "num_tokens": 191619072.0,
      "step": 5850
    },
    {
      "epoch": 3.118440185062789,
      "grad_norm": 0.9667902588844299,
      "learning_rate": 0.0001940355468324065,
      "loss": 0.8968,
      "mean_token_accuracy": 0.8168530049920082,
      "num_tokens": 193257472.0,
      "step": 5900
    },
    {
      "epoch": 3.1448777263714476,
      "grad_norm": 0.6061888933181763,
      "learning_rate": 0.00019130956275215352,
      "loss": 0.9082,
      "mean_token_accuracy": 0.8162536644935607,
      "num_tokens": 194895872.0,
      "step": 5950
    },
    {
      "epoch": 3.1713152676801055,
      "grad_norm": 0.8645080924034119,
      "learning_rate": 0.00018858357867190058,
      "loss": 0.9014,
      "step": 6000
    },
    {
      "epoch": 3.1713152676801055,
      "eval_loss": 1.0060479640960693,
      "eval_mean_token_accuracy": 0.8095184696275134,
      "eval_num_tokens": 196534272.0,
      "eval_runtime": 1716.7924,
      "eval_samples_per_second": 4.406,
      "eval_steps_per_second": 0.551,
      "step": 6000
    },
    {
      "epoch": 3.197752808988764,
      "grad_norm": 0.9978011250495911,
      "learning_rate": 0.00018585759459164758,
      "loss": 0.8941,
      "mean_token_accuracy": 0.817662510573864,
      "num_tokens": 198172672.0,
      "step": 6050
    },
    {
      "epoch": 3.2241903502974223,
      "grad_norm": 0.610701322555542,
      "learning_rate": 0.00018313161051139462,
      "loss": 0.9088,
      "mean_token_accuracy": 0.8161278122663498,
      "num_tokens": 199811072.0,
      "step": 6100
    },
    {
      "epoch": 3.2506278916060807,
      "grad_norm": 0.592491626739502,
      "learning_rate": 0.00018040562643114165,
      "loss": 0.9111,
      "mean_token_accuracy": 0.8152193301916122,
      "num_tokens": 201449472.0,
      "step": 6150
    },
    {
      "epoch": 3.277065432914739,
      "grad_norm": 0.5505239367485046,
      "learning_rate": 0.00017767964235088868,
      "loss": 0.894,
      "mean_token_accuracy": 0.8186956241726875,
      "num_tokens": 203087872.0,
      "step": 6200
    },
    {
      "epoch": 3.303502974223397,
      "grad_norm": 0.6099046468734741,
      "learning_rate": 0.0001749536582706357,
      "loss": 0.9061,
      "step": 6250
    },
    {
      "epoch": 3.303502974223397,
      "eval_loss": 0.9953573942184448,
      "eval_mean_token_accuracy": 0.8111508759585294,
      "eval_num_tokens": 204726272.0,
      "eval_runtime": 1714.1014,
      "eval_samples_per_second": 4.413,
      "eval_steps_per_second": 0.552,
      "step": 6250
    },
    {
      "epoch": 3.3299405155320554,
      "grad_norm": 0.6866306066513062,
      "learning_rate": 0.00017222767419038275,
      "loss": 0.9023,
      "mean_token_accuracy": 0.8162371690571308,
      "num_tokens": 206364672.0,
      "step": 6300
    },
    {
      "epoch": 3.3563780568407138,
      "grad_norm": 0.6457993984222412,
      "learning_rate": 0.00016950169011012976,
      "loss": 0.9083,
      "mean_token_accuracy": 0.8154759269952774,
      "num_tokens": 208003072.0,
      "step": 6350
    },
    {
      "epoch": 3.382815598149372,
      "grad_norm": 0.5925601124763489,
      "learning_rate": 0.0001667757060298768,
      "loss": 0.9009,
      "mean_token_accuracy": 0.8165108740329743,
      "num_tokens": 209641472.0,
      "step": 6400
    },
    {
      "epoch": 3.4092531394580305,
      "grad_norm": 0.8631545901298523,
      "learning_rate": 0.00016404972194962382,
      "loss": 0.8779,
      "mean_token_accuracy": 0.8210025626420975,
      "num_tokens": 211279872.0,
      "step": 6450
    },
    {
      "epoch": 3.4356906807666885,
      "grad_norm": 0.6113960146903992,
      "learning_rate": 0.00016132373786937086,
      "loss": 0.8894,
      "step": 6500
    },
    {
      "epoch": 3.4356906807666885,
      "eval_loss": 0.9821568131446838,
      "eval_mean_token_accuracy": 0.8126549717613809,
      "eval_num_tokens": 212918272.0,
      "eval_runtime": 1714.991,
      "eval_samples_per_second": 4.411,
      "eval_steps_per_second": 0.552,
      "step": 6500
    },
    {
      "epoch": 3.462128222075347,
      "grad_norm": 0.6569721698760986,
      "learning_rate": 0.00015859775378911786,
      "loss": 0.8828,
      "mean_token_accuracy": 0.8195891354978084,
      "num_tokens": 214556672.0,
      "step": 6550
    },
    {
      "epoch": 3.4885657633840053,
      "grad_norm": 0.548383891582489,
      "learning_rate": 0.0001558717697088649,
      "loss": 0.8922,
      "mean_token_accuracy": 0.8191379508376122,
      "num_tokens": 216195072.0,
      "step": 6600
    },
    {
      "epoch": 3.5150033046926636,
      "grad_norm": 0.4519716799259186,
      "learning_rate": 0.00015314578562861193,
      "loss": 0.9047,
      "mean_token_accuracy": 0.8174547863006592,
      "num_tokens": 217833472.0,
      "step": 6650
    },
    {
      "epoch": 3.541440846001322,
      "grad_norm": 0.4486851692199707,
      "learning_rate": 0.00015041980154835896,
      "loss": 0.8812,
      "mean_token_accuracy": 0.8206359946727753,
      "num_tokens": 219471872.0,
      "step": 6700
    },
    {
      "epoch": 3.56787838730998,
      "grad_norm": 0.511616587638855,
      "learning_rate": 0.00014769381746810597,
      "loss": 0.8754,
      "step": 6750
    },
    {
      "epoch": 3.56787838730998,
      "eval_loss": 0.9736062288284302,
      "eval_mean_token_accuracy": 0.8140331042997428,
      "eval_num_tokens": 221110272.0,
      "eval_runtime": 1716.1615,
      "eval_samples_per_second": 4.408,
      "eval_steps_per_second": 0.551,
      "step": 6750
    },
    {
      "epoch": 3.5943159286186384,
      "grad_norm": 0.4776919186115265,
      "learning_rate": 0.00014496783338785303,
      "loss": 0.8959,
      "mean_token_accuracy": 0.8200723953545094,
      "num_tokens": 222748672.0,
      "step": 6800
    },
    {
      "epoch": 3.6207534699272967,
      "grad_norm": 0.6696462035179138,
      "learning_rate": 0.00014224184930760003,
      "loss": 0.8818,
      "mean_token_accuracy": 0.8205584043264389,
      "num_tokens": 224387072.0,
      "step": 6850
    },
    {
      "epoch": 3.647191011235955,
      "grad_norm": 0.6305286884307861,
      "learning_rate": 0.00013951586522734707,
      "loss": 0.8918,
      "mean_token_accuracy": 0.8183388301730156,
      "num_tokens": 226025472.0,
      "step": 6900
    },
    {
      "epoch": 3.6736285525446135,
      "grad_norm": 0.4481205344200134,
      "learning_rate": 0.0001367898811470941,
      "loss": 0.8689,
      "mean_token_accuracy": 0.822255617082119,
      "num_tokens": 227663872.0,
      "step": 6950
    },
    {
      "epoch": 3.7000660938532715,
      "grad_norm": 0.5297748446464539,
      "learning_rate": 0.00013406389706684113,
      "loss": 0.891,
      "step": 7000
    },
    {
      "epoch": 3.7000660938532715,
      "eval_loss": 0.9645546078681946,
      "eval_mean_token_accuracy": 0.8154595721725681,
      "eval_num_tokens": 229302272.0,
      "eval_runtime": 1714.7844,
      "eval_samples_per_second": 4.412,
      "eval_steps_per_second": 0.552,
      "step": 7000
    },
    {
      "epoch": 3.72650363516193,
      "grad_norm": 0.5066333413124084,
      "learning_rate": 0.00013133791298658814,
      "loss": 0.8888,
      "mean_token_accuracy": 0.8194779419898987,
      "num_tokens": 230940672.0,
      "step": 7050
    },
    {
      "epoch": 3.7529411764705882,
      "grad_norm": 0.5374875068664551,
      "learning_rate": 0.0001286119289063352,
      "loss": 0.8668,
      "mean_token_accuracy": 0.8228415179252625,
      "num_tokens": 232579072.0,
      "step": 7100
    },
    {
      "epoch": 3.7793787177792466,
      "grad_norm": 0.45081761479377747,
      "learning_rate": 0.0001258859448260822,
      "loss": 0.8793,
      "mean_token_accuracy": 0.8205449622869492,
      "num_tokens": 234217472.0,
      "step": 7150
    },
    {
      "epoch": 3.805816259087905,
      "grad_norm": 0.4918268620967865,
      "learning_rate": 0.00012315996074582924,
      "loss": 0.8733,
      "mean_token_accuracy": 0.8207551288604736,
      "num_tokens": 235855872.0,
      "step": 7200
    },
    {
      "epoch": 3.832253800396563,
      "grad_norm": 0.5663712024688721,
      "learning_rate": 0.00012043397666557627,
      "loss": 0.8701,
      "step": 7250
    },
    {
      "epoch": 3.832253800396563,
      "eval_loss": 0.9548874497413635,
      "eval_mean_token_accuracy": 0.8167319189418446,
      "eval_num_tokens": 237494272.0,
      "eval_runtime": 1714.4512,
      "eval_samples_per_second": 4.412,
      "eval_steps_per_second": 0.552,
      "step": 7250
    },
    {
      "epoch": 3.8586913417052213,
      "grad_norm": 1.051850438117981,
      "learning_rate": 0.0001177079925853233,
      "loss": 0.8694,
      "mean_token_accuracy": 0.8223982758820056,
      "num_tokens": 239132672.0,
      "step": 7300
    },
    {
      "epoch": 3.8851288830138797,
      "grad_norm": 0.4363590478897095,
      "learning_rate": 0.00011498200850507034,
      "loss": 0.8864,
      "mean_token_accuracy": 0.8197085753083229,
      "num_tokens": 240771072.0,
      "step": 7350
    },
    {
      "epoch": 3.911566424322538,
      "grad_norm": 1.5718705654144287,
      "learning_rate": 0.00011225602442481736,
      "loss": 0.8714,
      "mean_token_accuracy": 0.8220063516497612,
      "num_tokens": 242409472.0,
      "step": 7400
    },
    {
      "epoch": 3.9380039656311965,
      "grad_norm": 2.0182573795318604,
      "learning_rate": 0.00010953004034456439,
      "loss": 0.8666,
      "mean_token_accuracy": 0.8229606547951698,
      "num_tokens": 244047872.0,
      "step": 7450
    },
    {
      "epoch": 3.9644415069398544,
      "grad_norm": 0.5944796800613403,
      "learning_rate": 0.00010680405626431142,
      "loss": 0.8553,
      "step": 7500
    },
    {
      "epoch": 3.9644415069398544,
      "eval_loss": 0.9463370442390442,
      "eval_mean_token_accuracy": 0.8175775335026594,
      "eval_num_tokens": 245686272.0,
      "eval_runtime": 1716.9243,
      "eval_samples_per_second": 4.406,
      "eval_steps_per_second": 0.551,
      "step": 7500
    },
    {
      "epoch": 3.990879048248513,
      "grad_norm": 0.39286720752716064,
      "learning_rate": 0.00010407807218405844,
      "loss": 0.8742,
      "mean_token_accuracy": 0.8231118628382683,
      "num_tokens": 247324672.0,
      "step": 7550
    },
    {
      "epoch": 4.016920026437541,
      "grad_norm": 0.485441118478775,
      "learning_rate": 0.00010135208810380548,
      "loss": 0.8161,
      "mean_token_accuracy": 0.8290703360199323,
      "num_tokens": 248938496.0,
      "step": 7600
    },
    {
      "epoch": 4.0433575677462,
      "grad_norm": 0.6562045216560364,
      "learning_rate": 9.86261040235525e-05,
      "loss": 0.7963,
      "mean_token_accuracy": 0.829828929901123,
      "num_tokens": 250576896.0,
      "step": 7650
    },
    {
      "epoch": 4.069795109054858,
      "grad_norm": 0.4619589149951935,
      "learning_rate": 9.590011994329953e-05,
      "loss": 0.7968,
      "mean_token_accuracy": 0.829875974059105,
      "num_tokens": 252215296.0,
      "step": 7700
    },
    {
      "epoch": 4.0962326503635165,
      "grad_norm": 0.5542292594909668,
      "learning_rate": 9.317413586304656e-05,
      "loss": 0.7897,
      "step": 7750
    },
    {
      "epoch": 4.0962326503635165,
      "eval_loss": 0.9498882293701172,
      "eval_mean_token_accuracy": 0.8178022539136778,
      "eval_num_tokens": 253853696.0,
      "eval_runtime": 1713.64,
      "eval_samples_per_second": 4.415,
      "eval_steps_per_second": 0.552,
      "step": 7750
    },
    {
      "epoch": 4.122670191672174,
      "grad_norm": 0.40135377645492554,
      "learning_rate": 9.044815178279358e-05,
      "loss": 0.7963,
      "mean_token_accuracy": 0.8303173841536045,
      "num_tokens": 255492096.0,
      "step": 7800
    },
    {
      "epoch": 4.149107732980832,
      "grad_norm": 0.39157313108444214,
      "learning_rate": 8.772216770254061e-05,
      "loss": 0.7846,
      "mean_token_accuracy": 0.8317717489600182,
      "num_tokens": 257130496.0,
      "step": 7850
    },
    {
      "epoch": 4.175545274289491,
      "grad_norm": 0.4963982105255127,
      "learning_rate": 8.499618362228765e-05,
      "loss": 0.8069,
      "mean_token_accuracy": 0.8283883157372475,
      "num_tokens": 258768896.0,
      "step": 7900
    },
    {
      "epoch": 4.201982815598149,
      "grad_norm": 0.3942487835884094,
      "learning_rate": 8.227019954203467e-05,
      "loss": 0.803,
      "mean_token_accuracy": 0.8284738489985466,
      "num_tokens": 260407296.0,
      "step": 7950
    },
    {
      "epoch": 4.228420356906808,
      "grad_norm": 0.37145310640335083,
      "learning_rate": 7.95442154617817e-05,
      "loss": 0.805,
      "step": 8000
    },
    {
      "epoch": 4.228420356906808,
      "eval_loss": 0.9421485066413879,
      "eval_mean_token_accuracy": 0.8191204303540841,
      "eval_num_tokens": 262045696.0,
      "eval_runtime": 1716.291,
      "eval_samples_per_second": 4.408,
      "eval_steps_per_second": 0.551,
      "step": 8000
    },
    {
      "epoch": 4.254857898215466,
      "grad_norm": 0.3017653524875641,
      "learning_rate": 7.681823138152873e-05,
      "loss": 0.796,
      "mean_token_accuracy": 0.8288511091470718,
      "num_tokens": 263684096.0,
      "step": 8050
    },
    {
      "epoch": 4.281295439524124,
      "grad_norm": 0.4065409004688263,
      "learning_rate": 7.409224730127575e-05,
      "loss": 0.7812,
      "mean_token_accuracy": 0.8326673975586891,
      "num_tokens": 265322496.0,
      "step": 8100
    },
    {
      "epoch": 4.307732980832783,
      "grad_norm": 0.33838245272636414,
      "learning_rate": 7.136626322102279e-05,
      "loss": 0.7868,
      "mean_token_accuracy": 0.8319782489538192,
      "num_tokens": 266960896.0,
      "step": 8150
    },
    {
      "epoch": 4.334170522141441,
      "grad_norm": 0.39351001381874084,
      "learning_rate": 6.864027914076983e-05,
      "loss": 0.7891,
      "mean_token_accuracy": 0.8313220903277397,
      "num_tokens": 268599296.0,
      "step": 8200
    },
    {
      "epoch": 4.360608063450099,
      "grad_norm": 0.3555977940559387,
      "learning_rate": 6.591429506051685e-05,
      "loss": 0.7858,
      "step": 8250
    },
    {
      "epoch": 4.360608063450099,
      "eval_loss": 0.9359485507011414,
      "eval_mean_token_accuracy": 0.8200258982483983,
      "eval_num_tokens": 270237696.0,
      "eval_runtime": 1713.1543,
      "eval_samples_per_second": 4.416,
      "eval_steps_per_second": 0.552,
      "step": 8250
    },
    {
      "epoch": 4.387045604758757,
      "grad_norm": 0.34437137842178345,
      "learning_rate": 6.318831098026388e-05,
      "loss": 0.7825,
      "mean_token_accuracy": 0.8322449275851249,
      "num_tokens": 271876096.0,
      "step": 8300
    },
    {
      "epoch": 4.413483146067415,
      "grad_norm": 0.37046581506729126,
      "learning_rate": 6.0462326900010904e-05,
      "loss": 0.7936,
      "mean_token_accuracy": 0.8298429843783378,
      "num_tokens": 273514496.0,
      "step": 8350
    },
    {
      "epoch": 4.439920687376074,
      "grad_norm": 0.44303834438323975,
      "learning_rate": 5.773634281975793e-05,
      "loss": 0.7891,
      "mean_token_accuracy": 0.8311491903662681,
      "num_tokens": 275152896.0,
      "step": 8400
    },
    {
      "epoch": 4.466358228684732,
      "grad_norm": 0.382201611995697,
      "learning_rate": 5.5010358739504963e-05,
      "loss": 0.7781,
      "mean_token_accuracy": 0.8330895602703094,
      "num_tokens": 276791296.0,
      "step": 8450
    },
    {
      "epoch": 4.492795769993391,
      "grad_norm": 0.39989522099494934,
      "learning_rate": 5.228437465925199e-05,
      "loss": 0.7877,
      "step": 8500
    },
    {
      "epoch": 4.492795769993391,
      "eval_loss": 0.9300816059112549,
      "eval_mean_token_accuracy": 0.8209756191890789,
      "eval_num_tokens": 278429696.0,
      "eval_runtime": 1713.4373,
      "eval_samples_per_second": 4.415,
      "eval_steps_per_second": 0.552,
      "step": 8500
    },
    {
      "epoch": 4.519233311302049,
      "grad_norm": 0.3832317590713501,
      "learning_rate": 4.9558390578999016e-05,
      "loss": 0.7782,
      "mean_token_accuracy": 0.8327266594767571,
      "num_tokens": 280068096.0,
      "step": 8550
    },
    {
      "epoch": 4.545670852610707,
      "grad_norm": 0.4667583703994751,
      "learning_rate": 4.683240649874604e-05,
      "loss": 0.7849,
      "mean_token_accuracy": 0.8322770014405251,
      "num_tokens": 281706496.0,
      "step": 8600
    },
    {
      "epoch": 4.572108393919366,
      "grad_norm": 0.3977579176425934,
      "learning_rate": 4.4106422418493076e-05,
      "loss": 0.786,
      "mean_token_accuracy": 0.83141067892313,
      "num_tokens": 283344896.0,
      "step": 8650
    },
    {
      "epoch": 4.598545935228024,
      "grad_norm": 0.38620129227638245,
      "learning_rate": 4.138043833824011e-05,
      "loss": 0.7865,
      "mean_token_accuracy": 0.8317729702591896,
      "num_tokens": 284983296.0,
      "step": 8700
    },
    {
      "epoch": 4.624983476536682,
      "grad_norm": 0.3608716130256653,
      "learning_rate": 3.8654454257987135e-05,
      "loss": 0.7905,
      "step": 8750
    },
    {
      "epoch": 4.624983476536682,
      "eval_loss": 0.9239566922187805,
      "eval_mean_token_accuracy": 0.8218199411607948,
      "eval_num_tokens": 286621696.0,
      "eval_runtime": 1715.401,
      "eval_samples_per_second": 4.41,
      "eval_steps_per_second": 0.551,
      "step": 8750
    },
    {
      "epoch": 4.65142101784534,
      "grad_norm": 0.30198875069618225,
      "learning_rate": 3.592847017773417e-05,
      "loss": 0.7672,
      "mean_token_accuracy": 0.8327672865986824,
      "num_tokens": 288260096.0,
      "step": 8800
    },
    {
      "epoch": 4.677858559153998,
      "grad_norm": 0.3867688477039337,
      "learning_rate": 3.3202486097481194e-05,
      "loss": 0.7728,
      "mean_token_accuracy": 0.8339509972929955,
      "num_tokens": 289898496.0,
      "step": 8850
    },
    {
      "epoch": 4.704296100462657,
      "grad_norm": 0.38331055641174316,
      "learning_rate": 3.0476502017228217e-05,
      "loss": 0.7801,
      "mean_token_accuracy": 0.8332563516497612,
      "num_tokens": 291536896.0,
      "step": 8900
    },
    {
      "epoch": 4.730733641771315,
      "grad_norm": 0.32032325863838196,
      "learning_rate": 2.775051793697525e-05,
      "loss": 0.7896,
      "mean_token_accuracy": 0.8309176415205002,
      "num_tokens": 293175296.0,
      "step": 8950
    },
    {
      "epoch": 4.757171183079974,
      "grad_norm": 0.41111549735069275,
      "learning_rate": 2.502453385672228e-05,
      "loss": 0.7691,
      "step": 9000
    },
    {
      "epoch": 4.757171183079974,
      "eval_loss": 0.9195617437362671,
      "eval_mean_token_accuracy": 0.8225174557583025,
      "eval_num_tokens": 294813696.0,
      "eval_runtime": 1712.3817,
      "eval_samples_per_second": 4.418,
      "eval_steps_per_second": 0.552,
      "step": 9000
    }
  ],
  "logging_steps": 50,
  "max_steps": 9455,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 470934104309760.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}