{
  "best_global_step": 7500,
  "best_metric": 0.7491397857666016,
  "best_model_checkpoint": "./results/checkpoint-7500",
  "epoch": 4.997752808988764,
  "eval_steps": 250,
  "global_step": 9455,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.026437541308658295,
      "grad_norm": 1.9868909120559692,
      "learning_rate": 0.00034625958983852136,
      "loss": 1.3782,
      "mean_token_accuracy": 0.7697586753964424,
      "num_tokens": 1638400.0,
      "step": 50
    },
    {
      "epoch": 0.05287508261731659,
      "grad_norm": 0.9880499839782715,
      "learning_rate": 0.000407611186724682,
      "loss": 1.2966,
      "mean_token_accuracy": 0.7892405907809734,
      "num_tokens": 3276800.0,
      "step": 100
    },
    {
      "epoch": 0.07931262392597488,
      "grad_norm": 0.6774707436561584,
      "learning_rate": 0.0004434995702624468,
      "loss": 0.939,
      "mean_token_accuracy": 0.8182881197333336,
      "num_tokens": 4915200.0,
      "step": 150
    },
    {
      "epoch": 0.10575016523463318,
      "grad_norm": 0.84303218126297,
      "learning_rate": 0.0004689627836108426,
      "loss": 0.9239,
      "mean_token_accuracy": 0.8214302301406861,
      "num_tokens": 6553600.0,
      "step": 200
    },
    {
      "epoch": 0.13218770654329148,
      "grad_norm": 2.8259122371673584,
      "learning_rate": 0.0004887135863147016,
      "loss": 1.0103,
      "step": 250
    },
    {
      "epoch": 0.13218770654329148,
      "eval_loss": 1.3388922214508057,
      "eval_mean_token_accuracy": 0.767919923740008,
      "eval_num_tokens": 8192000.0,
      "eval_runtime": 1597.0105,
      "eval_samples_per_second": 4.737,
      "eval_steps_per_second": 0.592,
      "step": 250
    },
    {
      "epoch": 0.15862524785194976,
      "grad_norm": 6.46172571182251,
      "learning_rate": 0.0004991822047759241,
      "loss": 1.6239,
      "mean_token_accuracy": 0.767223238646984,
      "num_tokens": 9830400.0,
      "step": 300
    },
    {
      "epoch": 0.18506278916060806,
      "grad_norm": 17.279727935791016,
      "learning_rate": 0.0004964562206956711,
      "loss": 1.3753,
      "mean_token_accuracy": 0.7646566477417945,
      "num_tokens": 11468800.0,
      "step": 350
    },
    {
      "epoch": 0.21150033046926636,
      "grad_norm": 9.562877655029297,
      "learning_rate": 0.0004937302366154182,
      "loss": 1.7307,
      "mean_token_accuracy": 0.7092528110742569,
      "num_tokens": 13107200.0,
      "step": 400
    },
    {
      "epoch": 0.23793787177792466,
      "grad_norm": 57.86962890625,
      "learning_rate": 0.0004910042525351653,
      "loss": 3.8636,
      "mean_token_accuracy": 0.44049181263893844,
      "num_tokens": 14745600.0,
      "step": 450
    },
    {
      "epoch": 0.26437541308658297,
      "grad_norm": 2.1134138107299805,
      "learning_rate": 0.00048827826845491225,
      "loss": 3.3381,
      "step": 500
    },
    {
      "epoch": 0.26437541308658297,
      "eval_loss": 3.0370047092437744,
      "eval_mean_token_accuracy": 0.5421812577177052,
      "eval_num_tokens": 16384000.0,
      "eval_runtime": 1593.4634,
      "eval_samples_per_second": 4.748,
      "eval_steps_per_second": 0.594,
      "step": 500
    },
    {
      "epoch": 0.29081295439524124,
      "grad_norm": 2.805110454559326,
      "learning_rate": 0.0004855522843746593,
      "loss": 2.8023,
      "mean_token_accuracy": 0.5313697456568479,
      "num_tokens": 18022400.0,
      "step": 550
    },
    {
      "epoch": 0.3172504957038995,
      "grad_norm": 2.2337939739227295,
      "learning_rate": 0.00048282630029440626,
      "loss": 2.3643,
      "mean_token_accuracy": 0.6257539093494415,
      "num_tokens": 19660800.0,
      "step": 600
    },
    {
      "epoch": 0.34368803701255785,
      "grad_norm": 1.3661304712295532,
      "learning_rate": 0.00048010031621415335,
      "loss": 2.2117,
      "mean_token_accuracy": 0.6438269788026809,
      "num_tokens": 21299200.0,
      "step": 650
    },
    {
      "epoch": 0.3701255783212161,
      "grad_norm": 1.319533109664917,
      "learning_rate": 0.0004773743321339004,
      "loss": 2.0377,
      "mean_token_accuracy": 0.6656103357672691,
      "num_tokens": 22937600.0,
      "step": 700
    },
    {
      "epoch": 0.3965631196298744,
      "grad_norm": 0.9889560341835022,
      "learning_rate": 0.00047464834805364736,
      "loss": 1.9612,
      "step": 750
    },
    {
      "epoch": 0.3965631196298744,
      "eval_loss": 1.9166280031204224,
      "eval_mean_token_accuracy": 0.6814079303570076,
      "eval_num_tokens": 24576000.0,
      "eval_runtime": 1597.3511,
      "eval_samples_per_second": 4.736,
      "eval_steps_per_second": 0.592,
      "step": 750
    },
    {
      "epoch": 0.4230006609385327,
      "grad_norm": 0.9154905676841736,
      "learning_rate": 0.0004719223639733944,
      "loss": 1.895,
      "mean_token_accuracy": 0.6779982282221317,
      "num_tokens": 26214400.0,
      "step": 800
    },
    {
      "epoch": 0.449438202247191,
      "grad_norm": 1.1073395013809204,
      "learning_rate": 0.0004691963798931415,
      "loss": 1.8532,
      "mean_token_accuracy": 0.6910386118292808,
      "num_tokens": 27852800.0,
      "step": 850
    },
    {
      "epoch": 0.47587574355584933,
      "grad_norm": 0.7696494460105896,
      "learning_rate": 0.00046647039581288846,
      "loss": 1.7828,
      "mean_token_accuracy": 0.7011858496069908,
      "num_tokens": 29491200.0,
      "step": 900
    },
    {
      "epoch": 0.5023132848645075,
      "grad_norm": 0.8735769987106323,
      "learning_rate": 0.0004637444117326355,
      "loss": 1.7661,
      "mean_token_accuracy": 0.7030816239118576,
      "num_tokens": 31129600.0,
      "step": 950
    },
    {
      "epoch": 0.5287508261731659,
      "grad_norm": 0.8184662461280823,
      "learning_rate": 0.0004610184276523825,
      "loss": 1.7303,
      "step": 1000
    },
    {
      "epoch": 0.5287508261731659,
      "eval_loss": 1.732823133468628,
      "eval_mean_token_accuracy": 0.7076210416774669,
      "eval_num_tokens": 32768000.0,
      "eval_runtime": 1598.294,
      "eval_samples_per_second": 4.733,
      "eval_steps_per_second": 0.592,
      "step": 1000
    },
    {
      "epoch": 0.5551883674818242,
      "grad_norm": 0.805102527141571,
      "learning_rate": 0.00045829244357212956,
      "loss": 1.7074,
      "mean_token_accuracy": 0.7088553883135319,
      "num_tokens": 34406400.0,
      "step": 1050
    },
    {
      "epoch": 0.5816259087904825,
      "grad_norm": 1.1714200973510742,
      "learning_rate": 0.0004555664594918766,
      "loss": 1.6578,
      "mean_token_accuracy": 0.7183681574463844,
      "num_tokens": 36044800.0,
      "step": 1100
    },
    {
      "epoch": 0.6080634500991408,
      "grad_norm": 0.801713228225708,
      "learning_rate": 0.0004528404754116236,
      "loss": 1.639,
      "mean_token_accuracy": 0.7187829902768135,
      "num_tokens": 37683200.0,
      "step": 1150
    },
    {
      "epoch": 0.634500991407799,
      "grad_norm": 0.776907205581665,
      "learning_rate": 0.0004501144913313706,
      "loss": 1.6155,
      "mean_token_accuracy": 0.7220100191235542,
      "num_tokens": 39321600.0,
      "step": 1200
    },
    {
      "epoch": 0.6609385327164574,
      "grad_norm": 0.5754767656326294,
      "learning_rate": 0.0004473885072511177,
      "loss": 1.5987,
      "step": 1250
    },
    {
      "epoch": 0.6609385327164574,
      "eval_loss": 1.5740511417388916,
      "eval_mean_token_accuracy": 0.7283713231001041,
      "eval_num_tokens": 40960000.0,
      "eval_runtime": 1599.1655,
      "eval_samples_per_second": 4.731,
      "eval_steps_per_second": 0.592,
      "step": 1250
    },
    {
      "epoch": 0.6873760740251157,
      "grad_norm": 0.5739009976387024,
      "learning_rate": 0.0004446625231708647,
      "loss": 1.5626,
      "mean_token_accuracy": 0.7280584080517292,
      "num_tokens": 42598400.0,
      "step": 1300
    },
    {
      "epoch": 0.713813615333774,
      "grad_norm": 0.56184983253479,
      "learning_rate": 0.0004419365390906117,
      "loss": 1.5383,
      "mean_token_accuracy": 0.7336229240894317,
      "num_tokens": 44236800.0,
      "step": 1350
    },
    {
      "epoch": 0.7402511566424322,
      "grad_norm": 0.7078151106834412,
      "learning_rate": 0.00043921055501035873,
      "loss": 1.4998,
      "mean_token_accuracy": 0.7408009549975395,
      "num_tokens": 45875200.0,
      "step": 1400
    },
    {
      "epoch": 0.7666886979510905,
      "grad_norm": 0.6344922184944153,
      "learning_rate": 0.0004364845709301058,
      "loss": 1.4751,
      "mean_token_accuracy": 0.74332783639431,
      "num_tokens": 47513600.0,
      "step": 1450
    },
    {
      "epoch": 0.7931262392597488,
      "grad_norm": 0.4986041486263275,
      "learning_rate": 0.0004337585868498528,
      "loss": 1.4716,
      "step": 1500
    },
    {
      "epoch": 0.7931262392597488,
      "eval_loss": 1.4890165328979492,
      "eval_mean_token_accuracy": 0.7397930833174361,
      "eval_num_tokens": 49152000.0,
      "eval_runtime": 1599.8275,
      "eval_samples_per_second": 4.729,
      "eval_steps_per_second": 0.591,
      "step": 1500
    },
    {
      "epoch": 0.8195637805684072,
      "grad_norm": 0.508725643157959,
      "learning_rate": 0.00043103260276959983,
      "loss": 1.4734,
      "mean_token_accuracy": 0.7423943056166172,
      "num_tokens": 50790400.0,
      "step": 1550
    },
    {
      "epoch": 0.8460013218770654,
      "grad_norm": 0.5139680504798889,
      "learning_rate": 0.0004283066186893468,
      "loss": 1.4513,
      "mean_token_accuracy": 0.7446151030063629,
      "num_tokens": 52428800.0,
      "step": 1600
    },
    {
      "epoch": 0.8724388631857237,
      "grad_norm": 0.5360570549964905,
      "learning_rate": 0.0004255806346090939,
      "loss": 1.4587,
      "mean_token_accuracy": 0.7414125129580498,
      "num_tokens": 54067200.0,
      "step": 1650
    },
    {
      "epoch": 0.898876404494382,
      "grad_norm": 0.46601545810699463,
      "learning_rate": 0.00042285465052884093,
      "loss": 1.4468,
      "mean_token_accuracy": 0.7438508039712906,
      "num_tokens": 55705600.0,
      "step": 1700
    },
    {
      "epoch": 0.9253139458030403,
      "grad_norm": 0.4491994380950928,
      "learning_rate": 0.0004201286664485879,
      "loss": 1.4234,
      "step": 1750
    },
    {
      "epoch": 0.9253139458030403,
      "eval_loss": 1.405325174331665,
      "eval_mean_token_accuracy": 0.7498895639975025,
      "eval_num_tokens": 57344000.0,
      "eval_runtime": 1600.1713,
      "eval_samples_per_second": 4.728,
      "eval_steps_per_second": 0.591,
      "step": 1750
    },
    {
      "epoch": 0.9517514871116987,
      "grad_norm": 0.40710222721099854,
      "learning_rate": 0.00041740268236833495,
      "loss": 1.3835,
      "mean_token_accuracy": 0.7491015987098217,
      "num_tokens": 58982400.0,
      "step": 1800
    },
    {
      "epoch": 0.9781890284203569,
      "grad_norm": 0.4693559408187866,
      "learning_rate": 0.00041467669828808203,
      "loss": 1.3498,
      "mean_token_accuracy": 0.7580449655652046,
      "num_tokens": 60620800.0,
      "step": 1850
    },
    {
      "epoch": 1.0042300066093852,
      "grad_norm": 0.4662095606327057,
      "learning_rate": 0.00041200523388943414,
      "loss": 1.3744,
      "mean_token_accuracy": 0.7523588169044649,
      "num_tokens": 62234624.0,
      "step": 1900
    },
    {
      "epoch": 1.0306675479180436,
      "grad_norm": 0.39532390236854553,
      "learning_rate": 0.0004092792498091811,
      "loss": 1.3057,
      "mean_token_accuracy": 0.7592387574911118,
      "num_tokens": 63873024.0,
      "step": 1950
    },
    {
      "epoch": 1.057105089226702,
      "grad_norm": 0.4154648780822754,
      "learning_rate": 0.00040655326572892816,
      "loss": 1.3248,
      "step": 2000
    },
    {
      "epoch": 1.057105089226702,
      "eval_loss": 1.339290976524353,
      "eval_mean_token_accuracy": 0.7579027240422513,
      "eval_num_tokens": 65511424.0,
      "eval_runtime": 1599.5937,
      "eval_samples_per_second": 4.729,
      "eval_steps_per_second": 0.591,
      "step": 2000
    },
    {
      "epoch": 1.0835426305353602,
      "grad_norm": 0.3895817697048187,
      "learning_rate": 0.00040382728164867513,
      "loss": 1.2956,
      "mean_token_accuracy": 0.7590417274832726,
      "num_tokens": 67149824.0,
      "step": 2050
    },
    {
      "epoch": 1.1099801718440185,
      "grad_norm": 0.39260634779930115,
      "learning_rate": 0.0004011012975684222,
      "loss": 1.3223,
      "mean_token_accuracy": 0.756996577680111,
      "num_tokens": 68788224.0,
      "step": 2100
    },
    {
      "epoch": 1.1364177131526767,
      "grad_norm": 0.3638737201690674,
      "learning_rate": 0.00039837531348816925,
      "loss": 1.268,
      "mean_token_accuracy": 0.7646328181028366,
      "num_tokens": 70426624.0,
      "step": 2150
    },
    {
      "epoch": 1.162855254461335,
      "grad_norm": 0.3186447322368622,
      "learning_rate": 0.00039564932940791623,
      "loss": 1.2705,
      "mean_token_accuracy": 0.7647727259993553,
      "num_tokens": 72065024.0,
      "step": 2200
    },
    {
      "epoch": 1.1892927957699935,
      "grad_norm": 0.37439003586769104,
      "learning_rate": 0.00039292334532766327,
      "loss": 1.2631,
      "step": 2250
    },
    {
      "epoch": 1.1892927957699935,
      "eval_loss": 1.278181791305542,
      "eval_mean_token_accuracy": 0.7655498584531578,
      "eval_num_tokens": 73703424.0,
      "eval_runtime": 1599.9443,
      "eval_samples_per_second": 4.728,
      "eval_steps_per_second": 0.591,
      "step": 2250
    },
    {
      "epoch": 1.2157303370786516,
      "grad_norm": 0.36414834856987,
      "learning_rate": 0.00039019736124741035,
      "loss": 1.2556,
      "mean_token_accuracy": 0.7657642959058285,
      "num_tokens": 75341824.0,
      "step": 2300
    },
    {
      "epoch": 1.24216787838731,
      "grad_norm": 0.38630911707878113,
      "learning_rate": 0.00038747137716715733,
      "loss": 1.2453,
      "mean_token_accuracy": 0.7686192587018013,
      "num_tokens": 76980224.0,
      "step": 2350
    },
    {
      "epoch": 1.2686054196959682,
      "grad_norm": 0.34793412685394287,
      "learning_rate": 0.00038474539308690437,
      "loss": 1.2113,
      "mean_token_accuracy": 0.7736504143476486,
      "num_tokens": 78618624.0,
      "step": 2400
    },
    {
      "epoch": 1.2950429610046266,
      "grad_norm": 0.3544578552246094,
      "learning_rate": 0.0003820194090066514,
      "loss": 1.1924,
      "mean_token_accuracy": 0.7755889534950257,
      "num_tokens": 80257024.0,
      "step": 2450
    },
    {
      "epoch": 1.321480502313285,
      "grad_norm": 0.30794623494148254,
      "learning_rate": 0.00037929342492639843,
      "loss": 1.1748,
      "step": 2500
    },
    {
      "epoch": 1.321480502313285,
      "eval_loss": 1.198885440826416,
      "eval_mean_token_accuracy": 0.776488389197666,
      "eval_num_tokens": 81895424.0,
      "eval_runtime": 1599.7215,
      "eval_samples_per_second": 4.729,
      "eval_steps_per_second": 0.591,
      "step": 2500
    },
    {
      "epoch": 1.3479180436219431,
      "grad_norm": 0.2978927493095398,
      "learning_rate": 0.00037656744084614547,
      "loss": 1.1624,
      "mean_token_accuracy": 0.7798365721106529,
      "num_tokens": 83533824.0,
      "step": 2550
    },
    {
      "epoch": 1.3743555849306015,
      "grad_norm": 0.3153753876686096,
      "learning_rate": 0.0003738414567658925,
      "loss": 1.1462,
      "mean_token_accuracy": 0.7827309390902519,
      "num_tokens": 85172224.0,
      "step": 2600
    },
    {
      "epoch": 1.4007931262392597,
      "grad_norm": 0.31813791394233704,
      "learning_rate": 0.0003711154726856395,
      "loss": 1.1274,
      "mean_token_accuracy": 0.7860245615243912,
      "num_tokens": 86810624.0,
      "step": 2650
    },
    {
      "epoch": 1.427230667547918,
      "grad_norm": 0.30844855308532715,
      "learning_rate": 0.00036838948860538656,
      "loss": 1.118,
      "mean_token_accuracy": 0.7876050838828087,
      "num_tokens": 88449024.0,
      "step": 2700
    },
    {
      "epoch": 1.4536682088565764,
      "grad_norm": 0.3054572343826294,
      "learning_rate": 0.0003656635045251336,
      "loss": 1.1336,
      "step": 2750
    },
    {
      "epoch": 1.4536682088565764,
      "eval_loss": 1.1190927028656006,
      "eval_mean_token_accuracy": 0.7886134508926319,
      "eval_num_tokens": 90087424.0,
      "eval_runtime": 1599.6779,
      "eval_samples_per_second": 4.729,
      "eval_steps_per_second": 0.591,
      "step": 2750
    },
    {
      "epoch": 1.4801057501652346,
      "grad_norm": 0.28417208790779114,
      "learning_rate": 0.0003629375204448806,
      "loss": 1.1039,
      "mean_token_accuracy": 0.7864858260750771,
      "num_tokens": 91725824.0,
      "step": 2800
    },
    {
      "epoch": 1.5065432914738928,
      "grad_norm": 0.307099312543869,
      "learning_rate": 0.0003602115363646276,
      "loss": 1.0909,
      "mean_token_accuracy": 0.7900452110171318,
      "num_tokens": 93364224.0,
      "step": 2850
    },
    {
      "epoch": 1.5329808327825512,
      "grad_norm": 0.30008023977279663,
      "learning_rate": 0.0003574855522843747,
      "loss": 1.0824,
      "mean_token_accuracy": 0.7928054749965667,
      "num_tokens": 95002624.0,
      "step": 2900
    },
    {
      "epoch": 1.5594183740912095,
      "grad_norm": 0.27622541785240173,
      "learning_rate": 0.0003547595682041217,
      "loss": 1.055,
      "mean_token_accuracy": 0.7961241453886032,
      "num_tokens": 96641024.0,
      "step": 2950
    },
    {
      "epoch": 1.585855915399868,
      "grad_norm": 0.2670520544052124,
      "learning_rate": 0.0003520335841238687,
      "loss": 1.0466,
      "step": 3000
    },
    {
      "epoch": 1.585855915399868,
      "eval_loss": 1.0528658628463745,
      "eval_mean_token_accuracy": 0.7982593539149262,
      "eval_num_tokens": 98279424.0,
      "eval_runtime": 1599.5737,
      "eval_samples_per_second": 4.729,
      "eval_steps_per_second": 0.591,
      "step": 3000
    },
    {
      "epoch": 1.612293456708526,
      "grad_norm": 0.26690635085105896,
      "learning_rate": 0.00034930760004361574,
      "loss": 1.0354,
      "mean_token_accuracy": 0.7988346171379089,
      "num_tokens": 99917824.0,
      "step": 3050
    },
    {
      "epoch": 1.6387309980171842,
      "grad_norm": 0.27989307045936584,
      "learning_rate": 0.0003465816159633628,
      "loss": 1.0225,
      "mean_token_accuracy": 0.8015902996063232,
      "num_tokens": 101556224.0,
      "step": 3100
    },
    {
      "epoch": 1.6651685393258426,
      "grad_norm": 0.21368129551410675,
      "learning_rate": 0.0003438556318831098,
      "loss": 1.0197,
      "mean_token_accuracy": 0.8019238775968551,
      "num_tokens": 103194624.0,
      "step": 3150
    },
    {
      "epoch": 1.691606080634501,
      "grad_norm": 0.288343220949173,
      "learning_rate": 0.00034112964780285684,
      "loss": 1.0174,
      "mean_token_accuracy": 0.8012603887915611,
      "num_tokens": 104833024.0,
      "step": 3200
    },
    {
      "epoch": 1.7180436219431594,
      "grad_norm": 0.245047464966774,
      "learning_rate": 0.0003384036637226039,
      "loss": 0.9922,
      "step": 3250
    },
    {
      "epoch": 1.7180436219431594,
      "eval_loss": 1.0065803527832031,
      "eval_mean_token_accuracy": 0.8048020523773943,
      "eval_num_tokens": 106471424.0,
      "eval_runtime": 1599.1563,
      "eval_samples_per_second": 4.731,
      "eval_steps_per_second": 0.592,
      "step": 3250
    },
    {
      "epoch": 1.7444811632518176,
      "grad_norm": 0.23827126622200012,
      "learning_rate": 0.0003356776796423509,
      "loss": 0.9838,
      "mean_token_accuracy": 0.8066547532379628,
      "num_tokens": 108109824.0,
      "step": 3300
    },
    {
      "epoch": 1.7709187045604757,
      "grad_norm": 0.22703391313552856,
      "learning_rate": 0.00033295169556209794,
      "loss": 0.9587,
      "mean_token_accuracy": 0.8113178130984307,
      "num_tokens": 109748224.0,
      "step": 3350
    },
    {
      "epoch": 1.7973562458691341,
      "grad_norm": 0.25331422686576843,
      "learning_rate": 0.0003302257114818449,
      "loss": 0.9697,
      "mean_token_accuracy": 0.8093206259608269,
      "num_tokens": 111386624.0,
      "step": 3400
    },
    {
      "epoch": 1.8237937871777925,
      "grad_norm": 0.264260470867157,
      "learning_rate": 0.000327499727401592,
      "loss": 0.956,
      "mean_token_accuracy": 0.8123435971140861,
      "num_tokens": 113025024.0,
      "step": 3450
    },
    {
      "epoch": 1.8502313284864509,
      "grad_norm": 0.2458537220954895,
      "learning_rate": 0.00032477374332133904,
      "loss": 0.9539,
      "step": 3500
    },
    {
      "epoch": 1.8502313284864509,
      "eval_loss": 0.9670175909996033,
      "eval_mean_token_accuracy": 0.8104942284729214,
      "eval_num_tokens": 114663424.0,
      "eval_runtime": 1599.1718,
      "eval_samples_per_second": 4.731,
      "eval_steps_per_second": 0.592,
      "step": 3500
    },
    {
      "epoch": 1.876668869795109,
      "grad_norm": 0.20451125502586365,
      "learning_rate": 0.000322047759241086,
      "loss": 0.9479,
      "mean_token_accuracy": 0.8118679732084274,
      "num_tokens": 116301824.0,
      "step": 3550
    },
    {
      "epoch": 1.9031064111037672,
      "grad_norm": 0.22584660351276398,
      "learning_rate": 0.00031932177516083305,
      "loss": 0.9688,
      "mean_token_accuracy": 0.8094049346446991,
      "num_tokens": 117940224.0,
      "step": 3600
    },
    {
      "epoch": 1.9295439524124256,
      "grad_norm": 0.2119428962469101,
      "learning_rate": 0.00031659579108058014,
      "loss": 0.9229,
      "mean_token_accuracy": 0.816270771920681,
      "num_tokens": 119578624.0,
      "step": 3650
    },
    {
      "epoch": 1.955981493721084,
      "grad_norm": 0.2210853099822998,
      "learning_rate": 0.0003138698070003271,
      "loss": 0.9341,
      "mean_token_accuracy": 0.814192325770855,
      "num_tokens": 121217024.0,
      "step": 3700
    },
    {
      "epoch": 1.9824190350297424,
      "grad_norm": 0.1966710090637207,
      "learning_rate": 0.00031114382292007415,
      "loss": 0.9283,
      "step": 3750
    },
    {
      "epoch": 1.9824190350297424,
      "eval_loss": 0.9337447881698608,
      "eval_mean_token_accuracy": 0.8153352634725308,
      "eval_num_tokens": 122855424.0,
      "eval_runtime": 1599.5384,
      "eval_samples_per_second": 4.729,
      "eval_steps_per_second": 0.591,
      "step": 3750
    },
    {
      "epoch": 2.0084600132187704,
      "grad_norm": 0.20168109238147736,
      "learning_rate": 0.00030847235852142626,
      "loss": 0.8927,
      "mean_token_accuracy": 0.8173428005175266,
      "num_tokens": 124469248.0,
      "step": 3800
    },
    {
      "epoch": 2.034897554527429,
      "grad_norm": 0.1905670017004013,
      "learning_rate": 0.00030574637444117324,
      "loss": 0.8427,
      "mean_token_accuracy": 0.8238172018527985,
      "num_tokens": 126107648.0,
      "step": 3850
    },
    {
      "epoch": 2.061335095836087,
      "grad_norm": 0.19004780054092407,
      "learning_rate": 0.0003030203903609203,
      "loss": 0.8536,
      "mean_token_accuracy": 0.8214613863825798,
      "num_tokens": 127746048.0,
      "step": 3900
    },
    {
      "epoch": 2.0877726371447456,
      "grad_norm": 0.21092021465301514,
      "learning_rate": 0.00030029440628066736,
      "loss": 0.8347,
      "mean_token_accuracy": 0.8248136582970619,
      "num_tokens": 129384448.0,
      "step": 3950
    },
    {
      "epoch": 2.114210178453404,
      "grad_norm": 0.2002408355474472,
      "learning_rate": 0.00029756842220041434,
      "loss": 0.8409,
      "step": 4000
    },
    {
      "epoch": 2.114210178453404,
      "eval_loss": 0.913899838924408,
      "eval_mean_token_accuracy": 0.8182373826271888,
      "eval_num_tokens": 131022848.0,
      "eval_runtime": 1599.607,
      "eval_samples_per_second": 4.729,
      "eval_steps_per_second": 0.591,
      "step": 4000
    },
    {
      "epoch": 2.140647719762062,
      "grad_norm": 0.22307777404785156,
      "learning_rate": 0.0002948424381201614,
      "loss": 0.8428,
      "mean_token_accuracy": 0.8242137080430985,
      "num_tokens": 132661248.0,
      "step": 4050
    },
    {
      "epoch": 2.1670852610707203,
      "grad_norm": 0.1873617023229599,
      "learning_rate": 0.0002921164540399084,
      "loss": 0.8439,
      "mean_token_accuracy": 0.8233803743124009,
      "num_tokens": 134299648.0,
      "step": 4100
    },
    {
      "epoch": 2.1935228023793787,
      "grad_norm": 0.1888233870267868,
      "learning_rate": 0.00028939046995965544,
      "loss": 0.8406,
      "mean_token_accuracy": 0.8241153433918953,
      "num_tokens": 135938048.0,
      "step": 4150
    },
    {
      "epoch": 2.219960343688037,
      "grad_norm": 0.19996315240859985,
      "learning_rate": 0.00028666448587940247,
      "loss": 0.8337,
      "mean_token_accuracy": 0.8248002156615257,
      "num_tokens": 137576448.0,
      "step": 4200
    },
    {
      "epoch": 2.2463978849966955,
      "grad_norm": 0.21117758750915527,
      "learning_rate": 0.0002839385017991495,
      "loss": 0.8411,
      "step": 4250
    },
    {
      "epoch": 2.2463978849966955,
      "eval_loss": 0.893865704536438,
      "eval_mean_token_accuracy": 0.8210062818093733,
      "eval_num_tokens": 139214848.0,
      "eval_runtime": 1599.858,
      "eval_samples_per_second": 4.729,
      "eval_steps_per_second": 0.591,
      "step": 4250
    },
    {
      "epoch": 2.2728354263053534,
      "grad_norm": 0.20331983268260956,
      "learning_rate": 0.00028121251771889654,
      "loss": 0.8389,
      "mean_token_accuracy": 0.824597994685173,
      "num_tokens": 140853248.0,
      "step": 4300
    },
    {
      "epoch": 2.299272967614012,
      "grad_norm": 0.19736993312835693,
      "learning_rate": 0.00027848653363864357,
      "loss": 0.8168,
      "mean_token_accuracy": 0.8279356023669243,
      "num_tokens": 142491648.0,
      "step": 4350
    },
    {
      "epoch": 2.32571050892267,
      "grad_norm": 0.1942383050918579,
      "learning_rate": 0.0002757605495583906,
      "loss": 0.8158,
      "mean_token_accuracy": 0.8288569149374961,
      "num_tokens": 144130048.0,
      "step": 4400
    },
    {
      "epoch": 2.3521480502313286,
      "grad_norm": 0.18327121436595917,
      "learning_rate": 0.0002730345654781376,
      "loss": 0.8097,
      "mean_token_accuracy": 0.8300702553987503,
      "num_tokens": 145768448.0,
      "step": 4450
    },
    {
      "epoch": 2.378585591539987,
      "grad_norm": 0.17920152842998505,
      "learning_rate": 0.00027030858139788467,
      "loss": 0.8017,
      "step": 4500
    },
    {
      "epoch": 2.378585591539987,
      "eval_loss": 0.874257504940033,
      "eval_mean_token_accuracy": 0.823767999828996,
      "eval_num_tokens": 147406848.0,
      "eval_runtime": 1599.5025,
      "eval_samples_per_second": 4.73,
      "eval_steps_per_second": 0.591,
      "step": 4500
    },
    {
      "epoch": 2.405023132848645,
      "grad_norm": 0.18811027705669403,
      "learning_rate": 0.0002675825973176317,
      "loss": 0.8215,
      "mean_token_accuracy": 0.8293267333507538,
      "num_tokens": 149045248.0,
      "step": 4550
    },
    {
      "epoch": 2.4314606741573033,
      "grad_norm": 0.20340368151664734,
      "learning_rate": 0.0002648566132373787,
      "loss": 0.8249,
      "mean_token_accuracy": 0.8268548348546028,
      "num_tokens": 150683648.0,
      "step": 4600
    },
    {
      "epoch": 2.4578982154659617,
      "grad_norm": 0.18492697179317474,
      "learning_rate": 0.0002621306291571257,
      "loss": 0.7914,
      "mean_token_accuracy": 0.832571476995945,
      "num_tokens": 152322048.0,
      "step": 4650
    },
    {
      "epoch": 2.48433575677462,
      "grad_norm": 0.19855117797851562,
      "learning_rate": 0.0002594046450768728,
      "loss": 0.8077,
      "mean_token_accuracy": 0.8298674210906029,
      "num_tokens": 153960448.0,
      "step": 4700
    },
    {
      "epoch": 2.5107732980832784,
      "grad_norm": 0.1997339129447937,
      "learning_rate": 0.0002566786609966198,
      "loss": 0.809,
      "step": 4750
    },
    {
      "epoch": 2.5107732980832784,
      "eval_loss": 0.8553281426429749,
      "eval_mean_token_accuracy": 0.8265610535729511,
      "eval_num_tokens": 155598848.0,
      "eval_runtime": 1599.9059,
      "eval_samples_per_second": 4.728,
      "eval_steps_per_second": 0.591,
      "step": 4750
    },
    {
      "epoch": 2.5372108393919364,
      "grad_norm": 0.19008329510688782,
      "learning_rate": 0.0002539526769163668,
      "loss": 0.797,
      "mean_token_accuracy": 0.8298222103714943,
      "num_tokens": 157237248.0,
      "step": 4800
    },
    {
      "epoch": 2.5636483807005948,
      "grad_norm": 0.18476171791553497,
      "learning_rate": 0.00025122669283611385,
      "loss": 0.7987,
      "mean_token_accuracy": 0.8304337722063064,
      "num_tokens": 158875648.0,
      "step": 4850
    },
    {
      "epoch": 2.590085922009253,
      "grad_norm": 0.18693213164806366,
      "learning_rate": 0.0002485007087558609,
      "loss": 0.8042,
      "mean_token_accuracy": 0.8297446221113205,
      "num_tokens": 160514048.0,
      "step": 4900
    },
    {
      "epoch": 2.6165234633179115,
      "grad_norm": 0.19470660388469696,
      "learning_rate": 0.0002457747246756079,
      "loss": 0.8024,
      "mean_token_accuracy": 0.8308174461126328,
      "num_tokens": 162152448.0,
      "step": 4950
    },
    {
      "epoch": 2.64296100462657,
      "grad_norm": 0.23168876767158508,
      "learning_rate": 0.00024304874059535492,
      "loss": 0.7903,
      "step": 5000
    },
    {
      "epoch": 2.64296100462657,
      "eval_loss": 0.8376234769821167,
      "eval_mean_token_accuracy": 0.828871109394896,
      "eval_num_tokens": 163790848.0,
      "eval_runtime": 1600.0988,
      "eval_samples_per_second": 4.728,
      "eval_steps_per_second": 0.591,
      "step": 5000
    },
    {
      "epoch": 2.669398545935228,
      "grad_norm": 0.15908803045749664,
      "learning_rate": 0.00024032275651510195,
      "loss": 0.7967,
      "mean_token_accuracy": 0.8314005956053734,
      "num_tokens": 165429248.0,
      "step": 5050
    },
    {
      "epoch": 2.6958360872438862,
      "grad_norm": 0.1805862933397293,
      "learning_rate": 0.000237596772434849,
      "loss": 0.7774,
      "mean_token_accuracy": 0.8344085997343064,
      "num_tokens": 167067648.0,
      "step": 5100
    },
    {
      "epoch": 2.7222736285525446,
      "grad_norm": 0.17997150123119354,
      "learning_rate": 0.00023487078835459602,
      "loss": 0.7851,
      "mean_token_accuracy": 0.8325213807821273,
      "num_tokens": 168706048.0,
      "step": 5150
    },
    {
      "epoch": 2.748711169861203,
      "grad_norm": 0.18113110959529877,
      "learning_rate": 0.00023214480427434303,
      "loss": 0.776,
      "mean_token_accuracy": 0.8346639758348465,
      "num_tokens": 170344448.0,
      "step": 5200
    },
    {
      "epoch": 2.7751487111698614,
      "grad_norm": 0.18302254378795624,
      "learning_rate": 0.00022941882019409009,
      "loss": 0.7854,
      "step": 5250
    },
    {
      "epoch": 2.7751487111698614,
      "eval_loss": 0.8233165144920349,
      "eval_mean_token_accuracy": 0.830954508725987,
      "eval_num_tokens": 171982848.0,
      "eval_runtime": 1599.9718,
      "eval_samples_per_second": 4.728,
      "eval_steps_per_second": 0.591,
      "step": 5250
    },
    {
      "epoch": 2.8015862524785193,
      "grad_norm": 0.1922728568315506,
      "learning_rate": 0.0002266928361138371,
      "loss": 0.7936,
      "mean_token_accuracy": 0.8322769993543625,
      "num_tokens": 173621248.0,
      "step": 5300
    },
    {
      "epoch": 2.8280237937871777,
      "grad_norm": 0.1617008000612259,
      "learning_rate": 0.00022396685203358413,
      "loss": 0.7738,
      "mean_token_accuracy": 0.8344037118554115,
      "num_tokens": 175259648.0,
      "step": 5350
    },
    {
      "epoch": 2.854461335095836,
      "grad_norm": 0.17171062529087067,
      "learning_rate": 0.00022124086795333116,
      "loss": 0.7697,
      "mean_token_accuracy": 0.8351166906952858,
      "num_tokens": 176898048.0,
      "step": 5400
    },
    {
      "epoch": 2.8808988764044945,
      "grad_norm": 0.1803775280714035,
      "learning_rate": 0.0002185148838730782,
      "loss": 0.7735,
      "mean_token_accuracy": 0.8350091609358787,
      "num_tokens": 178536448.0,
      "step": 5450
    },
    {
      "epoch": 2.907336417713153,
      "grad_norm": 0.17305733263492584,
      "learning_rate": 0.0002157888997928252,
      "loss": 0.7716,
      "step": 5500
    },
    {
      "epoch": 2.907336417713153,
      "eval_loss": 0.8076795339584351,
      "eval_mean_token_accuracy": 0.8331229730841977,
      "eval_num_tokens": 180174848.0,
      "eval_runtime": 1600.6859,
      "eval_samples_per_second": 4.726,
      "eval_steps_per_second": 0.591,
      "step": 5500
    },
    {
      "epoch": 2.933773959021811,
      "grad_norm": 0.17064611613750458,
      "learning_rate": 0.00021306291571257226,
      "loss": 0.7713,
      "mean_token_accuracy": 0.8356136959791184,
      "num_tokens": 181813248.0,
      "step": 5550
    },
    {
      "epoch": 2.960211500330469,
      "grad_norm": 0.18137440085411072,
      "learning_rate": 0.00021033693163231926,
      "loss": 0.7667,
      "mean_token_accuracy": 0.8351374611258506,
      "num_tokens": 183451648.0,
      "step": 5600
    },
    {
      "epoch": 2.9866490416391276,
      "grad_norm": 0.17405763268470764,
      "learning_rate": 0.0002076109475520663,
      "loss": 0.7495,
      "mean_token_accuracy": 0.8385416662693024,
      "num_tokens": 185090048.0,
      "step": 5650
    },
    {
      "epoch": 3.012690019828156,
      "grad_norm": 0.17279721796512604,
      "learning_rate": 0.0002049394831534184,
      "loss": 0.7159,
      "mean_token_accuracy": 0.8417613173499325,
      "num_tokens": 186703872.0,
      "step": 5700
    },
    {
      "epoch": 3.0391275611368145,
      "grad_norm": 0.19387085735797882,
      "learning_rate": 0.0002022134990731654,
      "loss": 0.666,
      "step": 5750
    },
    {
      "epoch": 3.0391275611368145,
      "eval_loss": 0.8053749799728394,
      "eval_mean_token_accuracy": 0.8340540434416959,
      "eval_num_tokens": 188342272.0,
      "eval_runtime": 1600.205,
      "eval_samples_per_second": 4.728,
      "eval_steps_per_second": 0.591,
      "step": 5750
    },
    {
      "epoch": 3.0655651024454724,
      "grad_norm": 0.18193645775318146,
      "learning_rate": 0.00019948751499291245,
      "loss": 0.6644,
      "mean_token_accuracy": 0.8480684906244278,
      "num_tokens": 189980672.0,
      "step": 5800
    },
    {
      "epoch": 3.092002643754131,
      "grad_norm": 0.16633963584899902,
      "learning_rate": 0.00019676153091265948,
      "loss": 0.6691,
      "mean_token_accuracy": 0.847120603621006,
      "num_tokens": 191619072.0,
      "step": 5850
    },
    {
      "epoch": 3.118440185062789,
      "grad_norm": 0.17585037648677826,
      "learning_rate": 0.0001940355468324065,
      "loss": 0.6636,
      "mean_token_accuracy": 0.84809934258461,
      "num_tokens": 193257472.0,
      "step": 5900
    },
    {
      "epoch": 3.1448777263714476,
      "grad_norm": 0.1676415503025055,
      "learning_rate": 0.00019130956275215352,
      "loss": 0.6672,
      "mean_token_accuracy": 0.8475995865464211,
      "num_tokens": 194895872.0,
      "step": 5950
    },
    {
      "epoch": 3.1713152676801055,
      "grad_norm": 0.18070462346076965,
      "learning_rate": 0.00018858357867190058,
      "loss": 0.6627,
      "step": 6000
    },
    {
      "epoch": 3.1713152676801055,
      "eval_loss": 0.801948070526123,
      "eval_mean_token_accuracy": 0.8345137661909704,
      "eval_num_tokens": 196534272.0,
      "eval_runtime": 1599.8066,
      "eval_samples_per_second": 4.729,
      "eval_steps_per_second": 0.591,
      "step": 6000
    },
    {
      "epoch": 3.197752808988764,
      "grad_norm": 0.16841137409210205,
      "learning_rate": 0.00018585759459164758,
      "loss": 0.6569,
      "mean_token_accuracy": 0.8492378443479538,
      "num_tokens": 198172672.0,
      "step": 6050
    },
    {
      "epoch": 3.2241903502974223,
      "grad_norm": 0.18084491789340973,
      "learning_rate": 0.00018313161051139462,
      "loss": 0.6678,
      "mean_token_accuracy": 0.8477779817581177,
      "num_tokens": 199811072.0,
      "step": 6100
    },
    {
      "epoch": 3.2506278916060807,
      "grad_norm": 0.17532089352607727,
      "learning_rate": 0.00018040562643114165,
      "loss": 0.6693,
      "mean_token_accuracy": 0.8475476580858231,
      "num_tokens": 201449472.0,
      "step": 6150
    },
    {
      "epoch": 3.277065432914739,
      "grad_norm": 0.17762629687786102,
      "learning_rate": 0.00017767964235088868,
      "loss": 0.6568,
      "mean_token_accuracy": 0.8500018376111984,
      "num_tokens": 203087872.0,
      "step": 6200
    },
    {
      "epoch": 3.303502974223397,
      "grad_norm": 0.17803572118282318,
      "learning_rate": 0.0001749536582706357,
      "loss": 0.6664,
      "step": 6250
    },
    {
      "epoch": 3.303502974223397,
      "eval_loss": 0.7924287915229797,
      "eval_mean_token_accuracy": 0.8360363316838384,
      "eval_num_tokens": 204726272.0,
      "eval_runtime": 1600.5314,
      "eval_samples_per_second": 4.727,
      "eval_steps_per_second": 0.591,
      "step": 6250
    },
    {
      "epoch": 3.3299405155320554,
      "grad_norm": 0.1736496537923813,
      "learning_rate": 0.00017222767419038275,
      "loss": 0.6626,
      "mean_token_accuracy": 0.8480022014677524,
      "num_tokens": 206364672.0,
      "step": 6300
    },
    {
      "epoch": 3.3563780568407138,
      "grad_norm": 0.1790972799062729,
      "learning_rate": 0.00016950169011012976,
      "loss": 0.666,
      "mean_token_accuracy": 0.8478036442399025,
      "num_tokens": 208003072.0,
      "step": 6350
    },
    {
      "epoch": 3.382815598149372,
      "grad_norm": 0.17161910235881805,
      "learning_rate": 0.0001667757060298768,
      "loss": 0.6635,
      "mean_token_accuracy": 0.8481677681207657,
      "num_tokens": 209641472.0,
      "step": 6400
    },
    {
      "epoch": 3.4092531394580305,
      "grad_norm": 0.17608526349067688,
      "learning_rate": 0.00016404972194962382,
      "loss": 0.6483,
      "mean_token_accuracy": 0.8513996881246567,
      "num_tokens": 211279872.0,
      "step": 6450
    },
    {
      "epoch": 3.4356906807666885,
      "grad_norm": 0.17622597515583038,
      "learning_rate": 0.00016132373786937086,
      "loss": 0.6562,
      "step": 6500
    },
    {
      "epoch": 3.4356906807666885,
      "eval_loss": 0.7829640507698059,
      "eval_mean_token_accuracy": 0.8375042610768284,
      "eval_num_tokens": 212918272.0,
      "eval_runtime": 1600.7277,
      "eval_samples_per_second": 4.726,
      "eval_steps_per_second": 0.591,
      "step": 6500
    },
    {
      "epoch": 3.462128222075347,
      "grad_norm": 0.18006405234336853,
      "learning_rate": 0.00015859775378911786,
      "loss": 0.6498,
      "mean_token_accuracy": 0.8504380528628827,
      "num_tokens": 214556672.0,
      "step": 6550
    },
    {
      "epoch": 3.4885657633840053,
      "grad_norm": 0.16343793272972107,
      "learning_rate": 0.0001558717697088649,
      "loss": 0.6519,
      "mean_token_accuracy": 0.850884655714035,
      "num_tokens": 216195072.0,
      "step": 6600
    },
    {
      "epoch": 3.5150033046926636,
      "grad_norm": 0.16798467934131622,
      "learning_rate": 0.00015314578562861193,
      "loss": 0.6648,
      "mean_token_accuracy": 0.8490127098560333,
      "num_tokens": 217833472.0,
      "step": 6650
    },
    {
      "epoch": 3.541440846001322,
      "grad_norm": 0.15794213116168976,
      "learning_rate": 0.00015041980154835896,
      "loss": 0.6471,
      "mean_token_accuracy": 0.8517173796892166,
      "num_tokens": 219471872.0,
      "step": 6700
    },
    {
      "epoch": 3.56787838730998,
      "grad_norm": 0.1636921763420105,
      "learning_rate": 0.00014769381746810597,
      "loss": 0.6424,
      "step": 6750
    },
    {
      "epoch": 3.56787838730998,
      "eval_loss": 0.773522138595581,
      "eval_mean_token_accuracy": 0.8390711046928583,
      "eval_num_tokens": 221110272.0,
      "eval_runtime": 1600.7216,
      "eval_samples_per_second": 4.726,
      "eval_steps_per_second": 0.591,
      "step": 6750
    },
    {
      "epoch": 3.5943159286186384,
      "grad_norm": 0.15980064868927002,
      "learning_rate": 0.00014496783338785303,
      "loss": 0.6571,
      "mean_token_accuracy": 0.851312015503645,
      "num_tokens": 222748672.0,
      "step": 6800
    },
    {
      "epoch": 3.6207534699272967,
      "grad_norm": 0.1708955615758896,
      "learning_rate": 0.00014224184930760003,
      "loss": 0.6484,
      "mean_token_accuracy": 0.8513654717803001,
      "num_tokens": 224387072.0,
      "step": 6850
    },
    {
      "epoch": 3.647191011235955,
      "grad_norm": 0.16906002163887024,
      "learning_rate": 0.00013951586522734707,
      "loss": 0.6517,
      "mean_token_accuracy": 0.8500537672638893,
      "num_tokens": 226025472.0,
      "step": 6900
    },
    {
      "epoch": 3.6736285525446135,
      "grad_norm": 0.16365185379981995,
      "learning_rate": 0.0001367898811470941,
      "loss": 0.6372,
      "mean_token_accuracy": 0.8536284250020981,
      "num_tokens": 227663872.0,
      "step": 6950
    },
    {
      "epoch": 3.7000660938532715,
      "grad_norm": 0.17780087888240814,
      "learning_rate": 0.00013406389706684113,
      "loss": 0.6501,
      "step": 7000
    },
    {
      "epoch": 3.7000660938532715,
      "eval_loss": 0.7657620906829834,
      "eval_mean_token_accuracy": 0.8401046276848614,
      "eval_num_tokens": 229302272.0,
      "eval_runtime": 1600.1467,
      "eval_samples_per_second": 4.728,
      "eval_steps_per_second": 0.591,
      "step": 7000
    },
    {
      "epoch": 3.72650363516193,
      "grad_norm": 0.17722897231578827,
      "learning_rate": 0.00013133791298658814,
      "loss": 0.6527,
      "mean_token_accuracy": 0.8508571648597717,
      "num_tokens": 230940672.0,
      "step": 7050
    },
    {
      "epoch": 3.7529411764705882,
      "grad_norm": 0.16244906187057495,
      "learning_rate": 0.0001286119289063352,
      "loss": 0.6356,
      "mean_token_accuracy": 0.8537634432315826,
      "num_tokens": 232579072.0,
      "step": 7100
    },
    {
      "epoch": 3.7793787177792466,
      "grad_norm": 0.15864387154579163,
      "learning_rate": 0.0001258859448260822,
      "loss": 0.6452,
      "mean_token_accuracy": 0.8518102434277535,
      "num_tokens": 234217472.0,
      "step": 7150
    },
    {
      "epoch": 3.805816259087905,
      "grad_norm": 0.16620229184627533,
      "learning_rate": 0.00012315996074582924,
      "loss": 0.6418,
      "mean_token_accuracy": 0.8521817001700401,
      "num_tokens": 235855872.0,
      "step": 7200
    },
    {
      "epoch": 3.832253800396563,
      "grad_norm": 0.1765565574169159,
      "learning_rate": 0.00012043397666557627,
      "loss": 0.6387,
      "step": 7250
    },
    {
      "epoch": 3.832253800396563,
      "eval_loss": 0.7578161358833313,
      "eval_mean_token_accuracy": 0.8413670561404359,
      "eval_num_tokens": 237494272.0,
      "eval_runtime": 1602.8152,
      "eval_samples_per_second": 4.72,
      "eval_steps_per_second": 0.59,
      "step": 7250
    },
    {
      "epoch": 3.8586913417052213,
      "grad_norm": 0.15968503057956696,
      "learning_rate": 0.0001177079925853233,
      "loss": 0.6365,
      "mean_token_accuracy": 0.8533528861403465,
      "num_tokens": 239132672.0,
      "step": 7300
    },
    {
      "epoch": 3.8851288830138797,
      "grad_norm": 0.15743543207645416,
      "learning_rate": 0.00011498200850507034,
      "loss": 0.6486,
      "mean_token_accuracy": 0.8513813573122024,
      "num_tokens": 240771072.0,
      "step": 7350
    },
    {
      "epoch": 3.911566424322538,
      "grad_norm": 0.18122394382953644,
      "learning_rate": 0.00011225602442481736,
      "loss": 0.6384,
      "mean_token_accuracy": 0.8533547213673591,
      "num_tokens": 242409472.0,
      "step": 7400
    },
    {
      "epoch": 3.9380039656311965,
      "grad_norm": 0.15892641246318817,
      "learning_rate": 0.00010953004034456439,
      "loss": 0.6338,
      "mean_token_accuracy": 0.8538844108581543,
      "num_tokens": 244047872.0,
      "step": 7450
    },
    {
      "epoch": 3.9644415069398544,
      "grad_norm": 0.16563069820404053,
      "learning_rate": 0.00010680405626431142,
      "loss": 0.6256,
      "step": 7500
    },
    {
      "epoch": 3.9644415069398544,
      "eval_loss": 0.7491397857666016,
      "eval_mean_token_accuracy": 0.8425506683535102,
      "eval_num_tokens": 245686272.0,
      "eval_runtime": 1603.9187,
      "eval_samples_per_second": 4.717,
      "eval_steps_per_second": 0.59,
      "step": 7500
    },
    {
      "epoch": 3.990879048248513,
      "grad_norm": 0.1561686098575592,
      "learning_rate": 0.00010407807218405844,
      "loss": 0.6398,
      "mean_token_accuracy": 0.8541101579368114,
      "num_tokens": 247324672.0,
      "step": 7550
    },
    {
      "epoch": 4.016920026437541,
      "grad_norm": 0.17185606062412262,
      "learning_rate": 0.00010135208810380548,
      "loss": 0.5504,
      "mean_token_accuracy": 0.8682107241625713,
      "num_tokens": 248938496.0,
      "step": 7600
    },
    {
      "epoch": 4.0433575677462,
      "grad_norm": 0.17470529675483704,
      "learning_rate": 9.86261040235525e-05,
      "loss": 0.5029,
      "mean_token_accuracy": 0.8748790314793586,
      "num_tokens": 250576896.0,
      "step": 7650
    },
    {
      "epoch": 4.069795109054858,
      "grad_norm": 0.1801612824201584,
      "learning_rate": 9.590011994329953e-05,
      "loss": 0.5043,
      "mean_token_accuracy": 0.8748985821008682,
      "num_tokens": 252215296.0,
      "step": 7700
    },
    {
      "epoch": 4.0962326503635165,
      "grad_norm": 0.16825653612613678,
      "learning_rate": 9.317413586304656e-05,
      "loss": 0.4967,
      "step": 7750
    },
    {
      "epoch": 4.0962326503635165,
      "eval_loss": 0.7883051037788391,
      "eval_mean_token_accuracy": 0.8408105385983973,
      "eval_num_tokens": 253853696.0,
      "eval_runtime": 1607.5856,
      "eval_samples_per_second": 4.706,
      "eval_steps_per_second": 0.588,
      "step": 7750
    },
    {
      "epoch": 4.122670191672174,
      "grad_norm": 0.17985741794109344,
      "learning_rate": 9.044815178279358e-05,
      "loss": 0.5031,
      "mean_token_accuracy": 0.875472262352705,
      "num_tokens": 255492096.0,
      "step": 7800
    },
    {
      "epoch": 4.149107732980832,
      "grad_norm": 0.17613214254379272,
      "learning_rate": 8.772216770254061e-05,
      "loss": 0.4969,
      "mean_token_accuracy": 0.8762671053409576,
      "num_tokens": 257130496.0,
      "step": 7850
    },
    {
      "epoch": 4.175545274289491,
      "grad_norm": 0.17405198514461517,
      "learning_rate": 8.499618362228765e-05,
      "loss": 0.5095,
      "mean_token_accuracy": 0.8734744620323182,
      "num_tokens": 258768896.0,
      "step": 7900
    },
    {
      "epoch": 4.201982815598149,
      "grad_norm": 0.17185764014720917,
      "learning_rate": 8.227019954203467e-05,
      "loss": 0.5074,
      "mean_token_accuracy": 0.8739729967713356,
      "num_tokens": 260407296.0,
      "step": 7950
    },
    {
      "epoch": 4.228420356906808,
      "grad_norm": 0.17758677899837494,
      "learning_rate": 7.95442154617817e-05,
      "loss": 0.5085,
      "step": 8000
    },
    {
      "epoch": 4.228420356906808,
      "eval_loss": 0.7870664000511169,
      "eval_mean_token_accuracy": 0.8414596145929292,
      "eval_num_tokens": 262045696.0,
      "eval_runtime": 1607.3849,
      "eval_samples_per_second": 4.706,
      "eval_steps_per_second": 0.589,
      "step": 8000
    },
    {
      "epoch": 4.254857898215466,
      "grad_norm": 0.16629241406917572,
      "learning_rate": 7.681823138152873e-05,
      "loss": 0.5032,
      "mean_token_accuracy": 0.8741639178991317,
      "num_tokens": 263684096.0,
      "step": 8050
    },
    {
      "epoch": 4.281295439524124,
      "grad_norm": 0.173508420586586,
      "learning_rate": 7.409224730127575e-05,
      "loss": 0.4909,
      "mean_token_accuracy": 0.8775629255175591,
      "num_tokens": 265322496.0,
      "step": 8100
    },
    {
      "epoch": 4.307732980832783,
      "grad_norm": 0.1713671237230301,
      "learning_rate": 7.136626322102279e-05,
      "loss": 0.4923,
      "mean_token_accuracy": 0.8772788345813751,
      "num_tokens": 266960896.0,
      "step": 8150
    },
    {
      "epoch": 4.334170522141441,
      "grad_norm": 0.17122632265090942,
      "learning_rate": 6.864027914076983e-05,
      "loss": 0.5,
      "mean_token_accuracy": 0.8755180832743644,
      "num_tokens": 268599296.0,
      "step": 8200
    },
    {
      "epoch": 4.360608063450099,
      "grad_norm": 0.17359545826911926,
      "learning_rate": 6.591429506051685e-05,
      "loss": 0.4943,
      "step": 8250
    },
    {
      "epoch": 4.360608063450099,
      "eval_loss": 0.7823996543884277,
      "eval_mean_token_accuracy": 0.8421699439370355,
      "eval_num_tokens": 270237696.0,
      "eval_runtime": 1607.7567,
      "eval_samples_per_second": 4.705,
      "eval_steps_per_second": 0.588,
      "step": 8250
    },
    {
      "epoch": 4.387045604758757,
      "grad_norm": 0.17702388763427734,
      "learning_rate": 6.318831098026388e-05,
      "loss": 0.4904,
      "mean_token_accuracy": 0.8775449013710022,
      "num_tokens": 271876096.0,
      "step": 8300
    },
    {
      "epoch": 4.413483146067415,
      "grad_norm": 0.18663644790649414,
      "learning_rate": 6.0462326900010904e-05,
      "loss": 0.4959,
      "mean_token_accuracy": 0.8762383911013604,
      "num_tokens": 273514496.0,
      "step": 8350
    },
    {
      "epoch": 4.439920687376074,
      "grad_norm": 0.1880512684583664,
      "learning_rate": 5.773634281975793e-05,
      "loss": 0.4931,
      "mean_token_accuracy": 0.8767839661240577,
      "num_tokens": 275152896.0,
      "step": 8400
    },
    {
      "epoch": 4.466358228684732,
      "grad_norm": 0.18527589738368988,
      "learning_rate": 5.5010358739504963e-05,
      "loss": 0.4877,
      "mean_token_accuracy": 0.87819525629282,
      "num_tokens": 276791296.0,
      "step": 8450
    },
    {
      "epoch": 4.492795769993391,
      "grad_norm": 0.19010977447032928,
      "learning_rate": 5.228437465925199e-05,
      "loss": 0.4894,
      "step": 8500
    },
    {
      "epoch": 4.492795769993391,
      "eval_loss": 0.7803131341934204,
      "eval_mean_token_accuracy": 0.8430041650637008,
      "eval_num_tokens": 278429696.0,
      "eval_runtime": 1610.9854,
      "eval_samples_per_second": 4.696,
      "eval_steps_per_second": 0.587,
      "step": 8500
    },
    {
      "epoch": 4.519233311302049,
      "grad_norm": 0.17016442120075226,
      "learning_rate": 4.9558390578999016e-05,
      "loss": 0.4847,
      "mean_token_accuracy": 0.8786284182965756,
      "num_tokens": 280068096.0,
      "step": 8550
    },
    {
      "epoch": 4.545670852610707,
      "grad_norm": 0.1719425618648529,
      "learning_rate": 4.683240649874604e-05,
      "loss": 0.4875,
      "mean_token_accuracy": 0.8785123375058174,
      "num_tokens": 281706496.0,
      "step": 8600
    },
    {
      "epoch": 4.572108393919366,
      "grad_norm": 0.17816464602947235,
      "learning_rate": 4.4106422418493076e-05,
      "loss": 0.4863,
      "mean_token_accuracy": 0.8782337459921837,
      "num_tokens": 283344896.0,
      "step": 8650
    },
    {
      "epoch": 4.598545935228024,
      "grad_norm": 0.1728549599647522,
      "learning_rate": 4.138043833824011e-05,
      "loss": 0.4879,
      "mean_token_accuracy": 0.8787457209825515,
      "num_tokens": 284983296.0,
      "step": 8700
    },
    {
      "epoch": 4.624983476536682,
      "grad_norm": 0.18577666580677032,
      "learning_rate": 3.8654454257987135e-05,
      "loss": 0.4914,
      "step": 8750
    },
    {
      "epoch": 4.624983476536682,
      "eval_loss": 0.7784421443939209,
      "eval_mean_token_accuracy": 0.8436387255000262,
      "eval_num_tokens": 286621696.0,
      "eval_runtime": 1611.4393,
      "eval_samples_per_second": 4.695,
      "eval_steps_per_second": 0.587,
      "step": 8750
    },
    {
      "epoch": 4.65142101784534,
      "grad_norm": 0.16825436055660248,
      "learning_rate": 3.592847017773417e-05,
      "loss": 0.4756,
      "mean_token_accuracy": 0.8792506690323353,
      "num_tokens": 288260096.0,
      "step": 8800
    },
    {
      "epoch": 4.677858559153998,
      "grad_norm": 0.18510740995407104,
      "learning_rate": 3.3202486097481194e-05,
      "loss": 0.4788,
      "mean_token_accuracy": 0.8801001918315887,
      "num_tokens": 289898496.0,
      "step": 8850
    },
    {
      "epoch": 4.704296100462657,
      "grad_norm": 0.18907974660396576,
      "learning_rate": 3.0476502017228217e-05,
      "loss": 0.4837,
      "mean_token_accuracy": 0.8794446450471878,
      "num_tokens": 291536896.0,
      "step": 8900
    },
    {
      "epoch": 4.730733641771315,
      "grad_norm": 0.1798245906829834,
      "learning_rate": 2.775051793697525e-05,
      "loss": 0.4883,
      "mean_token_accuracy": 0.8778897827863693,
      "num_tokens": 293175296.0,
      "step": 8950
    },
    {
      "epoch": 4.757171183079974,
      "grad_norm": 0.17980748414993286,
      "learning_rate": 2.502453385672228e-05,
      "loss": 0.475,
      "step": 9000
    },
    {
      "epoch": 4.757171183079974,
      "eval_loss": 0.7753015756607056,
      "eval_mean_token_accuracy": 0.8443130426754659,
      "eval_num_tokens": 294813696.0,
      "eval_runtime": 1611.452,
      "eval_samples_per_second": 4.695,
      "eval_steps_per_second": 0.587,
      "step": 9000
    },
    {
      "epoch": 4.783608724388632,
      "grad_norm": 0.17731408774852753,
      "learning_rate": 2.2298549776469306e-05,
      "loss": 0.4657,
      "mean_token_accuracy": 0.8821294555068016,
      "num_tokens": 296452096.0,
      "step": 9050
    },
    {
      "epoch": 4.81004626569729,
      "grad_norm": 0.19258248805999756,
      "learning_rate": 1.9572565696216336e-05,
      "loss": 0.4779,
      "mean_token_accuracy": 0.8807239699363708,
      "num_tokens": 298090496.0,
      "step": 9100
    },
    {
      "epoch": 4.836483807005949,
      "grad_norm": 0.17705880105495453,
      "learning_rate": 1.6846581615963362e-05,
      "loss": 0.476,
      "mean_token_accuracy": 0.8808369943499565,
      "num_tokens": 299728896.0,
      "step": 9150
    },
    {
      "epoch": 4.8629213483146065,
      "grad_norm": 0.1794816255569458,
      "learning_rate": 1.4120597535710392e-05,
      "loss": 0.4742,
      "mean_token_accuracy": 0.8813196429610253,
      "num_tokens": 301367296.0,
      "step": 9200
    },
    {
      "epoch": 4.889358889623265,
      "grad_norm": 0.17823387682437897,
      "learning_rate": 1.139461345545742e-05,
      "loss": 0.4719,
      "step": 9250
    },
    {
      "epoch": 4.889358889623265,
      "eval_loss": 0.7754274010658264,
      "eval_mean_token_accuracy": 0.844791491931387,
      "eval_num_tokens": 303005696.0,
      "eval_runtime": 1610.8654,
      "eval_samples_per_second": 4.696,
      "eval_steps_per_second": 0.587,
      "step": 9250
    },
    {
      "epoch": 4.915796430931923,
      "grad_norm": 0.16834519803524017,
      "learning_rate": 8.668629375204448e-06,
      "loss": 0.4653,
      "mean_token_accuracy": 0.8821077673137188,
      "num_tokens": 304644096.0,
      "step": 9300
    },
    {
      "epoch": 4.942233972240581,
      "grad_norm": 0.17272663116455078,
      "learning_rate": 5.942645294951477e-06,
      "loss": 0.4783,
      "mean_token_accuracy": 0.8806390488147735,
      "num_tokens": 306282496.0,
      "step": 9350
    },
    {
      "epoch": 4.96867151354924,
      "grad_norm": 0.17334023118019104,
      "learning_rate": 3.2166612146985063e-06,
      "loss": 0.4794,
      "mean_token_accuracy": 0.8807239702343941,
      "num_tokens": 307920896.0,
      "step": 9400
    },
    {
      "epoch": 4.995109054857898,
      "grad_norm": 0.17255398631095886,
      "learning_rate": 4.906771344455349e-07,
      "loss": 0.4793,
      "mean_token_accuracy": 0.8803439608216286,
      "num_tokens": 309559296.0,
      "step": 9450
    }
  ],
  "logging_steps": 50,
  "max_steps": 9455,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 619390244487168.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}