{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 6252,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0023999520009599807,
      "grad_norm": 0.49803411960601807,
      "learning_rate": 4.999994949996767e-05,
      "loss": 0.9716,
      "num_input_tokens_seen": 54328,
      "step": 5,
      "train_runtime": 8.3772,
      "train_tokens_per_second": 6485.207
    },
    {
      "epoch": 0.004799904001919961,
      "grad_norm": 0.4587724804878235,
      "learning_rate": 4.9999744343936e-05,
      "loss": 0.9705,
      "num_input_tokens_seen": 108376,
      "step": 10,
      "train_runtime": 16.0234,
      "train_tokens_per_second": 6763.598
    },
    {
      "epoch": 0.007199856002879942,
      "grad_norm": 0.3823186159133911,
      "learning_rate": 4.999938137694701e-05,
      "loss": 0.8622,
      "num_input_tokens_seen": 163816,
      "step": 15,
      "train_runtime": 24.1319,
      "train_tokens_per_second": 6788.347
    },
    {
      "epoch": 0.009599808003839923,
      "grad_norm": 0.3449329733848572,
      "learning_rate": 4.999886060129194e-05,
      "loss": 0.8309,
      "num_input_tokens_seen": 225216,
      "step": 20,
      "train_runtime": 33.0832,
      "train_tokens_per_second": 6807.559
    },
    {
      "epoch": 0.011999760004799903,
      "grad_norm": 0.4700082242488861,
      "learning_rate": 4.999818202025819e-05,
      "loss": 0.8118,
      "num_input_tokens_seen": 279480,
      "step": 25,
      "train_runtime": 40.5384,
      "train_tokens_per_second": 6894.209
    },
    {
      "epoch": 0.014399712005759884,
      "grad_norm": 0.3817142844200134,
      "learning_rate": 4.999734563812929e-05,
      "loss": 0.7763,
      "num_input_tokens_seen": 337816,
      "step": 30,
      "train_runtime": 48.8916,
      "train_tokens_per_second": 6909.488
    },
    {
      "epoch": 0.016799664006719867,
      "grad_norm": 0.33569249510765076,
      "learning_rate": 4.9996351460184923e-05,
      "loss": 0.7919,
      "num_input_tokens_seen": 394952,
      "step": 35,
      "train_runtime": 57.353,
      "train_tokens_per_second": 6886.34
    },
    {
      "epoch": 0.019199616007679846,
      "grad_norm": 0.29491692781448364,
      "learning_rate": 4.9995199492700826e-05,
      "loss": 0.7095,
      "num_input_tokens_seen": 454608,
      "step": 40,
      "train_runtime": 65.8361,
      "train_tokens_per_second": 6905.143
    },
    {
      "epoch": 0.021599568008639828,
      "grad_norm": 0.3096805810928345,
      "learning_rate": 4.9993889742948806e-05,
      "loss": 0.7347,
      "num_input_tokens_seen": 510256,
      "step": 45,
      "train_runtime": 74.0444,
      "train_tokens_per_second": 6891.219
    },
    {
      "epoch": 0.023999520009599807,
      "grad_norm": 0.3358306884765625,
      "learning_rate": 4.9992422219196656e-05,
      "loss": 0.7461,
      "num_input_tokens_seen": 568112,
      "step": 50,
      "train_runtime": 82.4236,
      "train_tokens_per_second": 6892.587
    },
    {
      "epoch": 0.02639947201055979,
      "grad_norm": 0.3951747417449951,
      "learning_rate": 4.9990796930708125e-05,
      "loss": 0.7168,
      "num_input_tokens_seen": 625896,
      "step": 55,
      "train_runtime": 90.7851,
      "train_tokens_per_second": 6894.26
    },
    {
      "epoch": 0.02879942401151977,
      "grad_norm": 0.3642365038394928,
      "learning_rate": 4.9989013887742856e-05,
      "loss": 0.7117,
      "num_input_tokens_seen": 677856,
      "step": 60,
      "train_runtime": 98.2631,
      "train_tokens_per_second": 6898.377
    },
    {
      "epoch": 0.03119937601247975,
      "grad_norm": 0.3379388153553009,
      "learning_rate": 4.998707310155631e-05,
      "loss": 0.6441,
      "num_input_tokens_seen": 740792,
      "step": 65,
      "train_runtime": 107.5229,
      "train_tokens_per_second": 6889.624
    },
    {
      "epoch": 0.03359932801343973,
      "grad_norm": 0.46827253699302673,
      "learning_rate": 4.99849745843997e-05,
      "loss": 0.617,
      "num_input_tokens_seen": 795784,
      "step": 70,
      "train_runtime": 115.3119,
      "train_tokens_per_second": 6901.144
    },
    {
      "epoch": 0.03599928001439971,
      "grad_norm": 0.46408799290657043,
      "learning_rate": 4.998271834951993e-05,
      "loss": 0.685,
      "num_input_tokens_seen": 852016,
      "step": 75,
      "train_runtime": 123.2024,
      "train_tokens_per_second": 6915.578
    },
    {
      "epoch": 0.03839923201535969,
      "grad_norm": 0.4789453148841858,
      "learning_rate": 4.998030441115949e-05,
      "loss": 0.6505,
      "num_input_tokens_seen": 909224,
      "step": 80,
      "train_runtime": 131.6277,
      "train_tokens_per_second": 6907.542
    },
    {
      "epoch": 0.04079918401631968,
      "grad_norm": 0.40359923243522644,
      "learning_rate": 4.9977732784556355e-05,
      "loss": 0.6212,
      "num_input_tokens_seen": 959568,
      "step": 85,
      "train_runtime": 139.0702,
      "train_tokens_per_second": 6899.88
    },
    {
      "epoch": 0.043199136017279656,
      "grad_norm": 0.452709436416626,
      "learning_rate": 4.997500348594394e-05,
      "loss": 0.6978,
      "num_input_tokens_seen": 1010696,
      "step": 90,
      "train_runtime": 146.8828,
      "train_tokens_per_second": 6880.967
    },
    {
      "epoch": 0.045599088018239635,
      "grad_norm": 0.4287179112434387,
      "learning_rate": 4.997211653255096e-05,
      "loss": 0.6212,
      "num_input_tokens_seen": 1067912,
      "step": 95,
      "train_runtime": 155.302,
      "train_tokens_per_second": 6876.357
    },
    {
      "epoch": 0.047999040019199614,
      "grad_norm": 0.5242288112640381,
      "learning_rate": 4.996907194260129e-05,
      "loss": 0.6182,
      "num_input_tokens_seen": 1127264,
      "step": 100,
      "train_runtime": 164.3956,
      "train_tokens_per_second": 6857.02
    },
    {
      "epoch": 0.0503989920201596,
      "grad_norm": 0.31285974383354187,
      "learning_rate": 4.996586973531394e-05,
      "loss": 0.6254,
      "num_input_tokens_seen": 1183208,
      "step": 105,
      "train_runtime": 172.5905,
      "train_tokens_per_second": 6855.582
    },
    {
      "epoch": 0.05279894402111958,
      "grad_norm": 0.30165454745292664,
      "learning_rate": 4.9962509930902836e-05,
      "loss": 0.5758,
      "num_input_tokens_seen": 1243128,
      "step": 110,
      "train_runtime": 181.2314,
      "train_tokens_per_second": 6859.34
    },
    {
      "epoch": 0.05519889602207956,
      "grad_norm": 0.3959163725376129,
      "learning_rate": 4.9958992550576754e-05,
      "loss": 0.6427,
      "num_input_tokens_seen": 1294648,
      "step": 115,
      "train_runtime": 188.848,
      "train_tokens_per_second": 6855.503
    },
    {
      "epoch": 0.05759884802303954,
      "grad_norm": 0.44546279311180115,
      "learning_rate": 4.9955317616539174e-05,
      "loss": 0.6416,
      "num_input_tokens_seen": 1349136,
      "step": 120,
      "train_runtime": 196.8055,
      "train_tokens_per_second": 6855.173
    },
    {
      "epoch": 0.05999880002399952,
      "grad_norm": 0.5479788184165955,
      "learning_rate": 4.9951485151988126e-05,
      "loss": 0.6039,
      "num_input_tokens_seen": 1403304,
      "step": 125,
      "train_runtime": 204.9341,
      "train_tokens_per_second": 6847.585
    },
    {
      "epoch": 0.0623987520249595,
      "grad_norm": 0.46208852529525757,
      "learning_rate": 4.994749518111604e-05,
      "loss": 0.6365,
      "num_input_tokens_seen": 1460712,
      "step": 130,
      "train_runtime": 212.8501,
      "train_tokens_per_second": 6862.633
    },
    {
      "epoch": 0.06479870402591949,
      "grad_norm": 0.5154985189437866,
      "learning_rate": 4.9943347729109646e-05,
      "loss": 0.5757,
      "num_input_tokens_seen": 1516920,
      "step": 135,
      "train_runtime": 221.1296,
      "train_tokens_per_second": 6859.868
    },
    {
      "epoch": 0.06719865602687947,
      "grad_norm": 0.4509885311126709,
      "learning_rate": 4.993904282214972e-05,
      "loss": 0.6484,
      "num_input_tokens_seen": 1569296,
      "step": 140,
      "train_runtime": 228.9245,
      "train_tokens_per_second": 6855.081
    },
    {
      "epoch": 0.06959860802783945,
      "grad_norm": 0.47324448823928833,
      "learning_rate": 4.993458048741102e-05,
      "loss": 0.5967,
      "num_input_tokens_seen": 1627720,
      "step": 145,
      "train_runtime": 237.6306,
      "train_tokens_per_second": 6849.792
    },
    {
      "epoch": 0.07199856002879942,
      "grad_norm": 0.4491414427757263,
      "learning_rate": 4.992996075306203e-05,
      "loss": 0.6705,
      "num_input_tokens_seen": 1680600,
      "step": 150,
      "train_runtime": 245.5875,
      "train_tokens_per_second": 6843.181
    },
    {
      "epoch": 0.0743985120297594,
      "grad_norm": 0.5371958613395691,
      "learning_rate": 4.992518364826484e-05,
      "loss": 0.5925,
      "num_input_tokens_seen": 1732368,
      "step": 155,
      "train_runtime": 253.2225,
      "train_tokens_per_second": 6841.288
    },
    {
      "epoch": 0.07679846403071938,
      "grad_norm": 0.44730937480926514,
      "learning_rate": 4.9920249203174945e-05,
      "loss": 0.5695,
      "num_input_tokens_seen": 1794680,
      "step": 160,
      "train_runtime": 262.1391,
      "train_tokens_per_second": 6846.289
    },
    {
      "epoch": 0.07919841603167936,
      "grad_norm": 0.4398422837257385,
      "learning_rate": 4.9915157448941044e-05,
      "loss": 0.5549,
      "num_input_tokens_seen": 1854040,
      "step": 165,
      "train_runtime": 270.3386,
      "train_tokens_per_second": 6858.214
    },
    {
      "epoch": 0.08159836803263935,
      "grad_norm": 0.5156921148300171,
      "learning_rate": 4.9909908417704835e-05,
      "loss": 0.5701,
      "num_input_tokens_seen": 1908808,
      "step": 170,
      "train_runtime": 278.3256,
      "train_tokens_per_second": 6858.183
    },
    {
      "epoch": 0.08399832003359933,
      "grad_norm": 0.40140026807785034,
      "learning_rate": 4.990450214260086e-05,
      "loss": 0.5478,
      "num_input_tokens_seen": 1966184,
      "step": 175,
      "train_runtime": 286.7588,
      "train_tokens_per_second": 6856.577
    },
    {
      "epoch": 0.08639827203455931,
      "grad_norm": 0.5238102674484253,
      "learning_rate": 4.9898938657756234e-05,
      "loss": 0.5816,
      "num_input_tokens_seen": 2023280,
      "step": 180,
      "train_runtime": 295.3163,
      "train_tokens_per_second": 6851.231
    },
    {
      "epoch": 0.08879822403551929,
      "grad_norm": 0.4058316648006439,
      "learning_rate": 4.989321799829048e-05,
      "loss": 0.6243,
      "num_input_tokens_seen": 2079160,
      "step": 185,
      "train_runtime": 303.4477,
      "train_tokens_per_second": 6851.791
    },
    {
      "epoch": 0.09119817603647927,
      "grad_norm": 0.48315656185150146,
      "learning_rate": 4.988734020031527e-05,
      "loss": 0.5903,
      "num_input_tokens_seen": 2129480,
      "step": 190,
      "train_runtime": 310.6729,
      "train_tokens_per_second": 6854.413
    },
    {
      "epoch": 0.09359812803743925,
      "grad_norm": 0.49458763003349304,
      "learning_rate": 4.9881305300934225e-05,
      "loss": 0.5232,
      "num_input_tokens_seen": 2189160,
      "step": 195,
      "train_runtime": 319.1985,
      "train_tokens_per_second": 6858.302
    },
    {
      "epoch": 0.09599808003839923,
      "grad_norm": 0.3490532338619232,
      "learning_rate": 4.987511333824266e-05,
      "loss": 0.5846,
      "num_input_tokens_seen": 2247704,
      "step": 200,
      "train_runtime": 327.3152,
      "train_tokens_per_second": 6867.093
    },
    {
      "epoch": 0.0983980320393592,
      "grad_norm": 0.41308099031448364,
      "learning_rate": 4.986876435132736e-05,
      "loss": 0.589,
      "num_input_tokens_seen": 2307040,
      "step": 205,
      "train_runtime": 335.8335,
      "train_tokens_per_second": 6869.595
    },
    {
      "epoch": 0.1007979840403192,
      "grad_norm": 0.4715804159641266,
      "learning_rate": 4.9862258380266325e-05,
      "loss": 0.5737,
      "num_input_tokens_seen": 2357488,
      "step": 210,
      "train_runtime": 343.3468,
      "train_tokens_per_second": 6866.201
    },
    {
      "epoch": 0.10319793604127918,
      "grad_norm": 0.35753390192985535,
      "learning_rate": 4.985559546612851e-05,
      "loss": 0.6138,
      "num_input_tokens_seen": 2414064,
      "step": 215,
      "train_runtime": 351.1882,
      "train_tokens_per_second": 6873.99
    },
    {
      "epoch": 0.10559788804223916,
      "grad_norm": 0.44587111473083496,
      "learning_rate": 4.984877565097359e-05,
      "loss": 0.5923,
      "num_input_tokens_seen": 2472744,
      "step": 220,
      "train_runtime": 359.483,
      "train_tokens_per_second": 6878.611
    },
    {
      "epoch": 0.10799784004319914,
      "grad_norm": 0.47545069456100464,
      "learning_rate": 4.984179897785166e-05,
      "loss": 0.55,
      "num_input_tokens_seen": 2529024,
      "step": 225,
      "train_runtime": 367.4645,
      "train_tokens_per_second": 6882.364
    },
    {
      "epoch": 0.11039779204415912,
      "grad_norm": 0.5392165184020996,
      "learning_rate": 4.983466549080299e-05,
      "loss": 0.618,
      "num_input_tokens_seen": 2584864,
      "step": 230,
      "train_runtime": 375.6998,
      "train_tokens_per_second": 6880.132
    },
    {
      "epoch": 0.1127977440451191,
      "grad_norm": 0.6994487047195435,
      "learning_rate": 4.9827375234857735e-05,
      "loss": 0.6055,
      "num_input_tokens_seen": 2638696,
      "step": 235,
      "train_runtime": 383.3187,
      "train_tokens_per_second": 6883.818
    },
    {
      "epoch": 0.11519769604607907,
      "grad_norm": 0.5480724573135376,
      "learning_rate": 4.981992825603566e-05,
      "loss": 0.5962,
      "num_input_tokens_seen": 2699160,
      "step": 240,
      "train_runtime": 391.6683,
      "train_tokens_per_second": 6891.444
    },
    {
      "epoch": 0.11759764804703907,
      "grad_norm": 0.49630582332611084,
      "learning_rate": 4.981232460134584e-05,
      "loss": 0.5556,
      "num_input_tokens_seen": 2756440,
      "step": 245,
      "train_runtime": 400.0318,
      "train_tokens_per_second": 6890.551
    },
    {
      "epoch": 0.11999760004799905,
      "grad_norm": 0.48846226930618286,
      "learning_rate": 4.980456431878636e-05,
      "loss": 0.6064,
      "num_input_tokens_seen": 2811584,
      "step": 250,
      "train_runtime": 408.3053,
      "train_tokens_per_second": 6885.985
    },
    {
      "epoch": 0.12239755204895902,
      "grad_norm": 0.7514108419418335,
      "learning_rate": 4.9796647457344034e-05,
      "loss": 0.622,
      "num_input_tokens_seen": 2864600,
      "step": 255,
      "train_runtime": 416.1151,
      "train_tokens_per_second": 6884.152
    },
    {
      "epoch": 0.124797504049919,
      "grad_norm": 0.45766520500183105,
      "learning_rate": 4.9788574066994074e-05,
      "loss": 0.5792,
      "num_input_tokens_seen": 2920384,
      "step": 260,
      "train_runtime": 424.193,
      "train_tokens_per_second": 6884.564
    },
    {
      "epoch": 0.12719745605087898,
      "grad_norm": 0.40784621238708496,
      "learning_rate": 4.978034419869977e-05,
      "loss": 0.5464,
      "num_input_tokens_seen": 2976400,
      "step": 265,
      "train_runtime": 432.5949,
      "train_tokens_per_second": 6880.34
    },
    {
      "epoch": 0.12959740805183897,
      "grad_norm": 0.5691152811050415,
      "learning_rate": 4.977195790441219e-05,
      "loss": 0.5769,
      "num_input_tokens_seen": 3031640,
      "step": 270,
      "train_runtime": 440.75,
      "train_tokens_per_second": 6878.366
    },
    {
      "epoch": 0.13199736005279894,
      "grad_norm": 0.509024977684021,
      "learning_rate": 4.976341523706986e-05,
      "loss": 0.5853,
      "num_input_tokens_seen": 3088304,
      "step": 275,
      "train_runtime": 448.5804,
      "train_tokens_per_second": 6884.616
    },
    {
      "epoch": 0.13439731205375893,
      "grad_norm": 0.5476660132408142,
      "learning_rate": 4.975471625059837e-05,
      "loss": 0.5715,
      "num_input_tokens_seen": 3146984,
      "step": 280,
      "train_runtime": 456.8318,
      "train_tokens_per_second": 6888.716
    },
    {
      "epoch": 0.1367972640547189,
      "grad_norm": 0.41494348645210266,
      "learning_rate": 4.9745860999910093e-05,
      "loss": 0.5492,
      "num_input_tokens_seen": 3206416,
      "step": 285,
      "train_runtime": 465.4275,
      "train_tokens_per_second": 6889.185
    },
    {
      "epoch": 0.1391972160556789,
      "grad_norm": 0.4294047951698303,
      "learning_rate": 4.973684954090384e-05,
      "loss": 0.6008,
      "num_input_tokens_seen": 3263920,
      "step": 290,
      "train_runtime": 473.6647,
      "train_tokens_per_second": 6890.782
    },
    {
      "epoch": 0.14159716805663886,
      "grad_norm": 0.673201858997345,
      "learning_rate": 4.972768193046446e-05,
      "loss": 0.5588,
      "num_input_tokens_seen": 3318032,
      "step": 295,
      "train_runtime": 481.6549,
      "train_tokens_per_second": 6888.816
    },
    {
      "epoch": 0.14399712005759885,
      "grad_norm": 0.6196733117103577,
      "learning_rate": 4.971835822646254e-05,
      "loss": 0.5692,
      "num_input_tokens_seen": 3373136,
      "step": 300,
      "train_runtime": 489.8925,
      "train_tokens_per_second": 6885.461
    },
    {
      "epoch": 0.14639707205855884,
      "grad_norm": 0.5182610154151917,
      "learning_rate": 4.9708878487753976e-05,
      "loss": 0.5801,
      "num_input_tokens_seen": 3428032,
      "step": 305,
      "train_runtime": 497.9042,
      "train_tokens_per_second": 6884.923
    },
    {
      "epoch": 0.1487970240595188,
      "grad_norm": 0.5710193514823914,
      "learning_rate": 4.969924277417963e-05,
      "loss": 0.5601,
      "num_input_tokens_seen": 3482432,
      "step": 310,
      "train_runtime": 505.9162,
      "train_tokens_per_second": 6883.416
    },
    {
      "epoch": 0.1511969760604788,
      "grad_norm": 0.5431010127067566,
      "learning_rate": 4.968945114656499e-05,
      "loss": 0.6167,
      "num_input_tokens_seen": 3540200,
      "step": 315,
      "train_runtime": 513.822,
      "train_tokens_per_second": 6889.935
    },
    {
      "epoch": 0.15359692806143876,
      "grad_norm": 0.5962916016578674,
      "learning_rate": 4.967950366671973e-05,
      "loss": 0.5528,
      "num_input_tokens_seen": 3590376,
      "step": 320,
      "train_runtime": 521.033,
      "train_tokens_per_second": 6890.88
    },
    {
      "epoch": 0.15599688006239876,
      "grad_norm": 0.43872061371803284,
      "learning_rate": 4.966940039743734e-05,
      "loss": 0.582,
      "num_input_tokens_seen": 3650392,
      "step": 325,
      "train_runtime": 529.3248,
      "train_tokens_per_second": 6896.317
    },
    {
      "epoch": 0.15839683206335872,
      "grad_norm": 0.6549321413040161,
      "learning_rate": 4.965914140249475e-05,
      "loss": 0.6262,
      "num_input_tokens_seen": 3700960,
      "step": 330,
      "train_runtime": 537.0024,
      "train_tokens_per_second": 6891.887
    },
    {
      "epoch": 0.16079678406431872,
      "grad_norm": 0.49688732624053955,
      "learning_rate": 4.9648726746651875e-05,
      "loss": 0.555,
      "num_input_tokens_seen": 3757192,
      "step": 335,
      "train_runtime": 544.9852,
      "train_tokens_per_second": 6894.117
    },
    {
      "epoch": 0.1631967360652787,
      "grad_norm": 0.600683331489563,
      "learning_rate": 4.9638156495651265e-05,
      "loss": 0.5747,
      "num_input_tokens_seen": 3812168,
      "step": 340,
      "train_runtime": 552.5883,
      "train_tokens_per_second": 6898.749
    },
    {
      "epoch": 0.16559668806623867,
      "grad_norm": 0.506166398525238,
      "learning_rate": 4.9627430716217674e-05,
      "loss": 0.562,
      "num_input_tokens_seen": 3873432,
      "step": 345,
      "train_runtime": 561.3753,
      "train_tokens_per_second": 6899.898
    },
    {
      "epoch": 0.16799664006719867,
      "grad_norm": 0.5933504104614258,
      "learning_rate": 4.96165494760576e-05,
      "loss": 0.5751,
      "num_input_tokens_seen": 3928216,
      "step": 350,
      "train_runtime": 569.6058,
      "train_tokens_per_second": 6896.377
    },
    {
      "epoch": 0.17039659206815863,
      "grad_norm": 0.7012840509414673,
      "learning_rate": 4.96055128438589e-05,
      "loss": 0.5283,
      "num_input_tokens_seen": 3985672,
      "step": 355,
      "train_runtime": 578.024,
      "train_tokens_per_second": 6895.339
    },
    {
      "epoch": 0.17279654406911862,
      "grad_norm": 0.5886171460151672,
      "learning_rate": 4.959432088929036e-05,
      "loss": 0.5688,
      "num_input_tokens_seen": 4042336,
      "step": 360,
      "train_runtime": 586.1104,
      "train_tokens_per_second": 6896.885
    },
    {
      "epoch": 0.1751964960700786,
      "grad_norm": 0.6454927325248718,
      "learning_rate": 4.958297368300122e-05,
      "loss": 0.5236,
      "num_input_tokens_seen": 4097248,
      "step": 365,
      "train_runtime": 594.2204,
      "train_tokens_per_second": 6895.165
    },
    {
      "epoch": 0.17759644807103858,
      "grad_norm": 0.48636892437934875,
      "learning_rate": 4.957147129662074e-05,
      "loss": 0.5569,
      "num_input_tokens_seen": 4152816,
      "step": 370,
      "train_runtime": 602.2577,
      "train_tokens_per_second": 6895.413
    },
    {
      "epoch": 0.17999640007199855,
      "grad_norm": 0.5636932253837585,
      "learning_rate": 4.9559813802757785e-05,
      "loss": 0.5558,
      "num_input_tokens_seen": 4210824,
      "step": 375,
      "train_runtime": 610.6583,
      "train_tokens_per_second": 6895.549
    },
    {
      "epoch": 0.18239635207295854,
      "grad_norm": 0.4750101864337921,
      "learning_rate": 4.954800127500031e-05,
      "loss": 0.5055,
      "num_input_tokens_seen": 4263672,
      "step": 380,
      "train_runtime": 618.8445,
      "train_tokens_per_second": 6889.73
    },
    {
      "epoch": 0.18479630407391853,
      "grad_norm": 0.6123194694519043,
      "learning_rate": 4.953603378791493e-05,
      "loss": 0.5524,
      "num_input_tokens_seen": 4319024,
      "step": 385,
      "train_runtime": 626.7904,
      "train_tokens_per_second": 6890.699
    },
    {
      "epoch": 0.1871962560748785,
      "grad_norm": 0.49063947796821594,
      "learning_rate": 4.952391141704644e-05,
      "loss": 0.5653,
      "num_input_tokens_seen": 4377064,
      "step": 390,
      "train_runtime": 634.9033,
      "train_tokens_per_second": 6894.064
    },
    {
      "epoch": 0.1895962080758385,
      "grad_norm": 0.5559214949607849,
      "learning_rate": 4.951163423891735e-05,
      "loss": 0.6034,
      "num_input_tokens_seen": 4434984,
      "step": 395,
      "train_runtime": 643.2672,
      "train_tokens_per_second": 6894.466
    },
    {
      "epoch": 0.19199616007679846,
      "grad_norm": 0.3978354334831238,
      "learning_rate": 4.949920233102736e-05,
      "loss": 0.5667,
      "num_input_tokens_seen": 4492368,
      "step": 400,
      "train_runtime": 651.0435,
      "train_tokens_per_second": 6900.258
    },
    {
      "epoch": 0.19439611207775845,
      "grad_norm": 0.5354523658752441,
      "learning_rate": 4.948661577185295e-05,
      "loss": 0.5445,
      "num_input_tokens_seen": 4549008,
      "step": 405,
      "train_runtime": 659.5277,
      "train_tokens_per_second": 6897.372
    },
    {
      "epoch": 0.1967960640787184,
      "grad_norm": 0.4975457191467285,
      "learning_rate": 4.947387464084679e-05,
      "loss": 0.5462,
      "num_input_tokens_seen": 4609072,
      "step": 410,
      "train_runtime": 668.316,
      "train_tokens_per_second": 6896.546
    },
    {
      "epoch": 0.1991960160796784,
      "grad_norm": 0.5424690246582031,
      "learning_rate": 4.9460979018437314e-05,
      "loss": 0.5855,
      "num_input_tokens_seen": 4662560,
      "step": 415,
      "train_runtime": 676.3317,
      "train_tokens_per_second": 6893.895
    },
    {
      "epoch": 0.2015959680806384,
      "grad_norm": 0.5656135678291321,
      "learning_rate": 4.944792898602818e-05,
      "loss": 0.5909,
      "num_input_tokens_seen": 4719248,
      "step": 420,
      "train_runtime": 684.592,
      "train_tokens_per_second": 6893.519
    },
    {
      "epoch": 0.20399592008159836,
      "grad_norm": 0.4792700409889221,
      "learning_rate": 4.943472462599775e-05,
      "loss": 0.5211,
      "num_input_tokens_seen": 4774096,
      "step": 425,
      "train_runtime": 692.7133,
      "train_tokens_per_second": 6891.879
    },
    {
      "epoch": 0.20639587208255836,
      "grad_norm": 0.5212066173553467,
      "learning_rate": 4.942136602169858e-05,
      "loss": 0.5245,
      "num_input_tokens_seen": 4832616,
      "step": 430,
      "train_runtime": 700.7277,
      "train_tokens_per_second": 6896.567
    },
    {
      "epoch": 0.20879582408351832,
      "grad_norm": 0.5669515132904053,
      "learning_rate": 4.94078532574569e-05,
      "loss": 0.5304,
      "num_input_tokens_seen": 4887208,
      "step": 435,
      "train_runtime": 708.8314,
      "train_tokens_per_second": 6894.74
    },
    {
      "epoch": 0.21119577608447831,
      "grad_norm": 0.6369892358779907,
      "learning_rate": 4.939418641857209e-05,
      "loss": 0.5879,
      "num_input_tokens_seen": 4942504,
      "step": 440,
      "train_runtime": 716.88,
      "train_tokens_per_second": 6894.464
    },
    {
      "epoch": 0.21359572808543828,
      "grad_norm": 0.5132316946983337,
      "learning_rate": 4.938036559131608e-05,
      "loss": 0.5854,
      "num_input_tokens_seen": 4997880,
      "step": 445,
      "train_runtime": 724.9035,
      "train_tokens_per_second": 6894.546
    },
    {
      "epoch": 0.21599568008639827,
      "grad_norm": 0.5846990942955017,
      "learning_rate": 4.9366390862932896e-05,
      "loss": 0.5545,
      "num_input_tokens_seen": 5060096,
      "step": 450,
      "train_runtime": 733.2702,
      "train_tokens_per_second": 6900.725
    },
    {
      "epoch": 0.21839563208735827,
      "grad_norm": 0.5361617803573608,
      "learning_rate": 4.9352262321638056e-05,
      "loss": 0.528,
      "num_input_tokens_seen": 5120168,
      "step": 455,
      "train_runtime": 741.6463,
      "train_tokens_per_second": 6903.787
    },
    {
      "epoch": 0.22079558408831823,
      "grad_norm": 0.6068050265312195,
      "learning_rate": 4.9337980056618006e-05,
      "loss": 0.5462,
      "num_input_tokens_seen": 5175776,
      "step": 460,
      "train_runtime": 750.017,
      "train_tokens_per_second": 6900.878
    },
    {
      "epoch": 0.22319553608927822,
      "grad_norm": 0.6304349899291992,
      "learning_rate": 4.932354415802959e-05,
      "loss": 0.5399,
      "num_input_tokens_seen": 5232032,
      "step": 465,
      "train_runtime": 758.2013,
      "train_tokens_per_second": 6900.584
    },
    {
      "epoch": 0.2255954880902382,
      "grad_norm": 0.5615517497062683,
      "learning_rate": 4.9308954716999464e-05,
      "loss": 0.5224,
      "num_input_tokens_seen": 5292688,
      "step": 470,
      "train_runtime": 766.6597,
      "train_tokens_per_second": 6903.569
    },
    {
      "epoch": 0.22799544009119818,
      "grad_norm": 0.7061598896980286,
      "learning_rate": 4.92942118256235e-05,
      "loss": 0.5335,
      "num_input_tokens_seen": 5353096,
      "step": 475,
      "train_runtime": 775.3136,
      "train_tokens_per_second": 6904.427
    },
    {
      "epoch": 0.23039539209215815,
      "grad_norm": 0.6964676976203918,
      "learning_rate": 4.9279315576966265e-05,
      "loss": 0.4755,
      "num_input_tokens_seen": 5412360,
      "step": 480,
      "train_runtime": 784.1147,
      "train_tokens_per_second": 6902.511
    },
    {
      "epoch": 0.23279534409311814,
      "grad_norm": 0.6583765745162964,
      "learning_rate": 4.926426606506036e-05,
      "loss": 0.5725,
      "num_input_tokens_seen": 5466664,
      "step": 485,
      "train_runtime": 792.1938,
      "train_tokens_per_second": 6900.665
    },
    {
      "epoch": 0.23519529609407813,
      "grad_norm": 0.6751510500907898,
      "learning_rate": 4.924906338490586e-05,
      "loss": 0.5181,
      "num_input_tokens_seen": 5526480,
      "step": 490,
      "train_runtime": 800.9788,
      "train_tokens_per_second": 6899.658
    },
    {
      "epoch": 0.2375952480950381,
      "grad_norm": 0.5503116250038147,
      "learning_rate": 4.9233707632469746e-05,
      "loss": 0.5586,
      "num_input_tokens_seen": 5579704,
      "step": 495,
      "train_runtime": 808.8081,
      "train_tokens_per_second": 6898.674
    },
    {
      "epoch": 0.2399952000959981,
      "grad_norm": 0.5688736438751221,
      "learning_rate": 4.921819890468523e-05,
      "loss": 0.5465,
      "num_input_tokens_seen": 5633168,
      "step": 500,
      "train_runtime": 816.7042,
      "train_tokens_per_second": 6897.44
    },
    {
      "epoch": 0.24239515209695806,
      "grad_norm": 0.48173242807388306,
      "learning_rate": 4.9202537299451215e-05,
      "loss": 0.488,
      "num_input_tokens_seen": 5692232,
      "step": 505,
      "train_runtime": 825.1134,
      "train_tokens_per_second": 6898.727
    },
    {
      "epoch": 0.24479510409791805,
      "grad_norm": 0.5660738945007324,
      "learning_rate": 4.9186722915631626e-05,
      "loss": 0.5354,
      "num_input_tokens_seen": 5751464,
      "step": 510,
      "train_runtime": 833.8275,
      "train_tokens_per_second": 6897.666
    },
    {
      "epoch": 0.247195056098878,
      "grad_norm": 0.5903744697570801,
      "learning_rate": 4.9170755853054806e-05,
      "loss": 0.6093,
      "num_input_tokens_seen": 5811696,
      "step": 515,
      "train_runtime": 842.0821,
      "train_tokens_per_second": 6901.579
    },
    {
      "epoch": 0.249595008099838,
      "grad_norm": 0.6396485567092896,
      "learning_rate": 4.915463621251287e-05,
      "loss": 0.5436,
      "num_input_tokens_seen": 5867200,
      "step": 520,
      "train_runtime": 850.626,
      "train_tokens_per_second": 6897.509
    },
    {
      "epoch": 0.25199496010079797,
      "grad_norm": 0.5617818236351013,
      "learning_rate": 4.913836409576112e-05,
      "loss": 0.5537,
      "num_input_tokens_seen": 5924320,
      "step": 525,
      "train_runtime": 858.7807,
      "train_tokens_per_second": 6898.525
    },
    {
      "epoch": 0.25439491210175796,
      "grad_norm": 0.6151410937309265,
      "learning_rate": 4.912193960551732e-05,
      "loss": 0.5392,
      "num_input_tokens_seen": 5979680,
      "step": 530,
      "train_runtime": 866.7277,
      "train_tokens_per_second": 6899.145
    },
    {
      "epoch": 0.25679486410271796,
      "grad_norm": 0.6780862808227539,
      "learning_rate": 4.9105362845461114e-05,
      "loss": 0.5776,
      "num_input_tokens_seen": 6037568,
      "step": 535,
      "train_runtime": 874.7881,
      "train_tokens_per_second": 6901.749
    },
    {
      "epoch": 0.25919481610367795,
      "grad_norm": 0.6386091113090515,
      "learning_rate": 4.9088633920233345e-05,
      "loss": 0.5463,
      "num_input_tokens_seen": 6092712,
      "step": 540,
      "train_runtime": 883.1921,
      "train_tokens_per_second": 6898.513
    },
    {
      "epoch": 0.2615947681046379,
      "grad_norm": 0.49828580021858215,
      "learning_rate": 4.907175293543541e-05,
      "loss": 0.6055,
      "num_input_tokens_seen": 6147664,
      "step": 545,
      "train_runtime": 891.085,
      "train_tokens_per_second": 6899.077
    },
    {
      "epoch": 0.2639947201055979,
      "grad_norm": 0.5254030227661133,
      "learning_rate": 4.905471999762857e-05,
      "loss": 0.6124,
      "num_input_tokens_seen": 6199352,
      "step": 550,
      "train_runtime": 898.7767,
      "train_tokens_per_second": 6897.544
    },
    {
      "epoch": 0.2663946721065579,
      "grad_norm": 0.519650936126709,
      "learning_rate": 4.9037535214333287e-05,
      "loss": 0.5247,
      "num_input_tokens_seen": 6255144,
      "step": 555,
      "train_runtime": 906.8762,
      "train_tokens_per_second": 6897.462
    },
    {
      "epoch": 0.26879462410751787,
      "grad_norm": 0.568850040435791,
      "learning_rate": 4.9020198694028565e-05,
      "loss": 0.5647,
      "num_input_tokens_seen": 6306704,
      "step": 560,
      "train_runtime": 914.4502,
      "train_tokens_per_second": 6896.717
    },
    {
      "epoch": 0.2711945761084778,
      "grad_norm": 0.47335347533226013,
      "learning_rate": 4.900271054615123e-05,
      "loss": 0.4978,
      "num_input_tokens_seen": 6366360,
      "step": 565,
      "train_runtime": 923.5165,
      "train_tokens_per_second": 6893.607
    },
    {
      "epoch": 0.2735945281094378,
      "grad_norm": 0.6809021830558777,
      "learning_rate": 4.898507088109527e-05,
      "loss": 0.545,
      "num_input_tokens_seen": 6421288,
      "step": 570,
      "train_runtime": 931.4592,
      "train_tokens_per_second": 6893.794
    },
    {
      "epoch": 0.2759944801103978,
      "grad_norm": 0.41399407386779785,
      "learning_rate": 4.8967279810211114e-05,
      "loss": 0.5454,
      "num_input_tokens_seen": 6479424,
      "step": 575,
      "train_runtime": 939.8206,
      "train_tokens_per_second": 6894.32
    },
    {
      "epoch": 0.2783944321113578,
      "grad_norm": 0.6248930096626282,
      "learning_rate": 4.894933744580496e-05,
      "loss": 0.5506,
      "num_input_tokens_seen": 6534464,
      "step": 580,
      "train_runtime": 947.6162,
      "train_tokens_per_second": 6895.686
    },
    {
      "epoch": 0.2807943841123178,
      "grad_norm": 0.5835601687431335,
      "learning_rate": 4.893124390113802e-05,
      "loss": 0.5536,
      "num_input_tokens_seen": 6587088,
      "step": 585,
      "train_runtime": 955.2033,
      "train_tokens_per_second": 6896.006
    },
    {
      "epoch": 0.2831943361132777,
      "grad_norm": 0.6930661797523499,
      "learning_rate": 4.8912999290425854e-05,
      "loss": 0.5646,
      "num_input_tokens_seen": 6641552,
      "step": 590,
      "train_runtime": 963.1053,
      "train_tokens_per_second": 6895.977
    },
    {
      "epoch": 0.2855942881142377,
      "grad_norm": 0.6734236478805542,
      "learning_rate": 4.889460372883762e-05,
      "loss": 0.5492,
      "num_input_tokens_seen": 6695296,
      "step": 595,
      "train_runtime": 971.3483,
      "train_tokens_per_second": 6892.786
    },
    {
      "epoch": 0.2879942401151977,
      "grad_norm": 0.5208594799041748,
      "learning_rate": 4.887605733249535e-05,
      "loss": 0.5629,
      "num_input_tokens_seen": 6753000,
      "step": 600,
      "train_runtime": 979.3691,
      "train_tokens_per_second": 6895.255
    },
    {
      "epoch": 0.2903941921161577,
      "grad_norm": 0.5543494820594788,
      "learning_rate": 4.885736021847322e-05,
      "loss": 0.5165,
      "num_input_tokens_seen": 6808816,
      "step": 605,
      "train_runtime": 987.597,
      "train_tokens_per_second": 6894.326
    },
    {
      "epoch": 0.2927941441171177,
      "grad_norm": 0.4651249051094055,
      "learning_rate": 4.883851250479682e-05,
      "loss": 0.5292,
      "num_input_tokens_seen": 6866616,
      "step": 610,
      "train_runtime": 995.7307,
      "train_tokens_per_second": 6896.057
    },
    {
      "epoch": 0.2951940961180776,
      "grad_norm": 0.6964675188064575,
      "learning_rate": 4.881951431044241e-05,
      "loss": 0.5368,
      "num_input_tokens_seen": 6926136,
      "step": 615,
      "train_runtime": 1004.3343,
      "train_tokens_per_second": 6896.246
    },
    {
      "epoch": 0.2975940481190376,
      "grad_norm": 0.5867466330528259,
      "learning_rate": 4.8800365755336114e-05,
      "loss": 0.5104,
      "num_input_tokens_seen": 6982680,
      "step": 620,
      "train_runtime": 1012.6109,
      "train_tokens_per_second": 6895.719
    },
    {
      "epoch": 0.2999940001199976,
      "grad_norm": 0.7193952202796936,
      "learning_rate": 4.8781066960353264e-05,
      "loss": 0.5729,
      "num_input_tokens_seen": 7035152,
      "step": 625,
      "train_runtime": 1020.3607,
      "train_tokens_per_second": 6894.77
    },
    {
      "epoch": 0.3023939521209576,
      "grad_norm": 0.6436483860015869,
      "learning_rate": 4.876161804731756e-05,
      "loss": 0.5777,
      "num_input_tokens_seen": 7085976,
      "step": 630,
      "train_runtime": 1028.043,
      "train_tokens_per_second": 6892.684
    },
    {
      "epoch": 0.30479390412191754,
      "grad_norm": 0.8330582976341248,
      "learning_rate": 4.87420191390003e-05,
      "loss": 0.5729,
      "num_input_tokens_seen": 7139560,
      "step": 635,
      "train_runtime": 1035.6955,
      "train_tokens_per_second": 6893.493
    },
    {
      "epoch": 0.30719385612287753,
      "grad_norm": 0.5311642289161682,
      "learning_rate": 4.872227035911967e-05,
      "loss": 0.5212,
      "num_input_tokens_seen": 7194016,
      "step": 640,
      "train_runtime": 1043.4188,
      "train_tokens_per_second": 6894.658
    },
    {
      "epoch": 0.3095938081238375,
      "grad_norm": 0.5079819560050964,
      "learning_rate": 4.87023718323399e-05,
      "loss": 0.5227,
      "num_input_tokens_seen": 7249352,
      "step": 645,
      "train_runtime": 1051.5718,
      "train_tokens_per_second": 6893.825
    },
    {
      "epoch": 0.3119937601247975,
      "grad_norm": 0.5671476721763611,
      "learning_rate": 4.868232368427048e-05,
      "loss": 0.5057,
      "num_input_tokens_seen": 7312768,
      "step": 650,
      "train_runtime": 1060.8218,
      "train_tokens_per_second": 6893.494
    },
    {
      "epoch": 0.3143937121257575,
      "grad_norm": 0.5429338216781616,
      "learning_rate": 4.8662126041465414e-05,
      "loss": 0.522,
      "num_input_tokens_seen": 7371440,
      "step": 655,
      "train_runtime": 1068.911,
      "train_tokens_per_second": 6896.215
    },
    {
      "epoch": 0.31679366412671744,
      "grad_norm": 0.5430482625961304,
      "learning_rate": 4.864177903142237e-05,
      "loss": 0.5712,
      "num_input_tokens_seen": 7428856,
      "step": 660,
      "train_runtime": 1077.1698,
      "train_tokens_per_second": 6896.643
    },
    {
      "epoch": 0.31919361612767744,
      "grad_norm": 0.5577422380447388,
      "learning_rate": 4.862128278258191e-05,
      "loss": 0.5763,
      "num_input_tokens_seen": 7482928,
      "step": 665,
      "train_runtime": 1085.0793,
      "train_tokens_per_second": 6896.204
    },
    {
      "epoch": 0.32159356812863743,
      "grad_norm": 0.8080245852470398,
      "learning_rate": 4.8600637424326676e-05,
      "loss": 0.5921,
      "num_input_tokens_seen": 7537000,
      "step": 670,
      "train_runtime": 1092.9929,
      "train_tokens_per_second": 6895.744
    },
    {
      "epoch": 0.3239935201295974,
      "grad_norm": 0.5444366931915283,
      "learning_rate": 4.8579843086980536e-05,
      "loss": 0.5164,
      "num_input_tokens_seen": 7600512,
      "step": 675,
      "train_runtime": 1102.2798,
      "train_tokens_per_second": 6895.266
    },
    {
      "epoch": 0.3263934721305574,
      "grad_norm": 0.7307661771774292,
      "learning_rate": 4.855889990180781e-05,
      "loss": 0.4963,
      "num_input_tokens_seen": 7655032,
      "step": 680,
      "train_runtime": 1110.5484,
      "train_tokens_per_second": 6893.02
    },
    {
      "epoch": 0.32879342413151735,
      "grad_norm": 0.5061231851577759,
      "learning_rate": 4.853780800101241e-05,
      "loss": 0.5042,
      "num_input_tokens_seen": 7709432,
      "step": 685,
      "train_runtime": 1118.5898,
      "train_tokens_per_second": 6892.099
    },
    {
      "epoch": 0.33119337613247735,
      "grad_norm": 0.5457553863525391,
      "learning_rate": 4.851656751773702e-05,
      "loss": 0.5505,
      "num_input_tokens_seen": 7768248,
      "step": 690,
      "train_runtime": 1127.0452,
      "train_tokens_per_second": 6892.579
    },
    {
      "epoch": 0.33359332813343734,
      "grad_norm": 0.581109881401062,
      "learning_rate": 4.849517858606225e-05,
      "loss": 0.5219,
      "num_input_tokens_seen": 7821976,
      "step": 695,
      "train_runtime": 1135.0848,
      "train_tokens_per_second": 6891.094
    },
    {
      "epoch": 0.33599328013439733,
      "grad_norm": 0.6451846361160278,
      "learning_rate": 4.84736413410058e-05,
      "loss": 0.541,
      "num_input_tokens_seen": 7875264,
      "step": 700,
      "train_runtime": 1143.0269,
      "train_tokens_per_second": 6889.833
    },
    {
      "epoch": 0.33839323213535727,
      "grad_norm": 0.48146116733551025,
      "learning_rate": 4.8451955918521586e-05,
      "loss": 0.5666,
      "num_input_tokens_seen": 7929656,
      "step": 705,
      "train_runtime": 1150.8799,
      "train_tokens_per_second": 6890.081
    },
    {
      "epoch": 0.34079318413631726,
      "grad_norm": 0.5709965825080872,
      "learning_rate": 4.84301224554989e-05,
      "loss": 0.5295,
      "num_input_tokens_seen": 7980872,
      "step": 710,
      "train_runtime": 1158.4978,
      "train_tokens_per_second": 6888.983
    },
    {
      "epoch": 0.34319313613727725,
      "grad_norm": 0.6052954196929932,
      "learning_rate": 4.840814108976154e-05,
      "loss": 0.5509,
      "num_input_tokens_seen": 8037376,
      "step": 715,
      "train_runtime": 1166.5335,
      "train_tokens_per_second": 6889.966
    },
    {
      "epoch": 0.34559308813823725,
      "grad_norm": 0.5755806565284729,
      "learning_rate": 4.838601196006694e-05,
      "loss": 0.54,
      "num_input_tokens_seen": 8094024,
      "step": 720,
      "train_runtime": 1175.0556,
      "train_tokens_per_second": 6888.205
    },
    {
      "epoch": 0.34799304013919724,
      "grad_norm": 0.5676959753036499,
      "learning_rate": 4.8363735206105276e-05,
      "loss": 0.5663,
      "num_input_tokens_seen": 8152456,
      "step": 725,
      "train_runtime": 1183.2718,
      "train_tokens_per_second": 6889.758
    },
    {
      "epoch": 0.3503929921401572,
      "grad_norm": 0.7371501922607422,
      "learning_rate": 4.8341310968498656e-05,
      "loss": 0.5171,
      "num_input_tokens_seen": 8206424,
      "step": 730,
      "train_runtime": 1191.1851,
      "train_tokens_per_second": 6889.294
    },
    {
      "epoch": 0.35279294414111717,
      "grad_norm": 0.6847190260887146,
      "learning_rate": 4.831873938880012e-05,
      "loss": 0.5407,
      "num_input_tokens_seen": 8262160,
      "step": 735,
      "train_runtime": 1199.2457,
      "train_tokens_per_second": 6889.464
    },
    {
      "epoch": 0.35519289614207716,
      "grad_norm": 0.5282928347587585,
      "learning_rate": 4.829602060949282e-05,
      "loss": 0.5729,
      "num_input_tokens_seen": 8316480,
      "step": 740,
      "train_runtime": 1207.1347,
      "train_tokens_per_second": 6889.438
    },
    {
      "epoch": 0.35759284814303716,
      "grad_norm": 0.39273539185523987,
      "learning_rate": 4.827315477398914e-05,
      "loss": 0.4796,
      "num_input_tokens_seen": 8379024,
      "step": 745,
      "train_runtime": 1216.4818,
      "train_tokens_per_second": 6887.916
    },
    {
      "epoch": 0.3599928001439971,
      "grad_norm": 0.442878395318985,
      "learning_rate": 4.825014202662972e-05,
      "loss": 0.5178,
      "num_input_tokens_seen": 8436408,
      "step": 750,
      "train_runtime": 1224.6516,
      "train_tokens_per_second": 6888.823
    },
    {
      "epoch": 0.3623927521449571,
      "grad_norm": 0.5023097395896912,
      "learning_rate": 4.82269825126826e-05,
      "loss": 0.5436,
      "num_input_tokens_seen": 8494184,
      "step": 755,
      "train_runtime": 1233.1902,
      "train_tokens_per_second": 6887.975
    },
    {
      "epoch": 0.3647927041459171,
      "grad_norm": 0.6507300138473511,
      "learning_rate": 4.8203676378342263e-05,
      "loss": 0.5761,
      "num_input_tokens_seen": 8543600,
      "step": 760,
      "train_runtime": 1240.5356,
      "train_tokens_per_second": 6887.025
    },
    {
      "epoch": 0.36719265614687707,
      "grad_norm": 0.6500417590141296,
      "learning_rate": 4.818022377072876e-05,
      "loss": 0.5519,
      "num_input_tokens_seen": 8601672,
      "step": 765,
      "train_runtime": 1249.3942,
      "train_tokens_per_second": 6884.674
    },
    {
      "epoch": 0.36959260814783707,
      "grad_norm": 0.720543384552002,
      "learning_rate": 4.8156624837886744e-05,
      "loss": 0.5488,
      "num_input_tokens_seen": 8654824,
      "step": 770,
      "train_runtime": 1257.4098,
      "train_tokens_per_second": 6883.058
    },
    {
      "epoch": 0.371992560148797,
      "grad_norm": 0.5728187561035156,
      "learning_rate": 4.813287972878454e-05,
      "loss": 0.5093,
      "num_input_tokens_seen": 8709032,
      "step": 775,
      "train_runtime": 1265.5372,
      "train_tokens_per_second": 6881.688
    },
    {
      "epoch": 0.374392512149757,
      "grad_norm": 0.6271533966064453,
      "learning_rate": 4.810898859331322e-05,
      "loss": 0.5451,
      "num_input_tokens_seen": 8766264,
      "step": 780,
      "train_runtime": 1273.7019,
      "train_tokens_per_second": 6882.508
    },
    {
      "epoch": 0.376792464150717,
      "grad_norm": 0.5907756686210632,
      "learning_rate": 4.8084951582285634e-05,
      "loss": 0.4965,
      "num_input_tokens_seen": 8820344,
      "step": 785,
      "train_runtime": 1281.2863,
      "train_tokens_per_second": 6883.976
    },
    {
      "epoch": 0.379192416151677,
      "grad_norm": 0.5380600094795227,
      "learning_rate": 4.80607688474355e-05,
      "loss": 0.5298,
      "num_input_tokens_seen": 8881528,
      "step": 790,
      "train_runtime": 1289.7202,
      "train_tokens_per_second": 6886.399
    },
    {
      "epoch": 0.381592368152637,
      "grad_norm": 0.6812204718589783,
      "learning_rate": 4.803644054141639e-05,
      "loss": 0.5278,
      "num_input_tokens_seen": 8939712,
      "step": 795,
      "train_runtime": 1298.1298,
      "train_tokens_per_second": 6886.609
    },
    {
      "epoch": 0.3839923201535969,
      "grad_norm": 0.8065762519836426,
      "learning_rate": 4.8011966817800804e-05,
      "loss": 0.548,
      "num_input_tokens_seen": 8994888,
      "step": 800,
      "train_runtime": 1306.2424,
      "train_tokens_per_second": 6886.078
    },
    {
      "epoch": 0.3863922721545569,
      "grad_norm": 0.7721138596534729,
      "learning_rate": 4.79873478310792e-05,
      "loss": 0.5446,
      "num_input_tokens_seen": 9052200,
      "step": 805,
      "train_runtime": 1314.0422,
      "train_tokens_per_second": 6888.82
    },
    {
      "epoch": 0.3887922241555169,
      "grad_norm": 0.7508792281150818,
      "learning_rate": 4.796258373665899e-05,
      "loss": 0.5531,
      "num_input_tokens_seen": 9106936,
      "step": 810,
      "train_runtime": 1322.1708,
      "train_tokens_per_second": 6887.867
    },
    {
      "epoch": 0.3911921761564769,
      "grad_norm": 0.7303242087364197,
      "learning_rate": 4.793767469086361e-05,
      "loss": 0.5786,
      "num_input_tokens_seen": 9158400,
      "step": 815,
      "train_runtime": 1329.9099,
      "train_tokens_per_second": 6886.482
    },
    {
      "epoch": 0.3935921281574368,
      "grad_norm": 0.5493381023406982,
      "learning_rate": 4.791262085093147e-05,
      "loss": 0.5285,
      "num_input_tokens_seen": 9218552,
      "step": 820,
      "train_runtime": 1338.4057,
      "train_tokens_per_second": 6887.711
    },
    {
      "epoch": 0.3959920801583968,
      "grad_norm": 0.5721644163131714,
      "learning_rate": 4.788742237501499e-05,
      "loss": 0.5481,
      "num_input_tokens_seen": 9272768,
      "step": 825,
      "train_runtime": 1346.3952,
      "train_tokens_per_second": 6887.107
    },
    {
      "epoch": 0.3983920321593568,
      "grad_norm": 0.5689188241958618,
      "learning_rate": 4.786207942217965e-05,
      "loss": 0.5457,
      "num_input_tokens_seen": 9327048,
      "step": 830,
      "train_runtime": 1354.3004,
      "train_tokens_per_second": 6886.986
    },
    {
      "epoch": 0.4007919841603168,
      "grad_norm": 0.48985663056373596,
      "learning_rate": 4.783659215240289e-05,
      "loss": 0.5067,
      "num_input_tokens_seen": 9389344,
      "step": 835,
      "train_runtime": 1363.2987,
      "train_tokens_per_second": 6887.224
    },
    {
      "epoch": 0.4031919361612768,
      "grad_norm": 0.7661736011505127,
      "learning_rate": 4.78109607265732e-05,
      "loss": 0.5576,
      "num_input_tokens_seen": 9444656,
      "step": 840,
      "train_runtime": 1371.5402,
      "train_tokens_per_second": 6886.168
    },
    {
      "epoch": 0.40559188816223674,
      "grad_norm": 0.6617030501365662,
      "learning_rate": 4.778518530648899e-05,
      "loss": 0.5566,
      "num_input_tokens_seen": 9499464,
      "step": 845,
      "train_runtime": 1379.7517,
      "train_tokens_per_second": 6884.908
    },
    {
      "epoch": 0.40799184016319673,
      "grad_norm": 0.6450020670890808,
      "learning_rate": 4.77592660548577e-05,
      "loss": 0.5486,
      "num_input_tokens_seen": 9553432,
      "step": 850,
      "train_runtime": 1387.7923,
      "train_tokens_per_second": 6883.906
    },
    {
      "epoch": 0.4103917921641567,
      "grad_norm": 0.6538447737693787,
      "learning_rate": 4.7733203135294676e-05,
      "loss": 0.5289,
      "num_input_tokens_seen": 9608536,
      "step": 855,
      "train_runtime": 1396.0755,
      "train_tokens_per_second": 6882.533
    },
    {
      "epoch": 0.4127917441651167,
      "grad_norm": 0.5988488793373108,
      "learning_rate": 4.770699671232216e-05,
      "loss": 0.5261,
      "num_input_tokens_seen": 9661208,
      "step": 860,
      "train_runtime": 1403.8269,
      "train_tokens_per_second": 6882.051
    },
    {
      "epoch": 0.41519169616607665,
      "grad_norm": 0.5807068347930908,
      "learning_rate": 4.768064695136829e-05,
      "loss": 0.5306,
      "num_input_tokens_seen": 9721752,
      "step": 865,
      "train_runtime": 1412.2285,
      "train_tokens_per_second": 6883.98
    },
    {
      "epoch": 0.41759164816703664,
      "grad_norm": 0.48121166229248047,
      "learning_rate": 4.765415401876599e-05,
      "loss": 0.5549,
      "num_input_tokens_seen": 9779768,
      "step": 870,
      "train_runtime": 1420.4407,
      "train_tokens_per_second": 6885.024
    },
    {
      "epoch": 0.41999160016799664,
      "grad_norm": 0.565889835357666,
      "learning_rate": 4.7627518081751975e-05,
      "loss": 0.5355,
      "num_input_tokens_seen": 9835272,
      "step": 875,
      "train_runtime": 1428.7292,
      "train_tokens_per_second": 6883.93
    },
    {
      "epoch": 0.42239155216895663,
      "grad_norm": 0.7845768928527832,
      "learning_rate": 4.760073930846569e-05,
      "loss": 0.5411,
      "num_input_tokens_seen": 9890512,
      "step": 880,
      "train_runtime": 1436.5286,
      "train_tokens_per_second": 6885.009
    },
    {
      "epoch": 0.4247915041699166,
      "grad_norm": 0.6052142381668091,
      "learning_rate": 4.75738178679482e-05,
      "loss": 0.5432,
      "num_input_tokens_seen": 9944392,
      "step": 885,
      "train_runtime": 1444.2701,
      "train_tokens_per_second": 6885.41
    },
    {
      "epoch": 0.42719145617087656,
      "grad_norm": 0.6109101176261902,
      "learning_rate": 4.754675393014117e-05,
      "loss": 0.4997,
      "num_input_tokens_seen": 9999080,
      "step": 890,
      "train_runtime": 1452.4138,
      "train_tokens_per_second": 6884.457
    },
    {
      "epoch": 0.42959140817183655,
      "grad_norm": 0.8205054998397827,
      "learning_rate": 4.751954766588581e-05,
      "loss": 0.5276,
      "num_input_tokens_seen": 10053320,
      "step": 895,
      "train_runtime": 1460.9561,
      "train_tokens_per_second": 6881.329
    },
    {
      "epoch": 0.43199136017279655,
      "grad_norm": 0.6081852316856384,
      "learning_rate": 4.749219924692172e-05,
      "loss": 0.4801,
      "num_input_tokens_seen": 10112592,
      "step": 900,
      "train_runtime": 1469.5246,
      "train_tokens_per_second": 6881.54
    },
    {
      "epoch": 0.43439131217375654,
      "grad_norm": 0.6444746851921082,
      "learning_rate": 4.7464708845885877e-05,
      "loss": 0.4976,
      "num_input_tokens_seen": 10168072,
      "step": 905,
      "train_runtime": 1477.8554,
      "train_tokens_per_second": 6880.289
    },
    {
      "epoch": 0.43679126417471653,
      "grad_norm": 0.591349184513092,
      "learning_rate": 4.7437076636311514e-05,
      "loss": 0.5343,
      "num_input_tokens_seen": 10221648,
      "step": 910,
      "train_runtime": 1486.1153,
      "train_tokens_per_second": 6878.099
    },
    {
      "epoch": 0.43919121617567647,
      "grad_norm": 0.6491187810897827,
      "learning_rate": 4.7409302792627044e-05,
      "loss": 0.4946,
      "num_input_tokens_seen": 10284000,
      "step": 915,
      "train_runtime": 1494.8745,
      "train_tokens_per_second": 6879.507
    },
    {
      "epoch": 0.44159116817663646,
      "grad_norm": 0.6963967084884644,
      "learning_rate": 4.738138749015492e-05,
      "loss": 0.5109,
      "num_input_tokens_seen": 10340768,
      "step": 920,
      "train_runtime": 1502.9982,
      "train_tokens_per_second": 6880.094
    },
    {
      "epoch": 0.44399112017759645,
      "grad_norm": 0.4319298267364502,
      "learning_rate": 4.735333090511056e-05,
      "loss": 0.5082,
      "num_input_tokens_seen": 10400928,
      "step": 925,
      "train_runtime": 1511.7616,
      "train_tokens_per_second": 6880.006
    },
    {
      "epoch": 0.44639107217855645,
      "grad_norm": 0.6248960494995117,
      "learning_rate": 4.732513321460127e-05,
      "loss": 0.5612,
      "num_input_tokens_seen": 10456208,
      "step": 930,
      "train_runtime": 1519.9104,
      "train_tokens_per_second": 6879.49
    },
    {
      "epoch": 0.4487910241795164,
      "grad_norm": 0.7751626372337341,
      "learning_rate": 4.729679459662502e-05,
      "loss": 0.5253,
      "num_input_tokens_seen": 10513352,
      "step": 935,
      "train_runtime": 1528.6579,
      "train_tokens_per_second": 6877.505
    },
    {
      "epoch": 0.4511909761804764,
      "grad_norm": 0.5862913131713867,
      "learning_rate": 4.726831523006944e-05,
      "loss": 0.5403,
      "num_input_tokens_seen": 10568872,
      "step": 940,
      "train_runtime": 1537.6257,
      "train_tokens_per_second": 6873.501
    },
    {
      "epoch": 0.45359092818143637,
      "grad_norm": 0.7188037633895874,
      "learning_rate": 4.7239695294710586e-05,
      "loss": 0.5332,
      "num_input_tokens_seen": 10623984,
      "step": 945,
      "train_runtime": 1545.7364,
      "train_tokens_per_second": 6873.089
    },
    {
      "epoch": 0.45599088018239636,
      "grad_norm": 0.7903031706809998,
      "learning_rate": 4.7210934971211906e-05,
      "loss": 0.572,
      "num_input_tokens_seen": 10675064,
      "step": 950,
      "train_runtime": 1553.3218,
      "train_tokens_per_second": 6872.41
    },
    {
      "epoch": 0.45839083218335636,
      "grad_norm": 0.5360180139541626,
      "learning_rate": 4.718203444112301e-05,
      "loss": 0.4812,
      "num_input_tokens_seen": 10735624,
      "step": 955,
      "train_runtime": 1561.8181,
      "train_tokens_per_second": 6873.799
    },
    {
      "epoch": 0.4607907841843163,
      "grad_norm": 0.6711071133613586,
      "learning_rate": 4.7152993886878585e-05,
      "loss": 0.4681,
      "num_input_tokens_seen": 10790472,
      "step": 960,
      "train_runtime": 1569.6307,
      "train_tokens_per_second": 6874.529
    },
    {
      "epoch": 0.4631907361852763,
      "grad_norm": 0.6165657043457031,
      "learning_rate": 4.712381349179721e-05,
      "loss": 0.508,
      "num_input_tokens_seen": 10844896,
      "step": 965,
      "train_runtime": 1577.4118,
      "train_tokens_per_second": 6875.12
    },
    {
      "epoch": 0.4655906881862363,
      "grad_norm": 0.6834767460823059,
      "learning_rate": 4.709449344008021e-05,
      "loss": 0.4988,
      "num_input_tokens_seen": 10902552,
      "step": 970,
      "train_runtime": 1586.0811,
      "train_tokens_per_second": 6873.893
    },
    {
      "epoch": 0.46799064018719627,
      "grad_norm": 0.7366524338722229,
      "learning_rate": 4.706503391681049e-05,
      "loss": 0.5755,
      "num_input_tokens_seen": 10956224,
      "step": 975,
      "train_runtime": 1593.6535,
      "train_tokens_per_second": 6874.91
    },
    {
      "epoch": 0.47039059218815626,
      "grad_norm": 0.5903698205947876,
      "learning_rate": 4.7035435107951384e-05,
      "loss": 0.5283,
      "num_input_tokens_seen": 11011072,
      "step": 980,
      "train_runtime": 1601.6979,
      "train_tokens_per_second": 6874.625
    },
    {
      "epoch": 0.4727905441891162,
      "grad_norm": 0.631288468837738,
      "learning_rate": 4.700569720034545e-05,
      "loss": 0.4954,
      "num_input_tokens_seen": 11066344,
      "step": 985,
      "train_runtime": 1609.8085,
      "train_tokens_per_second": 6874.323
    },
    {
      "epoch": 0.4751904961900762,
      "grad_norm": 0.5448499917984009,
      "learning_rate": 4.697582038171332e-05,
      "loss": 0.5431,
      "num_input_tokens_seen": 11121472,
      "step": 990,
      "train_runtime": 1618.0718,
      "train_tokens_per_second": 6873.287
    },
    {
      "epoch": 0.4775904481910362,
      "grad_norm": 0.5397956967353821,
      "learning_rate": 4.694580484065248e-05,
      "loss": 0.4836,
      "num_input_tokens_seen": 11181736,
      "step": 995,
      "train_runtime": 1627.2301,
      "train_tokens_per_second": 6871.638
    },
    {
      "epoch": 0.4799904001919962,
      "grad_norm": 0.7059435248374939,
      "learning_rate": 4.6915650766636156e-05,
      "loss": 0.4765,
      "num_input_tokens_seen": 11241912,
      "step": 1000,
      "train_runtime": 1635.6606,
      "train_tokens_per_second": 6873.01
    },
    {
      "epoch": 0.4823903521929561,
      "grad_norm": 0.5551899075508118,
      "learning_rate": 4.6885358350011986e-05,
      "loss": 0.523,
      "num_input_tokens_seen": 11296568,
      "step": 1005,
      "train_runtime": 1644.0041,
      "train_tokens_per_second": 6871.375
    },
    {
      "epoch": 0.4847903041939161,
      "grad_norm": 0.659951388835907,
      "learning_rate": 4.6854927782000954e-05,
      "loss": 0.4891,
      "num_input_tokens_seen": 11351944,
      "step": 1010,
      "train_runtime": 1652.1239,
      "train_tokens_per_second": 6871.121
    },
    {
      "epoch": 0.4871902561948761,
      "grad_norm": 0.6763627529144287,
      "learning_rate": 4.6824359254696105e-05,
      "loss": 0.502,
      "num_input_tokens_seen": 11410584,
      "step": 1015,
      "train_runtime": 1661.21,
      "train_tokens_per_second": 6868.839
    },
    {
      "epoch": 0.4895902081958361,
      "grad_norm": 0.49618440866470337,
      "learning_rate": 4.6793652961061364e-05,
      "loss": 0.5451,
      "num_input_tokens_seen": 11465560,
      "step": 1020,
      "train_runtime": 1669.6454,
      "train_tokens_per_second": 6867.063
    },
    {
      "epoch": 0.4919901601967961,
      "grad_norm": 0.6427881717681885,
      "learning_rate": 4.676280909493028e-05,
      "loss": 0.5277,
      "num_input_tokens_seen": 11523960,
      "step": 1025,
      "train_runtime": 1678.2247,
      "train_tokens_per_second": 6866.756
    },
    {
      "epoch": 0.494390112197756,
      "grad_norm": 0.7086818218231201,
      "learning_rate": 4.673182785100485e-05,
      "loss": 0.4885,
      "num_input_tokens_seen": 11584904,
      "step": 1030,
      "train_runtime": 1687.3682,
      "train_tokens_per_second": 6865.665
    },
    {
      "epoch": 0.496790064198716,
      "grad_norm": 0.5998096466064453,
      "learning_rate": 4.6700709424854274e-05,
      "loss": 0.5266,
      "num_input_tokens_seen": 11642456,
      "step": 1035,
      "train_runtime": 1696.3396,
      "train_tokens_per_second": 6863.281
    },
    {
      "epoch": 0.499190016199676,
      "grad_norm": 0.6782186627388,
      "learning_rate": 4.66694540129137e-05,
      "loss": 0.5813,
      "num_input_tokens_seen": 11696912,
      "step": 1040,
      "train_runtime": 1704.0809,
      "train_tokens_per_second": 6864.059
    },
    {
      "epoch": 0.501589968200636,
      "grad_norm": 0.541053056716919,
      "learning_rate": 4.6638061812483005e-05,
      "loss": 0.4875,
      "num_input_tokens_seen": 11755104,
      "step": 1045,
      "train_runtime": 1712.4044,
      "train_tokens_per_second": 6864.677
    },
    {
      "epoch": 0.5039899202015959,
      "grad_norm": 0.6517828106880188,
      "learning_rate": 4.660653302172554e-05,
      "loss": 0.5367,
      "num_input_tokens_seen": 11810984,
      "step": 1050,
      "train_runtime": 1720.4999,
      "train_tokens_per_second": 6864.856
    },
    {
      "epoch": 0.5063898722025559,
      "grad_norm": 0.6961039900779724,
      "learning_rate": 4.6574867839666895e-05,
      "loss": 0.5314,
      "num_input_tokens_seen": 11862312,
      "step": 1055,
      "train_runtime": 1728.5831,
      "train_tokens_per_second": 6862.448
    },
    {
      "epoch": 0.5087898242035159,
      "grad_norm": 0.7300373911857605,
      "learning_rate": 4.654306646619361e-05,
      "loss": 0.5496,
      "num_input_tokens_seen": 11923072,
      "step": 1060,
      "train_runtime": 1737.4285,
      "train_tokens_per_second": 6862.482
    },
    {
      "epoch": 0.5111897762044759,
      "grad_norm": 0.7295413017272949,
      "learning_rate": 4.6511129102051954e-05,
      "loss": 0.5205,
      "num_input_tokens_seen": 11978568,
      "step": 1065,
      "train_runtime": 1745.4719,
      "train_tokens_per_second": 6862.653
    },
    {
      "epoch": 0.5135897282054359,
      "grad_norm": 0.5520017743110657,
      "learning_rate": 4.647905594884663e-05,
      "loss": 0.4768,
      "num_input_tokens_seen": 12035000,
      "step": 1070,
      "train_runtime": 1754.3574,
      "train_tokens_per_second": 6860.062
    },
    {
      "epoch": 0.5159896802063959,
      "grad_norm": 0.5629371404647827,
      "learning_rate": 4.6446847209039504e-05,
      "loss": 0.5136,
      "num_input_tokens_seen": 12096040,
      "step": 1075,
      "train_runtime": 1762.6751,
      "train_tokens_per_second": 6862.32
    },
    {
      "epoch": 0.5183896322073559,
      "grad_norm": 0.750357449054718,
      "learning_rate": 4.6414503085948334e-05,
      "loss": 0.5022,
      "num_input_tokens_seen": 12148448,
      "step": 1080,
      "train_runtime": 1770.3881,
      "train_tokens_per_second": 6862.025
    },
    {
      "epoch": 0.5207895842083158,
      "grad_norm": 0.9546124339103699,
      "learning_rate": 4.63820237837455e-05,
      "loss": 0.5196,
      "num_input_tokens_seen": 12207120,
      "step": 1085,
      "train_runtime": 1778.4216,
      "train_tokens_per_second": 6864.019
    },
    {
      "epoch": 0.5231895362092758,
      "grad_norm": 0.6891536712646484,
      "learning_rate": 4.634940950745668e-05,
      "loss": 0.5566,
      "num_input_tokens_seen": 12261136,
      "step": 1090,
      "train_runtime": 1786.6486,
      "train_tokens_per_second": 6862.646
    },
    {
      "epoch": 0.5255894882102358,
      "grad_norm": 0.7175304889678955,
      "learning_rate": 4.631666046295959e-05,
      "loss": 0.5483,
      "num_input_tokens_seen": 12313856,
      "step": 1095,
      "train_runtime": 1794.8084,
      "train_tokens_per_second": 6860.819
    },
    {
      "epoch": 0.5279894402111958,
      "grad_norm": 0.7148723602294922,
      "learning_rate": 4.628377685698268e-05,
      "loss": 0.5072,
      "num_input_tokens_seen": 12367984,
      "step": 1100,
      "train_runtime": 1802.927,
      "train_tokens_per_second": 6859.947
    },
    {
      "epoch": 0.5303893922121558,
      "grad_norm": 0.6276180148124695,
      "learning_rate": 4.6250758897103775e-05,
      "loss": 0.5316,
      "num_input_tokens_seen": 12422128,
      "step": 1105,
      "train_runtime": 1810.8688,
      "train_tokens_per_second": 6859.761
    },
    {
      "epoch": 0.5327893442131157,
      "grad_norm": 0.5570586919784546,
      "learning_rate": 4.621760679174887e-05,
      "loss": 0.4781,
      "num_input_tokens_seen": 12477576,
      "step": 1110,
      "train_runtime": 1818.8781,
      "train_tokens_per_second": 6860.04
    },
    {
      "epoch": 0.5351892962140757,
      "grad_norm": 0.46177980303764343,
      "learning_rate": 4.618432075019071e-05,
      "loss": 0.5028,
      "num_input_tokens_seen": 12536840,
      "step": 1115,
      "train_runtime": 1827.02,
      "train_tokens_per_second": 6861.906
    },
    {
      "epoch": 0.5375892482150357,
      "grad_norm": 0.8723595142364502,
      "learning_rate": 4.615090098254753e-05,
      "loss": 0.5637,
      "num_input_tokens_seen": 12592424,
      "step": 1120,
      "train_runtime": 1835.1133,
      "train_tokens_per_second": 6861.933
    },
    {
      "epoch": 0.5399892002159957,
      "grad_norm": 0.5950156450271606,
      "learning_rate": 4.6117347699781706e-05,
      "loss": 0.5276,
      "num_input_tokens_seen": 12650424,
      "step": 1125,
      "train_runtime": 1843.7548,
      "train_tokens_per_second": 6861.229
    },
    {
      "epoch": 0.5423891522169556,
      "grad_norm": 0.7282635569572449,
      "learning_rate": 4.608366111369843e-05,
      "loss": 0.518,
      "num_input_tokens_seen": 12706224,
      "step": 1130,
      "train_runtime": 1851.8221,
      "train_tokens_per_second": 6861.471
    },
    {
      "epoch": 0.5447891042179156,
      "grad_norm": 0.5508381724357605,
      "learning_rate": 4.6049841436944385e-05,
      "loss": 0.4956,
      "num_input_tokens_seen": 12767096,
      "step": 1135,
      "train_runtime": 1860.911,
      "train_tokens_per_second": 6860.67
    },
    {
      "epoch": 0.5471890562188756,
      "grad_norm": 0.57481849193573,
      "learning_rate": 4.6015888883006364e-05,
      "loss": 0.539,
      "num_input_tokens_seen": 12821808,
      "step": 1140,
      "train_runtime": 1868.849,
      "train_tokens_per_second": 6860.805
    },
    {
      "epoch": 0.5495890082198356,
      "grad_norm": 0.4912041425704956,
      "learning_rate": 4.598180366620996e-05,
      "loss": 0.5163,
      "num_input_tokens_seen": 12874928,
      "step": 1145,
      "train_runtime": 1876.9045,
      "train_tokens_per_second": 6859.661
    },
    {
      "epoch": 0.5519889602207956,
      "grad_norm": 0.666242778301239,
      "learning_rate": 4.594758600171821e-05,
      "loss": 0.5662,
      "num_input_tokens_seen": 12927848,
      "step": 1150,
      "train_runtime": 1884.5707,
      "train_tokens_per_second": 6859.837
    },
    {
      "epoch": 0.5543889122217556,
      "grad_norm": 0.6598814129829407,
      "learning_rate": 4.591323610553021e-05,
      "loss": 0.493,
      "num_input_tokens_seen": 12985640,
      "step": 1155,
      "train_runtime": 1892.6667,
      "train_tokens_per_second": 6861.028
    },
    {
      "epoch": 0.5567888642227156,
      "grad_norm": 0.8162060379981995,
      "learning_rate": 4.587875419447979e-05,
      "loss": 0.5289,
      "num_input_tokens_seen": 13041608,
      "step": 1160,
      "train_runtime": 1901.1294,
      "train_tokens_per_second": 6859.927
    },
    {
      "epoch": 0.5591888162236756,
      "grad_norm": 0.7061068415641785,
      "learning_rate": 4.5844140486234086e-05,
      "loss": 0.4997,
      "num_input_tokens_seen": 13094240,
      "step": 1165,
      "train_runtime": 1909.2382,
      "train_tokens_per_second": 6858.358
    },
    {
      "epoch": 0.5615887682246355,
      "grad_norm": 0.5444318056106567,
      "learning_rate": 4.580939519929226e-05,
      "loss": 0.5155,
      "num_input_tokens_seen": 13150544,
      "step": 1170,
      "train_runtime": 1917.2941,
      "train_tokens_per_second": 6858.908
    },
    {
      "epoch": 0.5639887202255955,
      "grad_norm": 0.5705589652061462,
      "learning_rate": 4.577451855298402e-05,
      "loss": 0.4927,
      "num_input_tokens_seen": 13211016,
      "step": 1175,
      "train_runtime": 1925.8239,
      "train_tokens_per_second": 6859.93
    },
    {
      "epoch": 0.5663886722265554,
      "grad_norm": 0.6715133190155029,
      "learning_rate": 4.5739510767468295e-05,
      "loss": 0.5525,
      "num_input_tokens_seen": 13269168,
      "step": 1180,
      "train_runtime": 1934.5386,
      "train_tokens_per_second": 6859.087
    },
    {
      "epoch": 0.5687886242275154,
      "grad_norm": 0.5893720388412476,
      "learning_rate": 4.570437206373183e-05,
      "loss": 0.5094,
      "num_input_tokens_seen": 13326336,
      "step": 1185,
      "train_runtime": 1942.8203,
      "train_tokens_per_second": 6859.274
    },
    {
      "epoch": 0.5711885762284754,
      "grad_norm": 0.5553702116012573,
      "learning_rate": 4.5669102663587795e-05,
      "loss": 0.5036,
      "num_input_tokens_seen": 13382784,
      "step": 1190,
      "train_runtime": 1950.7367,
      "train_tokens_per_second": 6860.374
    },
    {
      "epoch": 0.5735885282294354,
      "grad_norm": 0.9842544198036194,
      "learning_rate": 4.563370278967437e-05,
      "loss": 0.523,
      "num_input_tokens_seen": 13438016,
      "step": 1195,
      "train_runtime": 1958.7567,
      "train_tokens_per_second": 6860.482
    },
    {
      "epoch": 0.5759884802303954,
      "grad_norm": 0.7406736612319946,
      "learning_rate": 4.559817266545337e-05,
      "loss": 0.562,
      "num_input_tokens_seen": 13492904,
      "step": 1200,
      "train_runtime": 1966.6536,
      "train_tokens_per_second": 6860.844
    },
    {
      "epoch": 0.5783884322313554,
      "grad_norm": 0.6010822057723999,
      "learning_rate": 4.5562512515208816e-05,
      "loss": 0.5257,
      "num_input_tokens_seen": 13546992,
      "step": 1205,
      "train_runtime": 1974.2569,
      "train_tokens_per_second": 6861.818
    },
    {
      "epoch": 0.5807883842323154,
      "grad_norm": 0.5682114362716675,
      "learning_rate": 4.5526722564045486e-05,
      "loss": 0.5234,
      "num_input_tokens_seen": 13599704,
      "step": 1210,
      "train_runtime": 1982.0432,
      "train_tokens_per_second": 6861.457
    },
    {
      "epoch": 0.5831883362332754,
      "grad_norm": 0.7476803064346313,
      "learning_rate": 4.5490803037887556e-05,
      "loss": 0.4522,
      "num_input_tokens_seen": 13658840,
      "step": 1215,
      "train_runtime": 1990.3973,
      "train_tokens_per_second": 6862.369
    },
    {
      "epoch": 0.5855882882342354,
      "grad_norm": 0.8684011697769165,
      "learning_rate": 4.545475416347714e-05,
      "loss": 0.504,
      "num_input_tokens_seen": 13712920,
      "step": 1220,
      "train_runtime": 1998.5695,
      "train_tokens_per_second": 6861.367
    },
    {
      "epoch": 0.5879882402351952,
      "grad_norm": 0.6915135383605957,
      "learning_rate": 4.5418576168372864e-05,
      "loss": 0.5473,
      "num_input_tokens_seen": 13768056,
      "step": 1225,
      "train_runtime": 2006.2278,
      "train_tokens_per_second": 6862.658
    },
    {
      "epoch": 0.5903881922361552,
      "grad_norm": 0.6309444308280945,
      "learning_rate": 4.538226928094841e-05,
      "loss": 0.5321,
      "num_input_tokens_seen": 13826288,
      "step": 1230,
      "train_runtime": 2014.608,
      "train_tokens_per_second": 6863.016
    },
    {
      "epoch": 0.5927881442371152,
      "grad_norm": 0.7776080965995789,
      "learning_rate": 4.534583373039112e-05,
      "loss": 0.5578,
      "num_input_tokens_seen": 13880688,
      "step": 1235,
      "train_runtime": 2022.5528,
      "train_tokens_per_second": 6862.955
    },
    {
      "epoch": 0.5951880962380752,
      "grad_norm": 0.5800984501838684,
      "learning_rate": 4.530926974670052e-05,
      "loss": 0.5097,
      "num_input_tokens_seen": 13937072,
      "step": 1240,
      "train_runtime": 2030.7522,
      "train_tokens_per_second": 6863.01
    },
    {
      "epoch": 0.5975880482390352,
      "grad_norm": 0.6254319548606873,
      "learning_rate": 4.5272577560686834e-05,
      "loss": 0.5038,
      "num_input_tokens_seen": 13990528,
      "step": 1245,
      "train_runtime": 2038.6265,
      "train_tokens_per_second": 6862.723
    },
    {
      "epoch": 0.5999880002399952,
      "grad_norm": 0.7174450755119324,
      "learning_rate": 4.523575740396962e-05,
      "loss": 0.5304,
      "num_input_tokens_seen": 14044296,
      "step": 1250,
      "train_runtime": 2046.8343,
      "train_tokens_per_second": 6861.472
    },
    {
      "epoch": 0.6023879522409552,
      "grad_norm": 0.7481257915496826,
      "learning_rate": 4.5198809508976206e-05,
      "loss": 0.4927,
      "num_input_tokens_seen": 14102520,
      "step": 1255,
      "train_runtime": 2055.3394,
      "train_tokens_per_second": 6861.407
    },
    {
      "epoch": 0.6047879042419152,
      "grad_norm": 0.909005343914032,
      "learning_rate": 4.516173410894028e-05,
      "loss": 0.5067,
      "num_input_tokens_seen": 14153848,
      "step": 1260,
      "train_runtime": 2062.8941,
      "train_tokens_per_second": 6861.161
    },
    {
      "epoch": 0.6071878562428752,
      "grad_norm": 0.674818754196167,
      "learning_rate": 4.512453143790042e-05,
      "loss": 0.528,
      "num_input_tokens_seen": 14210416,
      "step": 1265,
      "train_runtime": 2071.062,
      "train_tokens_per_second": 6861.415
    },
    {
      "epoch": 0.6095878082438351,
      "grad_norm": 0.7137752771377563,
      "learning_rate": 4.508720173069859e-05,
      "loss": 0.5395,
      "num_input_tokens_seen": 14263360,
      "step": 1270,
      "train_runtime": 2079.097,
      "train_tokens_per_second": 6860.363
    },
    {
      "epoch": 0.6119877602447951,
      "grad_norm": 0.5564314723014832,
      "learning_rate": 4.5049745222978665e-05,
      "loss": 0.522,
      "num_input_tokens_seen": 14320200,
      "step": 1275,
      "train_runtime": 2087.1564,
      "train_tokens_per_second": 6861.105
    },
    {
      "epoch": 0.6143877122457551,
      "grad_norm": 0.7505349516868591,
      "learning_rate": 4.501216215118498e-05,
      "loss": 0.5303,
      "num_input_tokens_seen": 14376904,
      "step": 1280,
      "train_runtime": 2095.304,
      "train_tokens_per_second": 6861.488
    },
    {
      "epoch": 0.616787664246715,
      "grad_norm": 0.6077600121498108,
      "learning_rate": 4.497445275256076e-05,
      "loss": 0.5027,
      "num_input_tokens_seen": 14434888,
      "step": 1285,
      "train_runtime": 2103.8746,
      "train_tokens_per_second": 6861.097
    },
    {
      "epoch": 0.619187616247675,
      "grad_norm": 0.6120113730430603,
      "learning_rate": 4.4936617265146696e-05,
      "loss": 0.5192,
      "num_input_tokens_seen": 14489232,
      "step": 1290,
      "train_runtime": 2112.087,
      "train_tokens_per_second": 6860.149
    },
    {
      "epoch": 0.621587568248635,
      "grad_norm": 0.7720391750335693,
      "learning_rate": 4.489865592777941e-05,
      "loss": 0.5137,
      "num_input_tokens_seen": 14543200,
      "step": 1295,
      "train_runtime": 2119.9779,
      "train_tokens_per_second": 6860.072
    },
    {
      "epoch": 0.623987520249595,
      "grad_norm": 0.8337739706039429,
      "learning_rate": 4.486056898008996e-05,
      "loss": 0.5647,
      "num_input_tokens_seen": 14597160,
      "step": 1300,
      "train_runtime": 2127.8662,
      "train_tokens_per_second": 6859.999
    },
    {
      "epoch": 0.626387472250555,
      "grad_norm": 0.6936734914779663,
      "learning_rate": 4.48223566625023e-05,
      "loss": 0.5372,
      "num_input_tokens_seen": 14656120,
      "step": 1305,
      "train_runtime": 2136.0775,
      "train_tokens_per_second": 6861.23
    },
    {
      "epoch": 0.628787424251515,
      "grad_norm": 0.42849820852279663,
      "learning_rate": 4.47840192162318e-05,
      "loss": 0.4987,
      "num_input_tokens_seen": 14715168,
      "step": 1310,
      "train_runtime": 2144.4803,
      "train_tokens_per_second": 6861.881
    },
    {
      "epoch": 0.6311873762524749,
      "grad_norm": 0.6073727607727051,
      "learning_rate": 4.47455568832837e-05,
      "loss": 0.5242,
      "num_input_tokens_seen": 14771992,
      "step": 1315,
      "train_runtime": 2152.4662,
      "train_tokens_per_second": 6862.822
    },
    {
      "epoch": 0.6335873282534349,
      "grad_norm": 0.81267911195755,
      "learning_rate": 4.470696990645158e-05,
      "loss": 0.5488,
      "num_input_tokens_seen": 14827224,
      "step": 1320,
      "train_runtime": 2160.85,
      "train_tokens_per_second": 6861.755
    },
    {
      "epoch": 0.6359872802543949,
      "grad_norm": 0.9082570672035217,
      "learning_rate": 4.4668258529315855e-05,
      "loss": 0.5578,
      "num_input_tokens_seen": 14880216,
      "step": 1325,
      "train_runtime": 2168.5347,
      "train_tokens_per_second": 6861.876
    },
    {
      "epoch": 0.6383872322553549,
      "grad_norm": 0.4958833158016205,
      "learning_rate": 4.462942299624219e-05,
      "loss": 0.4897,
      "num_input_tokens_seen": 14938264,
      "step": 1330,
      "train_runtime": 2176.7759,
      "train_tokens_per_second": 6862.564
    },
    {
      "epoch": 0.6407871842563149,
      "grad_norm": 0.5597286224365234,
      "learning_rate": 4.459046355238e-05,
      "loss": 0.5071,
      "num_input_tokens_seen": 14996424,
      "step": 1335,
      "train_runtime": 2184.9625,
      "train_tokens_per_second": 6863.47
    },
    {
      "epoch": 0.6431871362572749,
      "grad_norm": 0.5538758635520935,
      "learning_rate": 4.455138044366088e-05,
      "loss": 0.5117,
      "num_input_tokens_seen": 15054880,
      "step": 1340,
      "train_runtime": 2193.2667,
      "train_tokens_per_second": 6864.136
    },
    {
      "epoch": 0.6455870882582349,
      "grad_norm": 0.6640130877494812,
      "learning_rate": 4.4512173916797085e-05,
      "loss": 0.4721,
      "num_input_tokens_seen": 15117888,
      "step": 1345,
      "train_runtime": 2202.1591,
      "train_tokens_per_second": 6865.03
    },
    {
      "epoch": 0.6479870402591948,
      "grad_norm": 0.8442539572715759,
      "learning_rate": 4.447284421927991e-05,
      "loss": 0.554,
      "num_input_tokens_seen": 15175016,
      "step": 1350,
      "train_runtime": 2211.0135,
      "train_tokens_per_second": 6863.376
    },
    {
      "epoch": 0.6503869922601548,
      "grad_norm": 0.7367165684700012,
      "learning_rate": 4.443339159937818e-05,
      "loss": 0.5125,
      "num_input_tokens_seen": 15230944,
      "step": 1355,
      "train_runtime": 2219.076,
      "train_tokens_per_second": 6863.642
    },
    {
      "epoch": 0.6527869442611148,
      "grad_norm": 0.6845333576202393,
      "learning_rate": 4.439381630613668e-05,
      "loss": 0.5286,
      "num_input_tokens_seen": 15287896,
      "step": 1360,
      "train_runtime": 2227.4192,
      "train_tokens_per_second": 6863.502
    },
    {
      "epoch": 0.6551868962620747,
      "grad_norm": 0.6416659355163574,
      "learning_rate": 4.435411858937456e-05,
      "loss": 0.6131,
      "num_input_tokens_seen": 15342584,
      "step": 1365,
      "train_runtime": 2235.1031,
      "train_tokens_per_second": 6864.374
    },
    {
      "epoch": 0.6575868482630347,
      "grad_norm": 0.5809879302978516,
      "learning_rate": 4.431429869968378e-05,
      "loss": 0.5062,
      "num_input_tokens_seen": 15404096,
      "step": 1370,
      "train_runtime": 2243.5171,
      "train_tokens_per_second": 6866.048
    },
    {
      "epoch": 0.6599868002639947,
      "grad_norm": 0.6339114308357239,
      "learning_rate": 4.427435688842748e-05,
      "loss": 0.4943,
      "num_input_tokens_seen": 15462616,
      "step": 1375,
      "train_runtime": 2251.8474,
      "train_tokens_per_second": 6866.636
    },
    {
      "epoch": 0.6623867522649547,
      "grad_norm": 0.4654648005962372,
      "learning_rate": 4.423429340773847e-05,
      "loss": 0.5096,
      "num_input_tokens_seen": 15519912,
      "step": 1380,
      "train_runtime": 2260.1318,
      "train_tokens_per_second": 6866.817
    },
    {
      "epoch": 0.6647867042659147,
      "grad_norm": 0.6752036809921265,
      "learning_rate": 4.41941085105176e-05,
      "loss": 0.5394,
      "num_input_tokens_seen": 15576136,
      "step": 1385,
      "train_runtime": 2268.2935,
      "train_tokens_per_second": 6866.896
    },
    {
      "epoch": 0.6671866562668747,
      "grad_norm": 0.5208489894866943,
      "learning_rate": 4.415380245043213e-05,
      "loss": 0.4537,
      "num_input_tokens_seen": 15633480,
      "step": 1390,
      "train_runtime": 2276.6508,
      "train_tokens_per_second": 6866.877
    },
    {
      "epoch": 0.6695866082678347,
      "grad_norm": 0.6454225778579712,
      "learning_rate": 4.4113375481914186e-05,
      "loss": 0.5155,
      "num_input_tokens_seen": 15688200,
      "step": 1395,
      "train_runtime": 2284.8437,
      "train_tokens_per_second": 6866.203
    },
    {
      "epoch": 0.6719865602687947,
      "grad_norm": 0.5845027565956116,
      "learning_rate": 4.407282786015913e-05,
      "loss": 0.5255,
      "num_input_tokens_seen": 15742392,
      "step": 1400,
      "train_runtime": 2292.7215,
      "train_tokens_per_second": 6866.247
    },
    {
      "epoch": 0.6743865122697547,
      "grad_norm": 0.9591690301895142,
      "learning_rate": 4.403215984112392e-05,
      "loss": 0.5122,
      "num_input_tokens_seen": 15799472,
      "step": 1405,
      "train_runtime": 2301.0926,
      "train_tokens_per_second": 6866.074
    },
    {
      "epoch": 0.6767864642707145,
      "grad_norm": 0.6333798766136169,
      "learning_rate": 4.3991371681525556e-05,
      "loss": 0.511,
      "num_input_tokens_seen": 15858960,
      "step": 1410,
      "train_runtime": 2309.9976,
      "train_tokens_per_second": 6865.358
    },
    {
      "epoch": 0.6791864162716745,
      "grad_norm": 0.5859664082527161,
      "learning_rate": 4.395046363883941e-05,
      "loss": 0.5375,
      "num_input_tokens_seen": 15915472,
      "step": 1415,
      "train_runtime": 2317.9598,
      "train_tokens_per_second": 6866.155
    },
    {
      "epoch": 0.6815863682726345,
      "grad_norm": 0.6732012629508972,
      "learning_rate": 4.390943597129761e-05,
      "loss": 0.5682,
      "num_input_tokens_seen": 15970752,
      "step": 1420,
      "train_runtime": 2325.6345,
      "train_tokens_per_second": 6867.267
    },
    {
      "epoch": 0.6839863202735945,
      "grad_norm": 0.7597581148147583,
      "learning_rate": 4.3868288937887445e-05,
      "loss": 0.5164,
      "num_input_tokens_seen": 16025456,
      "step": 1425,
      "train_runtime": 2333.8264,
      "train_tokens_per_second": 6866.601
    },
    {
      "epoch": 0.6863862722745545,
      "grad_norm": 0.7212057113647461,
      "learning_rate": 4.382702279834965e-05,
      "loss": 0.5524,
      "num_input_tokens_seen": 16075744,
      "step": 1430,
      "train_runtime": 2341.4051,
      "train_tokens_per_second": 6865.853
    },
    {
      "epoch": 0.6887862242755145,
      "grad_norm": 0.58528733253479,
      "learning_rate": 4.378563781317687e-05,
      "loss": 0.497,
      "num_input_tokens_seen": 16137672,
      "step": 1435,
      "train_runtime": 2350.3848,
      "train_tokens_per_second": 6865.97
    },
    {
      "epoch": 0.6911861762764745,
      "grad_norm": 0.570091962814331,
      "learning_rate": 4.374413424361195e-05,
      "loss": 0.4888,
      "num_input_tokens_seen": 16199088,
      "step": 1440,
      "train_runtime": 2358.886,
      "train_tokens_per_second": 6867.262
    },
    {
      "epoch": 0.6935861282774345,
      "grad_norm": 0.768666684627533,
      "learning_rate": 4.370251235164625e-05,
      "loss": 0.5343,
      "num_input_tokens_seen": 16253792,
      "step": 1445,
      "train_runtime": 2367.1689,
      "train_tokens_per_second": 6866.342
    },
    {
      "epoch": 0.6959860802783945,
      "grad_norm": 0.6287879347801208,
      "learning_rate": 4.366077240001813e-05,
      "loss": 0.4848,
      "num_input_tokens_seen": 16316608,
      "step": 1450,
      "train_runtime": 2376.0866,
      "train_tokens_per_second": 6867.009
    },
    {
      "epoch": 0.6983860322793544,
      "grad_norm": 0.74793541431427,
      "learning_rate": 4.361891465221112e-05,
      "loss": 0.4847,
      "num_input_tokens_seen": 16375648,
      "step": 1455,
      "train_runtime": 2384.4535,
      "train_tokens_per_second": 6867.673
    },
    {
      "epoch": 0.7007859842803144,
      "grad_norm": 0.6209436655044556,
      "learning_rate": 4.3576939372452394e-05,
      "loss": 0.5295,
      "num_input_tokens_seen": 16429360,
      "step": 1460,
      "train_runtime": 2392.6099,
      "train_tokens_per_second": 6866.711
    },
    {
      "epoch": 0.7031859362812743,
      "grad_norm": 0.7456108331680298,
      "learning_rate": 4.353484682571101e-05,
      "loss": 0.5144,
      "num_input_tokens_seen": 16480088,
      "step": 1465,
      "train_runtime": 2400.4701,
      "train_tokens_per_second": 6865.359
    },
    {
      "epoch": 0.7055858882822343,
      "grad_norm": 0.573098361492157,
      "learning_rate": 4.349263727769629e-05,
      "loss": 0.4636,
      "num_input_tokens_seen": 16538968,
      "step": 1470,
      "train_runtime": 2408.9134,
      "train_tokens_per_second": 6865.738
    },
    {
      "epoch": 0.7079858402831943,
      "grad_norm": 0.6599897146224976,
      "learning_rate": 4.3450310994856135e-05,
      "loss": 0.5415,
      "num_input_tokens_seen": 16595104,
      "step": 1475,
      "train_runtime": 2417.2231,
      "train_tokens_per_second": 6865.359
    },
    {
      "epoch": 0.7103857922841543,
      "grad_norm": 0.9016920328140259,
      "learning_rate": 4.3407868244375315e-05,
      "loss": 0.5367,
      "num_input_tokens_seen": 16650488,
      "step": 1480,
      "train_runtime": 2425.2913,
      "train_tokens_per_second": 6865.356
    },
    {
      "epoch": 0.7127857442851143,
      "grad_norm": 0.7661956548690796,
      "learning_rate": 4.3365309294173825e-05,
      "loss": 0.4729,
      "num_input_tokens_seen": 16701384,
      "step": 1485,
      "train_runtime": 2432.991,
      "train_tokens_per_second": 6864.548
    },
    {
      "epoch": 0.7151856962860743,
      "grad_norm": 0.8703396916389465,
      "learning_rate": 4.332263441290515e-05,
      "loss": 0.5373,
      "num_input_tokens_seen": 16754152,
      "step": 1490,
      "train_runtime": 2440.463,
      "train_tokens_per_second": 6865.153
    },
    {
      "epoch": 0.7175856482870343,
      "grad_norm": 0.633375883102417,
      "learning_rate": 4.3279843869954604e-05,
      "loss": 0.5037,
      "num_input_tokens_seen": 16809056,
      "step": 1495,
      "train_runtime": 2448.2645,
      "train_tokens_per_second": 6865.703
    },
    {
      "epoch": 0.7199856002879942,
      "grad_norm": 0.7101417779922485,
      "learning_rate": 4.3236937935437614e-05,
      "loss": 0.5324,
      "num_input_tokens_seen": 16859504,
      "step": 1500,
      "train_runtime": 2455.6516,
      "train_tokens_per_second": 6865.593
    },
    {
      "epoch": 0.7223855522889542,
      "grad_norm": 0.6423754692077637,
      "learning_rate": 4.3193916880198004e-05,
      "loss": 0.5109,
      "num_input_tokens_seen": 16919952,
      "step": 1505,
      "train_runtime": 2464.4089,
      "train_tokens_per_second": 6865.724
    },
    {
      "epoch": 0.7247855042899142,
      "grad_norm": 0.7076619863510132,
      "learning_rate": 4.3150780975806315e-05,
      "loss": 0.5425,
      "num_input_tokens_seen": 16976592,
      "step": 1510,
      "train_runtime": 2472.6158,
      "train_tokens_per_second": 6865.843
    },
    {
      "epoch": 0.7271854562908742,
      "grad_norm": 0.5288546085357666,
      "learning_rate": 4.310753049455806e-05,
      "loss": 0.515,
      "num_input_tokens_seen": 17034816,
      "step": 1515,
      "train_runtime": 2480.9341,
      "train_tokens_per_second": 6866.291
    },
    {
      "epoch": 0.7295854082918342,
      "grad_norm": 0.6262106895446777,
      "learning_rate": 4.3064165709472036e-05,
      "loss": 0.5271,
      "num_input_tokens_seen": 17088560,
      "step": 1520,
      "train_runtime": 2488.3235,
      "train_tokens_per_second": 6867.499
    },
    {
      "epoch": 0.7319853602927942,
      "grad_norm": 0.5250151753425598,
      "learning_rate": 4.3020686894288564e-05,
      "loss": 0.5055,
      "num_input_tokens_seen": 17144640,
      "step": 1525,
      "train_runtime": 2496.1311,
      "train_tokens_per_second": 6868.485
    },
    {
      "epoch": 0.7343853122937541,
      "grad_norm": 0.7805795669555664,
      "learning_rate": 4.2977094323467784e-05,
      "loss": 0.48,
      "num_input_tokens_seen": 17200416,
      "step": 1530,
      "train_runtime": 2504.3678,
      "train_tokens_per_second": 6868.167
    },
    {
      "epoch": 0.7367852642947141,
      "grad_norm": 0.7616066336631775,
      "learning_rate": 4.293338827218794e-05,
      "loss": 0.4972,
      "num_input_tokens_seen": 17256344,
      "step": 1535,
      "train_runtime": 2512.462,
      "train_tokens_per_second": 6868.3
    },
    {
      "epoch": 0.7391852162956741,
      "grad_norm": 0.7682455778121948,
      "learning_rate": 4.288956901634359e-05,
      "loss": 0.4691,
      "num_input_tokens_seen": 17314072,
      "step": 1540,
      "train_runtime": 2520.9232,
      "train_tokens_per_second": 6868.147
    },
    {
      "epoch": 0.741585168296634,
      "grad_norm": 0.7621558308601379,
      "learning_rate": 4.2845636832543914e-05,
      "loss": 0.4942,
      "num_input_tokens_seen": 17373728,
      "step": 1545,
      "train_runtime": 2529.3504,
      "train_tokens_per_second": 6868.85
    },
    {
      "epoch": 0.743985120297594,
      "grad_norm": 0.6085621118545532,
      "learning_rate": 4.2801591998110946e-05,
      "loss": 0.5119,
      "num_input_tokens_seen": 17425920,
      "step": 1550,
      "train_runtime": 2536.8035,
      "train_tokens_per_second": 6869.243
    },
    {
      "epoch": 0.746385072298554,
      "grad_norm": 0.6101738214492798,
      "learning_rate": 4.275743479107785e-05,
      "loss": 0.5201,
      "num_input_tokens_seen": 17480304,
      "step": 1555,
      "train_runtime": 2544.9492,
      "train_tokens_per_second": 6868.626
    },
    {
      "epoch": 0.748785024299514,
      "grad_norm": 0.6207472085952759,
      "learning_rate": 4.271316549018708e-05,
      "loss": 0.517,
      "num_input_tokens_seen": 17539776,
      "step": 1560,
      "train_runtime": 2553.0822,
      "train_tokens_per_second": 6870.04
    },
    {
      "epoch": 0.751184976300474,
      "grad_norm": 0.688941478729248,
      "learning_rate": 4.2668784374888756e-05,
      "loss": 0.4894,
      "num_input_tokens_seen": 17595928,
      "step": 1565,
      "train_runtime": 2561.6413,
      "train_tokens_per_second": 6869.005
    },
    {
      "epoch": 0.753584928301434,
      "grad_norm": 0.9783554673194885,
      "learning_rate": 4.262429172533878e-05,
      "loss": 0.5213,
      "num_input_tokens_seen": 17651664,
      "step": 1570,
      "train_runtime": 2569.4494,
      "train_tokens_per_second": 6869.824
    },
    {
      "epoch": 0.755984880302394,
      "grad_norm": 0.9513911604881287,
      "learning_rate": 4.257968782239714e-05,
      "loss": 0.506,
      "num_input_tokens_seen": 17703960,
      "step": 1575,
      "train_runtime": 2576.9625,
      "train_tokens_per_second": 6870.088
    },
    {
      "epoch": 0.758384832303354,
      "grad_norm": 0.7099276185035706,
      "learning_rate": 4.2534972947626094e-05,
      "loss": 0.5073,
      "num_input_tokens_seen": 17761448,
      "step": 1580,
      "train_runtime": 2585.427,
      "train_tokens_per_second": 6869.832
    },
    {
      "epoch": 0.760784784304314,
      "grad_norm": 0.5648279786109924,
      "learning_rate": 4.249014738328842e-05,
      "loss": 0.5265,
      "num_input_tokens_seen": 17817984,
      "step": 1585,
      "train_runtime": 2593.1431,
      "train_tokens_per_second": 6871.192
    },
    {
      "epoch": 0.763184736305274,
      "grad_norm": 0.6818917989730835,
      "learning_rate": 4.2445211412345615e-05,
      "loss": 0.5244,
      "num_input_tokens_seen": 17874768,
      "step": 1590,
      "train_runtime": 2601.224,
      "train_tokens_per_second": 6871.676
    },
    {
      "epoch": 0.7655846883062338,
      "grad_norm": 0.6163448691368103,
      "learning_rate": 4.240016531845612e-05,
      "loss": 0.5406,
      "num_input_tokens_seen": 17931864,
      "step": 1595,
      "train_runtime": 2609.5192,
      "train_tokens_per_second": 6871.712
    },
    {
      "epoch": 0.7679846403071938,
      "grad_norm": 0.6879476308822632,
      "learning_rate": 4.235500938597354e-05,
      "loss": 0.4871,
      "num_input_tokens_seen": 17985744,
      "step": 1600,
      "train_runtime": 2617.2291,
      "train_tokens_per_second": 6872.056
    },
    {
      "epoch": 0.7703845923081538,
      "grad_norm": 0.5437011122703552,
      "learning_rate": 4.230974389994483e-05,
      "loss": 0.5015,
      "num_input_tokens_seen": 18044152,
      "step": 1605,
      "train_runtime": 2625.4686,
      "train_tokens_per_second": 6872.736
    },
    {
      "epoch": 0.7727845443091138,
      "grad_norm": 0.5755176544189453,
      "learning_rate": 4.226436914610849e-05,
      "loss": 0.541,
      "num_input_tokens_seen": 18100976,
      "step": 1610,
      "train_runtime": 2633.5328,
      "train_tokens_per_second": 6873.268
    },
    {
      "epoch": 0.7751844963100738,
      "grad_norm": 0.6550777554512024,
      "learning_rate": 4.2218885410892785e-05,
      "loss": 0.5314,
      "num_input_tokens_seen": 18156240,
      "step": 1615,
      "train_runtime": 2641.1036,
      "train_tokens_per_second": 6874.49
    },
    {
      "epoch": 0.7775844483110338,
      "grad_norm": 0.6372175216674805,
      "learning_rate": 4.2173292981413914e-05,
      "loss": 0.4875,
      "num_input_tokens_seen": 18216472,
      "step": 1620,
      "train_runtime": 2649.6605,
      "train_tokens_per_second": 6875.021
    },
    {
      "epoch": 0.7799844003119938,
      "grad_norm": 0.5091462731361389,
      "learning_rate": 4.212759214547424e-05,
      "loss": 0.4954,
      "num_input_tokens_seen": 18271168,
      "step": 1625,
      "train_runtime": 2657.4608,
      "train_tokens_per_second": 6875.423
    },
    {
      "epoch": 0.7823843523129538,
      "grad_norm": 0.6974900960922241,
      "learning_rate": 4.2081783191560405e-05,
      "loss": 0.4939,
      "num_input_tokens_seen": 18326128,
      "step": 1630,
      "train_runtime": 2665.3267,
      "train_tokens_per_second": 6875.753
    },
    {
      "epoch": 0.7847843043139138,
      "grad_norm": 0.5476020574569702,
      "learning_rate": 4.203586640884156e-05,
      "loss": 0.4995,
      "num_input_tokens_seen": 18385280,
      "step": 1635,
      "train_runtime": 2673.6877,
      "train_tokens_per_second": 6876.375
    },
    {
      "epoch": 0.7871842563148737,
      "grad_norm": 0.5772519111633301,
      "learning_rate": 4.1989842087167534e-05,
      "loss": 0.5198,
      "num_input_tokens_seen": 18444000,
      "step": 1640,
      "train_runtime": 2682.4357,
      "train_tokens_per_second": 6875.84
    },
    {
      "epoch": 0.7895842083158336,
      "grad_norm": 0.6971266269683838,
      "learning_rate": 4.1943710517066984e-05,
      "loss": 0.4696,
      "num_input_tokens_seen": 18500344,
      "step": 1645,
      "train_runtime": 2690.5876,
      "train_tokens_per_second": 6875.949
    },
    {
      "epoch": 0.7919841603167936,
      "grad_norm": 0.7783945798873901,
      "learning_rate": 4.1897471989745575e-05,
      "loss": 0.4777,
      "num_input_tokens_seen": 18553136,
      "step": 1650,
      "train_runtime": 2698.2872,
      "train_tokens_per_second": 6875.894
    },
    {
      "epoch": 0.7943841123177536,
      "grad_norm": 0.7614520192146301,
      "learning_rate": 4.185112679708415e-05,
      "loss": 0.525,
      "num_input_tokens_seen": 18610264,
      "step": 1655,
      "train_runtime": 2706.4236,
      "train_tokens_per_second": 6876.331
    },
    {
      "epoch": 0.7967840643187136,
      "grad_norm": 0.5857712626457214,
      "learning_rate": 4.180467523163686e-05,
      "loss": 0.4906,
      "num_input_tokens_seen": 18670624,
      "step": 1660,
      "train_runtime": 2714.993,
      "train_tokens_per_second": 6876.859
    },
    {
      "epoch": 0.7991840163196736,
      "grad_norm": 0.5816935300827026,
      "learning_rate": 4.175811758662935e-05,
      "loss": 0.4851,
      "num_input_tokens_seen": 18727824,
      "step": 1665,
      "train_runtime": 2723.4951,
      "train_tokens_per_second": 6876.393
    },
    {
      "epoch": 0.8015839683206336,
      "grad_norm": 0.5751060843467712,
      "learning_rate": 4.1711454155956895e-05,
      "loss": 0.4694,
      "num_input_tokens_seen": 18785440,
      "step": 1670,
      "train_runtime": 2731.305,
      "train_tokens_per_second": 6877.826
    },
    {
      "epoch": 0.8039839203215936,
      "grad_norm": 0.8796506524085999,
      "learning_rate": 4.166468523418251e-05,
      "loss": 0.5254,
      "num_input_tokens_seen": 18839288,
      "step": 1675,
      "train_runtime": 2739.4392,
      "train_tokens_per_second": 6877.06
    },
    {
      "epoch": 0.8063838723225536,
      "grad_norm": 0.6676029562950134,
      "learning_rate": 4.1617811116535176e-05,
      "loss": 0.5521,
      "num_input_tokens_seen": 18893696,
      "step": 1680,
      "train_runtime": 2747.1069,
      "train_tokens_per_second": 6877.67
    },
    {
      "epoch": 0.8087838243235135,
      "grad_norm": 0.8193256258964539,
      "learning_rate": 4.1570832098907874e-05,
      "loss": 0.5444,
      "num_input_tokens_seen": 18946504,
      "step": 1685,
      "train_runtime": 2754.72,
      "train_tokens_per_second": 6877.833
    },
    {
      "epoch": 0.8111837763244735,
      "grad_norm": 0.5464473962783813,
      "learning_rate": 4.152374847785579e-05,
      "loss": 0.5321,
      "num_input_tokens_seen": 19003664,
      "step": 1690,
      "train_runtime": 2763.0844,
      "train_tokens_per_second": 6877.699
    },
    {
      "epoch": 0.8135837283254335,
      "grad_norm": 0.8191189169883728,
      "learning_rate": 4.1476560550594414e-05,
      "loss": 0.4826,
      "num_input_tokens_seen": 19056544,
      "step": 1695,
      "train_runtime": 2770.9361,
      "train_tokens_per_second": 6877.295
    },
    {
      "epoch": 0.8159836803263935,
      "grad_norm": 0.745058000087738,
      "learning_rate": 4.142926861499768e-05,
      "loss": 0.5543,
      "num_input_tokens_seen": 19107344,
      "step": 1700,
      "train_runtime": 2778.5593,
      "train_tokens_per_second": 6876.709
    },
    {
      "epoch": 0.8183836323273534,
      "grad_norm": 0.6147037744522095,
      "learning_rate": 4.138187296959606e-05,
      "loss": 0.505,
      "num_input_tokens_seen": 19162000,
      "step": 1705,
      "train_runtime": 2786.3906,
      "train_tokens_per_second": 6876.997
    },
    {
      "epoch": 0.8207835843283134,
      "grad_norm": 0.687018632888794,
      "learning_rate": 4.13343739135747e-05,
      "loss": 0.522,
      "num_input_tokens_seen": 19217512,
      "step": 1710,
      "train_runtime": 2794.2498,
      "train_tokens_per_second": 6877.521
    },
    {
      "epoch": 0.8231835363292734,
      "grad_norm": 0.6172505617141724,
      "learning_rate": 4.128677174677153e-05,
      "loss": 0.5411,
      "num_input_tokens_seen": 19276384,
      "step": 1715,
      "train_runtime": 2802.4832,
      "train_tokens_per_second": 6878.323
    },
    {
      "epoch": 0.8255834883302334,
      "grad_norm": 0.735072135925293,
      "learning_rate": 4.123906676967536e-05,
      "loss": 0.513,
      "num_input_tokens_seen": 19328432,
      "step": 1720,
      "train_runtime": 2810.1311,
      "train_tokens_per_second": 6878.125
    },
    {
      "epoch": 0.8279834403311934,
      "grad_norm": 0.9113159775733948,
      "learning_rate": 4.1191259283424e-05,
      "loss": 0.5244,
      "num_input_tokens_seen": 19384016,
      "step": 1725,
      "train_runtime": 2818.2045,
      "train_tokens_per_second": 6878.144
    },
    {
      "epoch": 0.8303833923321533,
      "grad_norm": 0.8989443778991699,
      "learning_rate": 4.1143349589802326e-05,
      "loss": 0.5471,
      "num_input_tokens_seen": 19442016,
      "step": 1730,
      "train_runtime": 2826.3519,
      "train_tokens_per_second": 6878.838
    },
    {
      "epoch": 0.8327833443331133,
      "grad_norm": 0.572564423084259,
      "learning_rate": 4.1095337991240436e-05,
      "loss": 0.5352,
      "num_input_tokens_seen": 19496880,
      "step": 1735,
      "train_runtime": 2834.1751,
      "train_tokens_per_second": 6879.208
    },
    {
      "epoch": 0.8351832963340733,
      "grad_norm": 0.4649478793144226,
      "learning_rate": 4.104722479081167e-05,
      "loss": 0.4709,
      "num_input_tokens_seen": 19555656,
      "step": 1740,
      "train_runtime": 2842.1514,
      "train_tokens_per_second": 6880.582
    },
    {
      "epoch": 0.8375832483350333,
      "grad_norm": 0.6450087428092957,
      "learning_rate": 4.099901029223075e-05,
      "loss": 0.5104,
      "num_input_tokens_seen": 19610352,
      "step": 1745,
      "train_runtime": 2849.9024,
      "train_tokens_per_second": 6881.061
    },
    {
      "epoch": 0.8399832003359933,
      "grad_norm": 0.7608988881111145,
      "learning_rate": 4.095069479985183e-05,
      "loss": 0.5151,
      "num_input_tokens_seen": 19666656,
      "step": 1750,
      "train_runtime": 2858.2857,
      "train_tokens_per_second": 6880.577
    },
    {
      "epoch": 0.8423831523369533,
      "grad_norm": 0.5766634345054626,
      "learning_rate": 4.090227861866659e-05,
      "loss": 0.5355,
      "num_input_tokens_seen": 19723528,
      "step": 1755,
      "train_runtime": 2866.3853,
      "train_tokens_per_second": 6880.976
    },
    {
      "epoch": 0.8447831043379133,
      "grad_norm": 0.8256959915161133,
      "learning_rate": 4.085376205430233e-05,
      "loss": 0.5475,
      "num_input_tokens_seen": 19775232,
      "step": 1760,
      "train_runtime": 2873.9931,
      "train_tokens_per_second": 6880.751
    },
    {
      "epoch": 0.8471830563388733,
      "grad_norm": 0.6020644903182983,
      "learning_rate": 4.080514541301998e-05,
      "loss": 0.5043,
      "num_input_tokens_seen": 19832592,
      "step": 1765,
      "train_runtime": 2881.8352,
      "train_tokens_per_second": 6881.931
    },
    {
      "epoch": 0.8495830083398332,
      "grad_norm": 0.6027383804321289,
      "learning_rate": 4.075642900171223e-05,
      "loss": 0.5501,
      "num_input_tokens_seen": 19886104,
      "step": 1770,
      "train_runtime": 2889.3788,
      "train_tokens_per_second": 6882.484
    },
    {
      "epoch": 0.8519829603407932,
      "grad_norm": 0.7463006377220154,
      "learning_rate": 4.070761312790157e-05,
      "loss": 0.5666,
      "num_input_tokens_seen": 19944808,
      "step": 1775,
      "train_runtime": 2897.8024,
      "train_tokens_per_second": 6882.736
    },
    {
      "epoch": 0.8543829123417531,
      "grad_norm": 0.5846840143203735,
      "learning_rate": 4.065869809973833e-05,
      "loss": 0.5026,
      "num_input_tokens_seen": 20000048,
      "step": 1780,
      "train_runtime": 2905.6359,
      "train_tokens_per_second": 6883.191
    },
    {
      "epoch": 0.8567828643427131,
      "grad_norm": 0.6461730599403381,
      "learning_rate": 4.060968422599879e-05,
      "loss": 0.4991,
      "num_input_tokens_seen": 20054800,
      "step": 1785,
      "train_runtime": 2913.7209,
      "train_tokens_per_second": 6882.883
    },
    {
      "epoch": 0.8591828163436731,
      "grad_norm": 0.7940958142280579,
      "learning_rate": 4.0560571816083156e-05,
      "loss": 0.5496,
      "num_input_tokens_seen": 20111120,
      "step": 1790,
      "train_runtime": 2921.8875,
      "train_tokens_per_second": 6882.921
    },
    {
      "epoch": 0.8615827683446331,
      "grad_norm": 0.6765144467353821,
      "learning_rate": 4.051136118001364e-05,
      "loss": 0.4827,
      "num_input_tokens_seen": 20165552,
      "step": 1795,
      "train_runtime": 2929.7258,
      "train_tokens_per_second": 6883.085
    },
    {
      "epoch": 0.8639827203455931,
      "grad_norm": 0.9223127365112305,
      "learning_rate": 4.046205262843254e-05,
      "loss": 0.4949,
      "num_input_tokens_seen": 20221072,
      "step": 1800,
      "train_runtime": 2938.3425,
      "train_tokens_per_second": 6881.796
    },
    {
      "epoch": 0.8663826723465531,
      "grad_norm": 0.5317054390907288,
      "learning_rate": 4.041264647260022e-05,
      "loss": 0.4844,
      "num_input_tokens_seen": 20277640,
      "step": 1805,
      "train_runtime": 2947.9518,
      "train_tokens_per_second": 6878.552
    },
    {
      "epoch": 0.8687826243475131,
      "grad_norm": 0.5232411623001099,
      "learning_rate": 4.036314302439319e-05,
      "loss": 0.4938,
      "num_input_tokens_seen": 20333328,
      "step": 1810,
      "train_runtime": 2955.884,
      "train_tokens_per_second": 6878.933
    },
    {
      "epoch": 0.8711825763484731,
      "grad_norm": 0.7968527674674988,
      "learning_rate": 4.031354259630209e-05,
      "loss": 0.5246,
      "num_input_tokens_seen": 20389752,
      "step": 1815,
      "train_runtime": 2963.7323,
      "train_tokens_per_second": 6879.755
    },
    {
      "epoch": 0.8735825283494331,
      "grad_norm": 0.5793075561523438,
      "learning_rate": 4.026384550142978e-05,
      "loss": 0.5467,
      "num_input_tokens_seen": 20447184,
      "step": 1820,
      "train_runtime": 2971.7237,
      "train_tokens_per_second": 6880.58
    },
    {
      "epoch": 0.875982480350393,
      "grad_norm": 0.6629696488380432,
      "learning_rate": 4.0214052053489304e-05,
      "loss": 0.4753,
      "num_input_tokens_seen": 20501512,
      "step": 1825,
      "train_runtime": 2979.5222,
      "train_tokens_per_second": 6880.805
    },
    {
      "epoch": 0.8783824323513529,
      "grad_norm": 0.6974778175354004,
      "learning_rate": 4.016416256680194e-05,
      "loss": 0.5134,
      "num_input_tokens_seen": 20556688,
      "step": 1830,
      "train_runtime": 2987.3905,
      "train_tokens_per_second": 6881.152
    },
    {
      "epoch": 0.8807823843523129,
      "grad_norm": 0.7780594825744629,
      "learning_rate": 4.011417735629522e-05,
      "loss": 0.4771,
      "num_input_tokens_seen": 20613504,
      "step": 1835,
      "train_runtime": 2995.7447,
      "train_tokens_per_second": 6880.928
    },
    {
      "epoch": 0.8831823363532729,
      "grad_norm": 0.6135735511779785,
      "learning_rate": 4.006409673750094e-05,
      "loss": 0.4904,
      "num_input_tokens_seen": 20670776,
      "step": 1840,
      "train_runtime": 3004.2957,
      "train_tokens_per_second": 6880.407
    },
    {
      "epoch": 0.8855822883542329,
      "grad_norm": 0.6567316651344299,
      "learning_rate": 4.0013921026553125e-05,
      "loss": 0.5172,
      "num_input_tokens_seen": 20726776,
      "step": 1845,
      "train_runtime": 3012.3296,
      "train_tokens_per_second": 6880.647
    },
    {
      "epoch": 0.8879822403551929,
      "grad_norm": 0.733647882938385,
      "learning_rate": 3.9963650540186116e-05,
      "loss": 0.5168,
      "num_input_tokens_seen": 20781792,
      "step": 1850,
      "train_runtime": 3020.8457,
      "train_tokens_per_second": 6879.462
    },
    {
      "epoch": 0.8903821923561529,
      "grad_norm": 0.7651314735412598,
      "learning_rate": 3.991328559573248e-05,
      "loss": 0.551,
      "num_input_tokens_seen": 20835512,
      "step": 1855,
      "train_runtime": 3028.6209,
      "train_tokens_per_second": 6879.538
    },
    {
      "epoch": 0.8927821443571129,
      "grad_norm": 0.7899940013885498,
      "learning_rate": 3.9862826511121085e-05,
      "loss": 0.5242,
      "num_input_tokens_seen": 20887216,
      "step": 1860,
      "train_runtime": 3036.1277,
      "train_tokens_per_second": 6879.558
    },
    {
      "epoch": 0.8951820963580729,
      "grad_norm": 0.6774663329124451,
      "learning_rate": 3.981227360487504e-05,
      "loss": 0.5273,
      "num_input_tokens_seen": 20943744,
      "step": 1865,
      "train_runtime": 3044.3369,
      "train_tokens_per_second": 6879.575
    },
    {
      "epoch": 0.8975820483590328,
      "grad_norm": 0.6696859002113342,
      "learning_rate": 3.976162719610972e-05,
      "loss": 0.5006,
      "num_input_tokens_seen": 20991568,
      "step": 1870,
      "train_runtime": 3053.2072,
      "train_tokens_per_second": 6875.252
    },
    {
      "epoch": 0.8999820003599928,
      "grad_norm": 0.7721266746520996,
      "learning_rate": 3.971088760453071e-05,
      "loss": 0.5214,
      "num_input_tokens_seen": 21047408,
      "step": 1875,
      "train_runtime": 3061.9813,
      "train_tokens_per_second": 6873.787
    },
    {
      "epoch": 0.9023819523609528,
      "grad_norm": 0.7528117299079895,
      "learning_rate": 3.966005515043183e-05,
      "loss": 0.5172,
      "num_input_tokens_seen": 21105344,
      "step": 1880,
      "train_runtime": 3070.238,
      "train_tokens_per_second": 6874.172
    },
    {
      "epoch": 0.9047819043619127,
      "grad_norm": 0.7893593311309814,
      "learning_rate": 3.960913015469311e-05,
      "loss": 0.5581,
      "num_input_tokens_seen": 21161704,
      "step": 1885,
      "train_runtime": 3078.4575,
      "train_tokens_per_second": 6874.126
    },
    {
      "epoch": 0.9071818563628727,
      "grad_norm": 0.6411826610565186,
      "learning_rate": 3.95581129387787e-05,
      "loss": 0.5006,
      "num_input_tokens_seen": 21220960,
      "step": 1890,
      "train_runtime": 3087.9925,
      "train_tokens_per_second": 6872.089
    },
    {
      "epoch": 0.9095818083638327,
      "grad_norm": 0.48201116919517517,
      "learning_rate": 3.950700382473494e-05,
      "loss": 0.5143,
      "num_input_tokens_seen": 21285456,
      "step": 1895,
      "train_runtime": 3097.6261,
      "train_tokens_per_second": 6871.538
    },
    {
      "epoch": 0.9119817603647927,
      "grad_norm": 0.7874345779418945,
      "learning_rate": 3.9455803135188265e-05,
      "loss": 0.5133,
      "num_input_tokens_seen": 21340656,
      "step": 1900,
      "train_runtime": 3105.618,
      "train_tokens_per_second": 6871.629
    },
    {
      "epoch": 0.9143817123657527,
      "grad_norm": 0.8059301972389221,
      "learning_rate": 3.940451119334315e-05,
      "loss": 0.4716,
      "num_input_tokens_seen": 21402256,
      "step": 1905,
      "train_runtime": 3114.7644,
      "train_tokens_per_second": 6871.228
    },
    {
      "epoch": 0.9167816643667127,
      "grad_norm": 0.5982013940811157,
      "learning_rate": 3.935312832298014e-05,
      "loss": 0.4752,
      "num_input_tokens_seen": 21456968,
      "step": 1910,
      "train_runtime": 3122.6252,
      "train_tokens_per_second": 6871.452
    },
    {
      "epoch": 0.9191816163676726,
      "grad_norm": 0.6114861965179443,
      "learning_rate": 3.9301654848453744e-05,
      "loss": 0.5358,
      "num_input_tokens_seen": 21510880,
      "step": 1915,
      "train_runtime": 3130.5306,
      "train_tokens_per_second": 6871.321
    },
    {
      "epoch": 0.9215815683686326,
      "grad_norm": 0.6739422678947449,
      "learning_rate": 3.9250091094690424e-05,
      "loss": 0.508,
      "num_input_tokens_seen": 21567176,
      "step": 1920,
      "train_runtime": 3139.4979,
      "train_tokens_per_second": 6869.626
    },
    {
      "epoch": 0.9239815203695926,
      "grad_norm": 0.9573784470558167,
      "learning_rate": 3.9198437387186514e-05,
      "loss": 0.4969,
      "num_input_tokens_seen": 21616728,
      "step": 1925,
      "train_runtime": 3147.1512,
      "train_tokens_per_second": 6868.665
    },
    {
      "epoch": 0.9263814723705526,
      "grad_norm": 0.6872597336769104,
      "learning_rate": 3.914669405200619e-05,
      "loss": 0.5231,
      "num_input_tokens_seen": 21669600,
      "step": 1930,
      "train_runtime": 3154.6855,
      "train_tokens_per_second": 6869.021
    },
    {
      "epoch": 0.9287814243715126,
      "grad_norm": 0.5402712225914001,
      "learning_rate": 3.909486141577941e-05,
      "loss": 0.5557,
      "num_input_tokens_seen": 21725144,
      "step": 1935,
      "train_runtime": 3162.9029,
      "train_tokens_per_second": 6868.736
    },
    {
      "epoch": 0.9311813763724726,
      "grad_norm": 0.5620856881141663,
      "learning_rate": 3.904293980569983e-05,
      "loss": 0.5202,
      "num_input_tokens_seen": 21780960,
      "step": 1940,
      "train_runtime": 3171.7075,
      "train_tokens_per_second": 6867.266
    },
    {
      "epoch": 0.9335813283734326,
      "grad_norm": 0.48633241653442383,
      "learning_rate": 3.899092954952276e-05,
      "loss": 0.4965,
      "num_input_tokens_seen": 21835904,
      "step": 1945,
      "train_runtime": 3180.9981,
      "train_tokens_per_second": 6864.482
    },
    {
      "epoch": 0.9359812803743925,
      "grad_norm": 0.6408486366271973,
      "learning_rate": 3.89388309755631e-05,
      "loss": 0.5271,
      "num_input_tokens_seen": 21890264,
      "step": 1950,
      "train_runtime": 3188.8619,
      "train_tokens_per_second": 6864.601
    },
    {
      "epoch": 0.9383812323753525,
      "grad_norm": 0.6832561492919922,
      "learning_rate": 3.888664441269324e-05,
      "loss": 0.513,
      "num_input_tokens_seen": 21943944,
      "step": 1955,
      "train_runtime": 3196.9004,
      "train_tokens_per_second": 6864.131
    },
    {
      "epoch": 0.9407811843763125,
      "grad_norm": 0.7224368453025818,
      "learning_rate": 3.8834370190341016e-05,
      "loss": 0.4975,
      "num_input_tokens_seen": 22000688,
      "step": 1960,
      "train_runtime": 3205.2356,
      "train_tokens_per_second": 6863.985
    },
    {
      "epoch": 0.9431811363772724,
      "grad_norm": 0.921877384185791,
      "learning_rate": 3.8782008638487585e-05,
      "loss": 0.5142,
      "num_input_tokens_seen": 22056928,
      "step": 1965,
      "train_runtime": 3213.437,
      "train_tokens_per_second": 6863.968
    },
    {
      "epoch": 0.9455810883782324,
      "grad_norm": 0.8015443682670593,
      "learning_rate": 3.872956008766541e-05,
      "loss": 0.5345,
      "num_input_tokens_seen": 22109984,
      "step": 1970,
      "train_runtime": 3221.3456,
      "train_tokens_per_second": 6863.586
    },
    {
      "epoch": 0.9479810403791924,
      "grad_norm": 0.60637366771698,
      "learning_rate": 3.867702486895611e-05,
      "loss": 0.519,
      "num_input_tokens_seen": 22167792,
      "step": 1975,
      "train_runtime": 3229.4918,
      "train_tokens_per_second": 6864.173
    },
    {
      "epoch": 0.9503809923801524,
      "grad_norm": 0.6260784268379211,
      "learning_rate": 3.86244033139884e-05,
      "loss": 0.4549,
      "num_input_tokens_seen": 22224944,
      "step": 1980,
      "train_runtime": 3237.4363,
      "train_tokens_per_second": 6864.983
    },
    {
      "epoch": 0.9527809443811124,
      "grad_norm": 0.7488238215446472,
      "learning_rate": 3.857169575493601e-05,
      "loss": 0.4988,
      "num_input_tokens_seen": 22280208,
      "step": 1985,
      "train_runtime": 3245.3144,
      "train_tokens_per_second": 6865.347
    },
    {
      "epoch": 0.9551808963820724,
      "grad_norm": 1.2673466205596924,
      "learning_rate": 3.851890252451553e-05,
      "loss": 0.5948,
      "num_input_tokens_seen": 22331688,
      "step": 1990,
      "train_runtime": 3252.7162,
      "train_tokens_per_second": 6865.551
    },
    {
      "epoch": 0.9575808483830324,
      "grad_norm": 0.7167654633522034,
      "learning_rate": 3.846602395598441e-05,
      "loss": 0.4765,
      "num_input_tokens_seen": 22391056,
      "step": 1995,
      "train_runtime": 3261.3251,
      "train_tokens_per_second": 6865.631
    },
    {
      "epoch": 0.9599808003839924,
      "grad_norm": 0.7767099142074585,
      "learning_rate": 3.8413060383138735e-05,
      "loss": 0.5067,
      "num_input_tokens_seen": 22442560,
      "step": 2000,
      "train_runtime": 3268.751,
      "train_tokens_per_second": 6865.791
    },
    {
      "epoch": 0.9623807523849524,
      "grad_norm": 0.6243239641189575,
      "learning_rate": 3.836001214031122e-05,
      "loss": 0.441,
      "num_input_tokens_seen": 22504640,
      "step": 2005,
      "train_runtime": 3277.3712,
      "train_tokens_per_second": 6866.674
    },
    {
      "epoch": 0.9647807043859122,
      "grad_norm": 0.7347325086593628,
      "learning_rate": 3.830687956236907e-05,
      "loss": 0.4923,
      "num_input_tokens_seen": 22565448,
      "step": 2010,
      "train_runtime": 3285.5854,
      "train_tokens_per_second": 6868.014
    },
    {
      "epoch": 0.9671806563868722,
      "grad_norm": 0.7760552167892456,
      "learning_rate": 3.8253662984711795e-05,
      "loss": 0.4971,
      "num_input_tokens_seen": 22618928,
      "step": 2015,
      "train_runtime": 3293.6417,
      "train_tokens_per_second": 6867.453
    },
    {
      "epoch": 0.9695806083878322,
      "grad_norm": 0.6205884218215942,
      "learning_rate": 3.820036274326922e-05,
      "loss": 0.4979,
      "num_input_tokens_seen": 22674720,
      "step": 2020,
      "train_runtime": 3301.4874,
      "train_tokens_per_second": 6868.032
    },
    {
      "epoch": 0.9719805603887922,
      "grad_norm": 0.7021058797836304,
      "learning_rate": 3.8146979174499265e-05,
      "loss": 0.48,
      "num_input_tokens_seen": 22734768,
      "step": 2025,
      "train_runtime": 3309.628,
      "train_tokens_per_second": 6869.282
    },
    {
      "epoch": 0.9743805123897522,
      "grad_norm": 0.8105769753456116,
      "learning_rate": 3.809351261538585e-05,
      "loss": 0.4802,
      "num_input_tokens_seen": 22792864,
      "step": 2030,
      "train_runtime": 3318.078,
      "train_tokens_per_second": 6869.297
    },
    {
      "epoch": 0.9767804643907122,
      "grad_norm": 0.7583296895027161,
      "learning_rate": 3.8039963403436806e-05,
      "loss": 0.5393,
      "num_input_tokens_seen": 22846392,
      "step": 2035,
      "train_runtime": 3326.837,
      "train_tokens_per_second": 6867.301
    },
    {
      "epoch": 0.9791804163916722,
      "grad_norm": 0.7417272925376892,
      "learning_rate": 3.798633187668166e-05,
      "loss": 0.5505,
      "num_input_tokens_seen": 22899608,
      "step": 2040,
      "train_runtime": 3337.0101,
      "train_tokens_per_second": 6862.313
    },
    {
      "epoch": 0.9815803683926322,
      "grad_norm": 0.6118446588516235,
      "learning_rate": 3.793261837366959e-05,
      "loss": 0.4829,
      "num_input_tokens_seen": 22960648,
      "step": 2045,
      "train_runtime": 3348.0559,
      "train_tokens_per_second": 6857.905
    },
    {
      "epoch": 0.9839803203935922,
      "grad_norm": 0.6822954416275024,
      "learning_rate": 3.7878823233467234e-05,
      "loss": 0.5252,
      "num_input_tokens_seen": 23017960,
      "step": 2050,
      "train_runtime": 3357.979,
      "train_tokens_per_second": 6854.706
    },
    {
      "epoch": 0.9863802723945521,
      "grad_norm": 0.8443323373794556,
      "learning_rate": 3.782494679565656e-05,
      "loss": 0.5098,
      "num_input_tokens_seen": 23073264,
      "step": 2055,
      "train_runtime": 3367.9787,
      "train_tokens_per_second": 6850.775
    },
    {
      "epoch": 0.988780224395512,
      "grad_norm": 0.8180744647979736,
      "learning_rate": 3.777098940033275e-05,
      "loss": 0.4722,
      "num_input_tokens_seen": 23130952,
      "step": 2060,
      "train_runtime": 3379.0655,
      "train_tokens_per_second": 6845.37
    },
    {
      "epoch": 0.991180176396472,
      "grad_norm": 1.0012092590332031,
      "learning_rate": 3.7716951388102e-05,
      "loss": 0.512,
      "num_input_tokens_seen": 23184912,
      "step": 2065,
      "train_runtime": 3390.0285,
      "train_tokens_per_second": 6839.15
    },
    {
      "epoch": 0.993580128397432,
      "grad_norm": 0.8469212651252747,
      "learning_rate": 3.766283310007943e-05,
      "loss": 0.5002,
      "num_input_tokens_seen": 23238656,
      "step": 2070,
      "train_runtime": 3398.1559,
      "train_tokens_per_second": 6838.608
    },
    {
      "epoch": 0.995980080398392,
      "grad_norm": 0.7020851969718933,
      "learning_rate": 3.7608634877886885e-05,
      "loss": 0.5014,
      "num_input_tokens_seen": 23293008,
      "step": 2075,
      "train_runtime": 3406.0069,
      "train_tokens_per_second": 6838.802
    },
    {
      "epoch": 0.998380032399352,
      "grad_norm": 0.9155061841011047,
      "learning_rate": 3.755435706365079e-05,
      "loss": 0.4932,
      "num_input_tokens_seen": 23349040,
      "step": 2080,
      "train_runtime": 3414.3354,
      "train_tokens_per_second": 6838.531
    },
    {
      "epoch": 1.000479990400192,
      "grad_norm": 0.7089964151382446,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 0.5376,
      "num_input_tokens_seen": 23400800,
      "step": 2085,
      "train_runtime": 3421.5018,
      "train_tokens_per_second": 6839.336
    },
    {
      "epoch": 1.002879942401152,
      "grad_norm": 0.5927316546440125,
      "learning_rate": 3.7445564030063646e-05,
      "loss": 0.4811,
      "num_input_tokens_seen": 23456048,
      "step": 2090,
      "train_runtime": 3429.5202,
      "train_tokens_per_second": 6839.455
    },
    {
      "epoch": 1.005279894402112,
      "grad_norm": 0.5862952470779419,
      "learning_rate": 3.739104949746893e-05,
      "loss": 0.4931,
      "num_input_tokens_seen": 23511576,
      "step": 2095,
      "train_runtime": 3437.359,
      "train_tokens_per_second": 6840.012
    },
    {
      "epoch": 1.0076798464030718,
      "grad_norm": 0.8004628419876099,
      "learning_rate": 3.7336456746339e-05,
      "loss": 0.4666,
      "num_input_tokens_seen": 23567088,
      "step": 2100,
      "train_runtime": 3445.3003,
      "train_tokens_per_second": 6840.358
    },
    {
      "epoch": 1.010079798404032,
      "grad_norm": 0.5078383088111877,
      "learning_rate": 3.728178612129075e-05,
      "loss": 0.4806,
      "num_input_tokens_seen": 23626528,
      "step": 2105,
      "train_runtime": 3454.0548,
      "train_tokens_per_second": 6840.23
    },
    {
      "epoch": 1.0124797504049918,
      "grad_norm": 0.8467037081718445,
      "learning_rate": 3.722703796743267e-05,
      "loss": 0.4856,
      "num_input_tokens_seen": 23681288,
      "step": 2110,
      "train_runtime": 3462.258,
      "train_tokens_per_second": 6839.839
    },
    {
      "epoch": 1.014879702405952,
      "grad_norm": 0.6897312998771667,
      "learning_rate": 3.7172212630362627e-05,
      "loss": 0.5198,
      "num_input_tokens_seen": 23740272,
      "step": 2115,
      "train_runtime": 3470.5143,
      "train_tokens_per_second": 6840.563
    },
    {
      "epoch": 1.0172796544069118,
      "grad_norm": 0.7425886392593384,
      "learning_rate": 3.7117310456165696e-05,
      "loss": 0.5217,
      "num_input_tokens_seen": 23796168,
      "step": 2120,
      "train_runtime": 3478.8621,
      "train_tokens_per_second": 6840.216
    },
    {
      "epoch": 1.019679606407872,
      "grad_norm": 0.7550194263458252,
      "learning_rate": 3.7062331791412045e-05,
      "loss": 0.5463,
      "num_input_tokens_seen": 23852288,
      "step": 2125,
      "train_runtime": 3486.8348,
      "train_tokens_per_second": 6840.67
    },
    {
      "epoch": 1.0220795584088318,
      "grad_norm": 0.5753782391548157,
      "learning_rate": 3.700727698315463e-05,
      "loss": 0.5069,
      "num_input_tokens_seen": 23906400,
      "step": 2130,
      "train_runtime": 3494.7803,
      "train_tokens_per_second": 6840.602
    },
    {
      "epoch": 1.024479510409792,
      "grad_norm": 0.7684709429740906,
      "learning_rate": 3.6952146378927095e-05,
      "loss": 0.4976,
      "num_input_tokens_seen": 23966288,
      "step": 2135,
      "train_runtime": 3503.1065,
      "train_tokens_per_second": 6841.439
    },
    {
      "epoch": 1.0268794624107518,
      "grad_norm": 0.8290258646011353,
      "learning_rate": 3.689694032674153e-05,
      "loss": 0.4863,
      "num_input_tokens_seen": 24019784,
      "step": 2140,
      "train_runtime": 3511.9759,
      "train_tokens_per_second": 6839.393
    },
    {
      "epoch": 1.0292794144117117,
      "grad_norm": 0.5777615904808044,
      "learning_rate": 3.684165917508628e-05,
      "loss": 0.5026,
      "num_input_tokens_seen": 24075104,
      "step": 2145,
      "train_runtime": 3522.5617,
      "train_tokens_per_second": 6834.544
    },
    {
      "epoch": 1.0316793664126718,
      "grad_norm": 0.8155114650726318,
      "learning_rate": 3.678630327292381e-05,
      "loss": 0.5197,
      "num_input_tokens_seen": 24125896,
      "step": 2150,
      "train_runtime": 3530.4751,
      "train_tokens_per_second": 6833.612
    },
    {
      "epoch": 1.0340793184136317,
      "grad_norm": 0.5378252267837524,
      "learning_rate": 3.673087296968838e-05,
      "loss": 0.4873,
      "num_input_tokens_seen": 24182088,
      "step": 2155,
      "train_runtime": 3538.664,
      "train_tokens_per_second": 6833.677
    },
    {
      "epoch": 1.0364792704145918,
      "grad_norm": 0.8574205040931702,
      "learning_rate": 3.667536861528396e-05,
      "loss": 0.515,
      "num_input_tokens_seen": 24242048,
      "step": 2160,
      "train_runtime": 3547.103,
      "train_tokens_per_second": 6834.323
    },
    {
      "epoch": 1.0388792224155516,
      "grad_norm": 0.8171690106391907,
      "learning_rate": 3.661979056008191e-05,
      "loss": 0.486,
      "num_input_tokens_seen": 24294336,
      "step": 2165,
      "train_runtime": 3554.7165,
      "train_tokens_per_second": 6834.395
    },
    {
      "epoch": 1.0412791744165117,
      "grad_norm": 0.7367947101593018,
      "learning_rate": 3.6564139154918895e-05,
      "loss": 0.5121,
      "num_input_tokens_seen": 24348872,
      "step": 2170,
      "train_runtime": 3562.3935,
      "train_tokens_per_second": 6834.975
    },
    {
      "epoch": 1.0436791264174716,
      "grad_norm": 0.718895673751831,
      "learning_rate": 3.6508414751094556e-05,
      "loss": 0.5462,
      "num_input_tokens_seen": 24402136,
      "step": 2175,
      "train_runtime": 3570.1249,
      "train_tokens_per_second": 6835.093
    },
    {
      "epoch": 1.0460790784184317,
      "grad_norm": 0.7847620248794556,
      "learning_rate": 3.6452617700369345e-05,
      "loss": 0.4975,
      "num_input_tokens_seen": 24451792,
      "step": 2180,
      "train_runtime": 3577.4533,
      "train_tokens_per_second": 6834.972
    },
    {
      "epoch": 1.0484790304193916,
      "grad_norm": 0.7218212485313416,
      "learning_rate": 3.639674835496232e-05,
      "loss": 0.568,
      "num_input_tokens_seen": 24508800,
      "step": 2185,
      "train_runtime": 3585.3931,
      "train_tokens_per_second": 6835.736
    },
    {
      "epoch": 1.0508789824203515,
      "grad_norm": 0.6216446161270142,
      "learning_rate": 3.634080706754887e-05,
      "loss": 0.5024,
      "num_input_tokens_seen": 24567000,
      "step": 2190,
      "train_runtime": 3593.4867,
      "train_tokens_per_second": 6836.536
    },
    {
      "epoch": 1.0532789344213116,
      "grad_norm": 0.7098725438117981,
      "learning_rate": 3.628479419125852e-05,
      "loss": 0.5057,
      "num_input_tokens_seen": 24629752,
      "step": 2195,
      "train_runtime": 3602.2113,
      "train_tokens_per_second": 6837.398
    },
    {
      "epoch": 1.0556788864222715,
      "grad_norm": 0.7154077887535095,
      "learning_rate": 3.6228710079672734e-05,
      "loss": 0.5329,
      "num_input_tokens_seen": 24685968,
      "step": 2200,
      "train_runtime": 3610.3704,
      "train_tokens_per_second": 6837.517
    },
    {
      "epoch": 1.0580788384232316,
      "grad_norm": 0.6186597347259521,
      "learning_rate": 3.6172555086822615e-05,
      "loss": 0.5114,
      "num_input_tokens_seen": 24745552,
      "step": 2205,
      "train_runtime": 3618.4119,
      "train_tokens_per_second": 6838.788
    },
    {
      "epoch": 1.0604787904241915,
      "grad_norm": 0.7932461500167847,
      "learning_rate": 3.6116329567186724e-05,
      "loss": 0.4939,
      "num_input_tokens_seen": 24799856,
      "step": 2210,
      "train_runtime": 3626.1603,
      "train_tokens_per_second": 6839.151
    },
    {
      "epoch": 1.0628787424251516,
      "grad_norm": 0.7647953629493713,
      "learning_rate": 3.6060033875688804e-05,
      "loss": 0.5289,
      "num_input_tokens_seen": 24853952,
      "step": 2215,
      "train_runtime": 3633.6609,
      "train_tokens_per_second": 6839.921
    },
    {
      "epoch": 1.0652786944261114,
      "grad_norm": 0.722197413444519,
      "learning_rate": 3.600366836769557e-05,
      "loss": 0.5015,
      "num_input_tokens_seen": 24911328,
      "step": 2220,
      "train_runtime": 3641.5303,
      "train_tokens_per_second": 6840.895
    },
    {
      "epoch": 1.0676786464270716,
      "grad_norm": 0.9403772354125977,
      "learning_rate": 3.5947233399014444e-05,
      "loss": 0.4982,
      "num_input_tokens_seen": 24967496,
      "step": 2225,
      "train_runtime": 3649.8212,
      "train_tokens_per_second": 6840.745
    },
    {
      "epoch": 1.0700785984280314,
      "grad_norm": 0.5855931639671326,
      "learning_rate": 3.589072932589134e-05,
      "loss": 0.4706,
      "num_input_tokens_seen": 25028408,
      "step": 2230,
      "train_runtime": 3658.1326,
      "train_tokens_per_second": 6841.854
    },
    {
      "epoch": 1.0724785504289913,
      "grad_norm": 0.7537211179733276,
      "learning_rate": 3.583415650500837e-05,
      "loss": 0.5351,
      "num_input_tokens_seen": 25082672,
      "step": 2235,
      "train_runtime": 3665.8181,
      "train_tokens_per_second": 6842.312
    },
    {
      "epoch": 1.0748785024299514,
      "grad_norm": 0.7052933573722839,
      "learning_rate": 3.577751529348163e-05,
      "loss": 0.5137,
      "num_input_tokens_seen": 25138272,
      "step": 2240,
      "train_runtime": 3673.8839,
      "train_tokens_per_second": 6842.424
    },
    {
      "epoch": 1.0772784544309113,
      "grad_norm": 0.6160354614257812,
      "learning_rate": 3.572080604885894e-05,
      "loss": 0.4984,
      "num_input_tokens_seen": 25198880,
      "step": 2245,
      "train_runtime": 3682.6208,
      "train_tokens_per_second": 6842.649
    },
    {
      "epoch": 1.0796784064318714,
      "grad_norm": 0.7151322960853577,
      "learning_rate": 3.566402912911755e-05,
      "loss": 0.4745,
      "num_input_tokens_seen": 25255672,
      "step": 2250,
      "train_runtime": 3691.127,
      "train_tokens_per_second": 6842.266
    },
    {
      "epoch": 1.0820783584328313,
      "grad_norm": 0.6750310063362122,
      "learning_rate": 3.560718489266194e-05,
      "loss": 0.4705,
      "num_input_tokens_seen": 25310096,
      "step": 2255,
      "train_runtime": 3698.9218,
      "train_tokens_per_second": 6842.561
    },
    {
      "epoch": 1.0844783104337914,
      "grad_norm": 0.7280714511871338,
      "learning_rate": 3.555027369832151e-05,
      "loss": 0.529,
      "num_input_tokens_seen": 25365416,
      "step": 2260,
      "train_runtime": 3706.9184,
      "train_tokens_per_second": 6842.723
    },
    {
      "epoch": 1.0868782624347513,
      "grad_norm": 0.7498377561569214,
      "learning_rate": 3.5493295905348334e-05,
      "loss": 0.4974,
      "num_input_tokens_seen": 25421480,
      "step": 2265,
      "train_runtime": 3715.1661,
      "train_tokens_per_second": 6842.623
    },
    {
      "epoch": 1.0892782144357114,
      "grad_norm": 0.7328541874885559,
      "learning_rate": 3.54362518734149e-05,
      "loss": 0.4618,
      "num_input_tokens_seen": 25482160,
      "step": 2270,
      "train_runtime": 3723.7211,
      "train_tokens_per_second": 6843.198
    },
    {
      "epoch": 1.0916781664366713,
      "grad_norm": 0.6172477006912231,
      "learning_rate": 3.537914196261181e-05,
      "loss": 0.5266,
      "num_input_tokens_seen": 25538416,
      "step": 2275,
      "train_runtime": 3731.9378,
      "train_tokens_per_second": 6843.205
    },
    {
      "epoch": 1.0940781184376314,
      "grad_norm": 0.5969734191894531,
      "learning_rate": 3.5321966533445547e-05,
      "loss": 0.5244,
      "num_input_tokens_seen": 25594328,
      "step": 2280,
      "train_runtime": 3739.9474,
      "train_tokens_per_second": 6843.499
    },
    {
      "epoch": 1.0964780704385912,
      "grad_norm": 0.9102872610092163,
      "learning_rate": 3.526472594683617e-05,
      "loss": 0.5011,
      "num_input_tokens_seen": 25647608,
      "step": 2285,
      "train_runtime": 3747.8696,
      "train_tokens_per_second": 6843.25
    },
    {
      "epoch": 1.0988780224395511,
      "grad_norm": 0.7734837532043457,
      "learning_rate": 3.5207420564115045e-05,
      "loss": 0.5229,
      "num_input_tokens_seen": 25702960,
      "step": 2290,
      "train_runtime": 3755.5877,
      "train_tokens_per_second": 6843.925
    },
    {
      "epoch": 1.1012779744405112,
      "grad_norm": 0.6865848898887634,
      "learning_rate": 3.515005074702256e-05,
      "loss": 0.5035,
      "num_input_tokens_seen": 25758120,
      "step": 2295,
      "train_runtime": 3763.673,
      "train_tokens_per_second": 6843.878
    },
    {
      "epoch": 1.1036779264414711,
      "grad_norm": 0.6671602129936218,
      "learning_rate": 3.509261685770585e-05,
      "loss": 0.4939,
      "num_input_tokens_seen": 25817024,
      "step": 2300,
      "train_runtime": 3772.0902,
      "train_tokens_per_second": 6844.222
    },
    {
      "epoch": 1.1060778784424312,
      "grad_norm": 0.6217396855354309,
      "learning_rate": 3.5035119258716495e-05,
      "loss": 0.5389,
      "num_input_tokens_seen": 25876744,
      "step": 2305,
      "train_runtime": 3780.9145,
      "train_tokens_per_second": 6844.044
    },
    {
      "epoch": 1.108477830443391,
      "grad_norm": 0.7444595098495483,
      "learning_rate": 3.497755831300828e-05,
      "loss": 0.49,
      "num_input_tokens_seen": 25928600,
      "step": 2310,
      "train_runtime": 3788.9853,
      "train_tokens_per_second": 6843.151
    },
    {
      "epoch": 1.1108777824443512,
      "grad_norm": 0.6591025590896606,
      "learning_rate": 3.491993438393481e-05,
      "loss": 0.4658,
      "num_input_tokens_seen": 25985192,
      "step": 2315,
      "train_runtime": 3797.2779,
      "train_tokens_per_second": 6843.11
    },
    {
      "epoch": 1.113277734445311,
      "grad_norm": 0.7887580394744873,
      "learning_rate": 3.486224783524731e-05,
      "loss": 0.5464,
      "num_input_tokens_seen": 26040520,
      "step": 2320,
      "train_runtime": 3804.9274,
      "train_tokens_per_second": 6843.894
    },
    {
      "epoch": 1.1156776864462712,
      "grad_norm": 0.8074533939361572,
      "learning_rate": 3.480449903109229e-05,
      "loss": 0.5227,
      "num_input_tokens_seen": 26093336,
      "step": 2325,
      "train_runtime": 3812.5053,
      "train_tokens_per_second": 6844.144
    },
    {
      "epoch": 1.118077638447231,
      "grad_norm": 0.7056359648704529,
      "learning_rate": 3.474668833600923e-05,
      "loss": 0.4759,
      "num_input_tokens_seen": 26148320,
      "step": 2330,
      "train_runtime": 3820.6134,
      "train_tokens_per_second": 6844.011
    },
    {
      "epoch": 1.120477590448191,
      "grad_norm": 0.841861367225647,
      "learning_rate": 3.4688816114928327e-05,
      "loss": 0.5181,
      "num_input_tokens_seen": 26206080,
      "step": 2335,
      "train_runtime": 3828.5922,
      "train_tokens_per_second": 6844.835
    },
    {
      "epoch": 1.122877542449151,
      "grad_norm": 0.6521568298339844,
      "learning_rate": 3.4630882733168116e-05,
      "loss": 0.4938,
      "num_input_tokens_seen": 26262688,
      "step": 2340,
      "train_runtime": 3836.5264,
      "train_tokens_per_second": 6845.434
    },
    {
      "epoch": 1.125277494450111,
      "grad_norm": 0.7665443420410156,
      "learning_rate": 3.4572888556433246e-05,
      "loss": 0.4681,
      "num_input_tokens_seen": 26321160,
      "step": 2345,
      "train_runtime": 3844.9857,
      "train_tokens_per_second": 6845.581
    },
    {
      "epoch": 1.127677446451071,
      "grad_norm": 0.616336464881897,
      "learning_rate": 3.451483395081212e-05,
      "loss": 0.4631,
      "num_input_tokens_seen": 26378192,
      "step": 2350,
      "train_runtime": 3853.2119,
      "train_tokens_per_second": 6845.767
    },
    {
      "epoch": 1.130077398452031,
      "grad_norm": 0.6478726863861084,
      "learning_rate": 3.445671928277461e-05,
      "loss": 0.4676,
      "num_input_tokens_seen": 26430848,
      "step": 2355,
      "train_runtime": 3861.022,
      "train_tokens_per_second": 6845.558
    },
    {
      "epoch": 1.132477350452991,
      "grad_norm": 0.6371597647666931,
      "learning_rate": 3.4398544919169715e-05,
      "loss": 0.4904,
      "num_input_tokens_seen": 26489064,
      "step": 2360,
      "train_runtime": 3868.9291,
      "train_tokens_per_second": 6846.614
    },
    {
      "epoch": 1.134877302453951,
      "grad_norm": 0.6929451823234558,
      "learning_rate": 3.4340311227223273e-05,
      "loss": 0.5352,
      "num_input_tokens_seen": 26543528,
      "step": 2365,
      "train_runtime": 3877.0017,
      "train_tokens_per_second": 6846.406
    },
    {
      "epoch": 1.137277254454911,
      "grad_norm": 0.9073979258537292,
      "learning_rate": 3.428201857453562e-05,
      "loss": 0.5051,
      "num_input_tokens_seen": 26596928,
      "step": 2370,
      "train_runtime": 3884.7443,
      "train_tokens_per_second": 6846.507
    },
    {
      "epoch": 1.139677206455871,
      "grad_norm": 0.7150000929832458,
      "learning_rate": 3.422366732907931e-05,
      "loss": 0.4361,
      "num_input_tokens_seen": 26654072,
      "step": 2375,
      "train_runtime": 3893.2295,
      "train_tokens_per_second": 6846.263
    },
    {
      "epoch": 1.1420771584568308,
      "grad_norm": 0.6671944260597229,
      "learning_rate": 3.416525785919673e-05,
      "loss": 0.488,
      "num_input_tokens_seen": 26707464,
      "step": 2380,
      "train_runtime": 3901.0068,
      "train_tokens_per_second": 6846.3
    },
    {
      "epoch": 1.1444771104577909,
      "grad_norm": 0.585337221622467,
      "learning_rate": 3.410679053359784e-05,
      "loss": 0.4326,
      "num_input_tokens_seen": 26766704,
      "step": 2385,
      "train_runtime": 3909.5898,
      "train_tokens_per_second": 6846.423
    },
    {
      "epoch": 1.1468770624587508,
      "grad_norm": 0.5534717440605164,
      "learning_rate": 3.404826572135779e-05,
      "loss": 0.4831,
      "num_input_tokens_seen": 26826328,
      "step": 2390,
      "train_runtime": 3918.5924,
      "train_tokens_per_second": 6845.909
    },
    {
      "epoch": 1.1492770144597109,
      "grad_norm": 0.5429486632347107,
      "learning_rate": 3.398968379191462e-05,
      "loss": 0.4909,
      "num_input_tokens_seen": 26880888,
      "step": 2395,
      "train_runtime": 3926.453,
      "train_tokens_per_second": 6846.099
    },
    {
      "epoch": 1.1516769664606707,
      "grad_norm": 0.8771390914916992,
      "learning_rate": 3.393104511506694e-05,
      "loss": 0.4903,
      "num_input_tokens_seen": 26937800,
      "step": 2400,
      "train_runtime": 3934.3502,
      "train_tokens_per_second": 6846.823
    },
    {
      "epoch": 1.1540769184616309,
      "grad_norm": 0.7701951861381531,
      "learning_rate": 3.387235006097155e-05,
      "loss": 0.4994,
      "num_input_tokens_seen": 26993776,
      "step": 2405,
      "train_runtime": 3942.0785,
      "train_tokens_per_second": 6847.6
    },
    {
      "epoch": 1.1564768704625907,
      "grad_norm": 0.5495705008506775,
      "learning_rate": 3.381359900014116e-05,
      "loss": 0.4745,
      "num_input_tokens_seen": 27053440,
      "step": 2410,
      "train_runtime": 3950.7471,
      "train_tokens_per_second": 6847.677
    },
    {
      "epoch": 1.1588768224635508,
      "grad_norm": 0.7725142240524292,
      "learning_rate": 3.375479230344199e-05,
      "loss": 0.5404,
      "num_input_tokens_seen": 27104744,
      "step": 2415,
      "train_runtime": 3958.6488,
      "train_tokens_per_second": 6846.969
    },
    {
      "epoch": 1.1612767744645107,
      "grad_norm": 1.0459918975830078,
      "learning_rate": 3.369593034209149e-05,
      "loss": 0.5069,
      "num_input_tokens_seen": 27159864,
      "step": 2420,
      "train_runtime": 3967.0288,
      "train_tokens_per_second": 6846.4
    },
    {
      "epoch": 1.1636767264654706,
      "grad_norm": 0.6602296829223633,
      "learning_rate": 3.363701348765597e-05,
      "loss": 0.4541,
      "num_input_tokens_seen": 27219344,
      "step": 2425,
      "train_runtime": 3976.0119,
      "train_tokens_per_second": 6845.891
    },
    {
      "epoch": 1.1660766784664307,
      "grad_norm": 0.5902988910675049,
      "learning_rate": 3.3578042112048226e-05,
      "loss": 0.4447,
      "num_input_tokens_seen": 27279536,
      "step": 2430,
      "train_runtime": 3984.8836,
      "train_tokens_per_second": 6845.755
    },
    {
      "epoch": 1.1684766304673906,
      "grad_norm": 0.9325588941574097,
      "learning_rate": 3.351901658752524e-05,
      "loss": 0.5227,
      "num_input_tokens_seen": 27336160,
      "step": 2435,
      "train_runtime": 3992.8679,
      "train_tokens_per_second": 6846.247
    },
    {
      "epoch": 1.1708765824683507,
      "grad_norm": 0.6601638793945312,
      "learning_rate": 3.34599372866858e-05,
      "loss": 0.4813,
      "num_input_tokens_seen": 27393304,
      "step": 2440,
      "train_runtime": 4001.2293,
      "train_tokens_per_second": 6846.222
    },
    {
      "epoch": 1.1732765344693106,
      "grad_norm": 0.8339878916740417,
      "learning_rate": 3.3400804582468154e-05,
      "loss": 0.5101,
      "num_input_tokens_seen": 27444632,
      "step": 2445,
      "train_runtime": 4008.6642,
      "train_tokens_per_second": 6846.329
    },
    {
      "epoch": 1.1756764864702707,
      "grad_norm": 0.8969867825508118,
      "learning_rate": 3.334161884814769e-05,
      "loss": 0.4709,
      "num_input_tokens_seen": 27502576,
      "step": 2450,
      "train_runtime": 4016.7436,
      "train_tokens_per_second": 6846.983
    },
    {
      "epoch": 1.1780764384712306,
      "grad_norm": 0.8373593091964722,
      "learning_rate": 3.3282380457334505e-05,
      "loss": 0.5498,
      "num_input_tokens_seen": 27559352,
      "step": 2455,
      "train_runtime": 4024.9244,
      "train_tokens_per_second": 6847.173
    },
    {
      "epoch": 1.1804763904721907,
      "grad_norm": 0.8110735416412354,
      "learning_rate": 3.3223089783971114e-05,
      "loss": 0.507,
      "num_input_tokens_seen": 27615472,
      "step": 2460,
      "train_runtime": 4032.7198,
      "train_tokens_per_second": 6847.853
    },
    {
      "epoch": 1.1828763424731505,
      "grad_norm": 0.7023930549621582,
      "learning_rate": 3.3163747202330066e-05,
      "loss": 0.498,
      "num_input_tokens_seen": 27671096,
      "step": 2465,
      "train_runtime": 4040.3448,
      "train_tokens_per_second": 6848.697
    },
    {
      "epoch": 1.1852762944741104,
      "grad_norm": 0.783581554889679,
      "learning_rate": 3.310435308701156e-05,
      "loss": 0.5188,
      "num_input_tokens_seen": 27722512,
      "step": 2470,
      "train_runtime": 4048.0115,
      "train_tokens_per_second": 6848.427
    },
    {
      "epoch": 1.1876762464750705,
      "grad_norm": 0.7718804478645325,
      "learning_rate": 3.304490781294114e-05,
      "loss": 0.4861,
      "num_input_tokens_seen": 27778280,
      "step": 2475,
      "train_runtime": 4055.8209,
      "train_tokens_per_second": 6848.991
    },
    {
      "epoch": 1.1900761984760304,
      "grad_norm": 0.5067981481552124,
      "learning_rate": 3.2985411755367246e-05,
      "loss": 0.4792,
      "num_input_tokens_seen": 27839424,
      "step": 2480,
      "train_runtime": 4064.5853,
      "train_tokens_per_second": 6849.266
    },
    {
      "epoch": 1.1924761504769905,
      "grad_norm": 0.7346833348274231,
      "learning_rate": 3.292586528985894e-05,
      "loss": 0.4599,
      "num_input_tokens_seen": 27894440,
      "step": 2485,
      "train_runtime": 4072.5002,
      "train_tokens_per_second": 6849.463
    },
    {
      "epoch": 1.1948761024779504,
      "grad_norm": 0.5885698199272156,
      "learning_rate": 3.2866268792303424e-05,
      "loss": 0.4936,
      "num_input_tokens_seen": 27959096,
      "step": 2490,
      "train_runtime": 4082.1306,
      "train_tokens_per_second": 6849.143
    },
    {
      "epoch": 1.1972760544789105,
      "grad_norm": 0.5944679975509644,
      "learning_rate": 3.2806622638903764e-05,
      "loss": 0.5008,
      "num_input_tokens_seen": 28010352,
      "step": 2495,
      "train_runtime": 4089.5284,
      "train_tokens_per_second": 6849.287
    },
    {
      "epoch": 1.1996760064798704,
      "grad_norm": 0.7197619080543518,
      "learning_rate": 3.274692720617649e-05,
      "loss": 0.5232,
      "num_input_tokens_seen": 28067424,
      "step": 2500,
      "train_runtime": 4098.1617,
      "train_tokens_per_second": 6848.784
    },
    {
      "epoch": 1.2020759584808305,
      "grad_norm": 0.71132493019104,
      "learning_rate": 3.2687182870949185e-05,
      "loss": 0.4749,
      "num_input_tokens_seen": 28126704,
      "step": 2505,
      "train_runtime": 4106.4308,
      "train_tokens_per_second": 6849.428
    },
    {
      "epoch": 1.2044759104817904,
      "grad_norm": 0.7117146849632263,
      "learning_rate": 3.2627390010358133e-05,
      "loss": 0.4965,
      "num_input_tokens_seen": 28184072,
      "step": 2510,
      "train_runtime": 4114.8063,
      "train_tokens_per_second": 6849.429
    },
    {
      "epoch": 1.2068758624827503,
      "grad_norm": 0.7712971568107605,
      "learning_rate": 3.256754900184593e-05,
      "loss": 0.489,
      "num_input_tokens_seen": 28237608,
      "step": 2515,
      "train_runtime": 4122.4987,
      "train_tokens_per_second": 6849.634
    },
    {
      "epoch": 1.2092758144837104,
      "grad_norm": 0.843129575252533,
      "learning_rate": 3.2507660223159115e-05,
      "loss": 0.449,
      "num_input_tokens_seen": 28299544,
      "step": 2520,
      "train_runtime": 4131.2681,
      "train_tokens_per_second": 6850.086
    },
    {
      "epoch": 1.2116757664846702,
      "grad_norm": 0.6665219068527222,
      "learning_rate": 3.2447724052345786e-05,
      "loss": 0.4269,
      "num_input_tokens_seen": 28357640,
      "step": 2525,
      "train_runtime": 4139.6319,
      "train_tokens_per_second": 6850.281
    },
    {
      "epoch": 1.2140757184856303,
      "grad_norm": 0.7961658835411072,
      "learning_rate": 3.238774086775317e-05,
      "loss": 0.4937,
      "num_input_tokens_seen": 28411848,
      "step": 2530,
      "train_runtime": 4147.578,
      "train_tokens_per_second": 6850.226
    },
    {
      "epoch": 1.2164756704865902,
      "grad_norm": 0.7647880911827087,
      "learning_rate": 3.2327711048025314e-05,
      "loss": 0.473,
      "num_input_tokens_seen": 28465072,
      "step": 2535,
      "train_runtime": 4155.7446,
      "train_tokens_per_second": 6849.572
    },
    {
      "epoch": 1.2188756224875503,
      "grad_norm": 0.7645636796951294,
      "learning_rate": 3.226763497210061e-05,
      "loss": 0.5217,
      "num_input_tokens_seen": 28513584,
      "step": 2540,
      "train_runtime": 4162.7633,
      "train_tokens_per_second": 6849.677
    },
    {
      "epoch": 1.2212755744885102,
      "grad_norm": 0.9397866725921631,
      "learning_rate": 3.2207513019209455e-05,
      "loss": 0.5058,
      "num_input_tokens_seen": 28569888,
      "step": 2545,
      "train_runtime": 4170.8063,
      "train_tokens_per_second": 6849.968
    },
    {
      "epoch": 1.2236755264894703,
      "grad_norm": 0.8510188460350037,
      "learning_rate": 3.2147345568871874e-05,
      "loss": 0.4699,
      "num_input_tokens_seen": 28623888,
      "step": 2550,
      "train_runtime": 4178.6198,
      "train_tokens_per_second": 6850.082
    },
    {
      "epoch": 1.2260754784904302,
      "grad_norm": 0.7524721622467041,
      "learning_rate": 3.208713300089504e-05,
      "loss": 0.4585,
      "num_input_tokens_seen": 28680088,
      "step": 2555,
      "train_runtime": 4187.0852,
      "train_tokens_per_second": 6849.655
    },
    {
      "epoch": 1.22847543049139,
      "grad_norm": 0.6238115429878235,
      "learning_rate": 3.2026875695370975e-05,
      "loss": 0.4872,
      "num_input_tokens_seen": 28733184,
      "step": 2560,
      "train_runtime": 4194.4934,
      "train_tokens_per_second": 6850.216
    },
    {
      "epoch": 1.2308753824923502,
      "grad_norm": 0.8195456862449646,
      "learning_rate": 3.1966574032674074e-05,
      "loss": 0.5134,
      "num_input_tokens_seen": 28787400,
      "step": 2565,
      "train_runtime": 4202.0819,
      "train_tokens_per_second": 6850.747
    },
    {
      "epoch": 1.23327533449331,
      "grad_norm": 0.7062321305274963,
      "learning_rate": 3.190622839345878e-05,
      "loss": 0.4758,
      "num_input_tokens_seen": 28840944,
      "step": 2570,
      "train_runtime": 4209.9012,
      "train_tokens_per_second": 6850.741
    },
    {
      "epoch": 1.2356752864942702,
      "grad_norm": 0.6290914416313171,
      "learning_rate": 3.184583915865709e-05,
      "loss": 0.5343,
      "num_input_tokens_seen": 28893352,
      "step": 2575,
      "train_runtime": 4217.2229,
      "train_tokens_per_second": 6851.275
    },
    {
      "epoch": 1.23807523849523,
      "grad_norm": 0.6599912643432617,
      "learning_rate": 3.178540670947624e-05,
      "loss": 0.4822,
      "num_input_tokens_seen": 28952544,
      "step": 2580,
      "train_runtime": 4225.8796,
      "train_tokens_per_second": 6851.247
    },
    {
      "epoch": 1.2404751904961901,
      "grad_norm": 0.6899898052215576,
      "learning_rate": 3.172493142739622e-05,
      "loss": 0.4529,
      "num_input_tokens_seen": 29007344,
      "step": 2585,
      "train_runtime": 4233.7269,
      "train_tokens_per_second": 6851.492
    },
    {
      "epoch": 1.24287514249715,
      "grad_norm": 0.8615679144859314,
      "learning_rate": 3.1664413694167424e-05,
      "loss": 0.5018,
      "num_input_tokens_seen": 29065880,
      "step": 2590,
      "train_runtime": 4242.1314,
      "train_tokens_per_second": 6851.716
    },
    {
      "epoch": 1.2452750944981101,
      "grad_norm": 0.829759955406189,
      "learning_rate": 3.160385389180822e-05,
      "loss": 0.5014,
      "num_input_tokens_seen": 29120600,
      "step": 2595,
      "train_runtime": 4250.6385,
      "train_tokens_per_second": 6850.877
    },
    {
      "epoch": 1.24767504649907,
      "grad_norm": 1.099179744720459,
      "learning_rate": 3.154325240260254e-05,
      "loss": 0.4823,
      "num_input_tokens_seen": 29174832,
      "step": 2600,
      "train_runtime": 4258.7641,
      "train_tokens_per_second": 6850.54
    },
    {
      "epoch": 1.25007499850003,
      "grad_norm": 0.7731813788414001,
      "learning_rate": 3.148260960909745e-05,
      "loss": 0.4527,
      "num_input_tokens_seen": 29228680,
      "step": 2605,
      "train_runtime": 4266.7683,
      "train_tokens_per_second": 6850.309
    },
    {
      "epoch": 1.25247495050099,
      "grad_norm": 0.7874563336372375,
      "learning_rate": 3.1421925894100745e-05,
      "loss": 0.5152,
      "num_input_tokens_seen": 29282976,
      "step": 2610,
      "train_runtime": 4274.5977,
      "train_tokens_per_second": 6850.464
    },
    {
      "epoch": 1.2548749025019499,
      "grad_norm": 0.6936095952987671,
      "learning_rate": 3.1361201640678554e-05,
      "loss": 0.5055,
      "num_input_tokens_seen": 29337384,
      "step": 2615,
      "train_runtime": 4282.725,
      "train_tokens_per_second": 6850.168
    },
    {
      "epoch": 1.25727485450291,
      "grad_norm": 0.8180893063545227,
      "learning_rate": 3.130043723215291e-05,
      "loss": 0.4808,
      "num_input_tokens_seen": 29398256,
      "step": 2620,
      "train_runtime": 4291.6094,
      "train_tokens_per_second": 6850.17
    },
    {
      "epoch": 1.2596748065038699,
      "grad_norm": 0.7401306629180908,
      "learning_rate": 3.123963305209932e-05,
      "loss": 0.5101,
      "num_input_tokens_seen": 29455288,
      "step": 2625,
      "train_runtime": 4299.6287,
      "train_tokens_per_second": 6850.659
    },
    {
      "epoch": 1.26207475850483,
      "grad_norm": 0.7376925349235535,
      "learning_rate": 3.1178789484344326e-05,
      "loss": 0.468,
      "num_input_tokens_seen": 29513208,
      "step": 2630,
      "train_runtime": 4308.0487,
      "train_tokens_per_second": 6850.714
    },
    {
      "epoch": 1.2644747105057899,
      "grad_norm": 0.7442266345024109,
      "learning_rate": 3.1117906912963124e-05,
      "loss": 0.5214,
      "num_input_tokens_seen": 29566424,
      "step": 2635,
      "train_runtime": 4315.7814,
      "train_tokens_per_second": 6850.77
    },
    {
      "epoch": 1.26687466250675,
      "grad_norm": 0.7198356986045837,
      "learning_rate": 3.105698572227712e-05,
      "loss": 0.5059,
      "num_input_tokens_seen": 29621112,
      "step": 2640,
      "train_runtime": 4324.1308,
      "train_tokens_per_second": 6850.189
    },
    {
      "epoch": 1.2692746145077098,
      "grad_norm": 0.6759196519851685,
      "learning_rate": 3.0996026296851516e-05,
      "loss": 0.4705,
      "num_input_tokens_seen": 29672896,
      "step": 2645,
      "train_runtime": 4331.5888,
      "train_tokens_per_second": 6850.349
    },
    {
      "epoch": 1.2716745665086697,
      "grad_norm": 0.659756600856781,
      "learning_rate": 3.093502902149285e-05,
      "loss": 0.4753,
      "num_input_tokens_seen": 29724344,
      "step": 2650,
      "train_runtime": 4339.2532,
      "train_tokens_per_second": 6850.106
    },
    {
      "epoch": 1.2740745185096298,
      "grad_norm": 0.7627817988395691,
      "learning_rate": 3.087399428124659e-05,
      "loss": 0.5218,
      "num_input_tokens_seen": 29779744,
      "step": 2655,
      "train_runtime": 4347.2112,
      "train_tokens_per_second": 6850.31
    },
    {
      "epoch": 1.2764744705105897,
      "grad_norm": 0.5417824387550354,
      "learning_rate": 3.081292246139473e-05,
      "loss": 0.4784,
      "num_input_tokens_seen": 29834824,
      "step": 2660,
      "train_runtime": 4355.3061,
      "train_tokens_per_second": 6850.224
    },
    {
      "epoch": 1.2788744225115498,
      "grad_norm": 0.7506272792816162,
      "learning_rate": 3.0751813947453265e-05,
      "loss": 0.4886,
      "num_input_tokens_seen": 29890520,
      "step": 2665,
      "train_runtime": 4362.9276,
      "train_tokens_per_second": 6851.024
    },
    {
      "epoch": 1.2812743745125097,
      "grad_norm": 0.6071366667747498,
      "learning_rate": 3.069066912516991e-05,
      "loss": 0.5277,
      "num_input_tokens_seen": 29945288,
      "step": 2670,
      "train_runtime": 4370.6908,
      "train_tokens_per_second": 6851.386
    },
    {
      "epoch": 1.2836743265134698,
      "grad_norm": 0.7744503021240234,
      "learning_rate": 3.0629488380521504e-05,
      "loss": 0.5158,
      "num_input_tokens_seen": 30001032,
      "step": 2675,
      "train_runtime": 4378.8355,
      "train_tokens_per_second": 6851.372
    },
    {
      "epoch": 1.2860742785144297,
      "grad_norm": 0.4839749336242676,
      "learning_rate": 3.056827209971167e-05,
      "loss": 0.5022,
      "num_input_tokens_seen": 30057416,
      "step": 2680,
      "train_runtime": 4387.5074,
      "train_tokens_per_second": 6850.682
    },
    {
      "epoch": 1.2884742305153898,
      "grad_norm": 0.5500566363334656,
      "learning_rate": 3.0507020669168367e-05,
      "loss": 0.4875,
      "num_input_tokens_seen": 30113512,
      "step": 2685,
      "train_runtime": 4395.5794,
      "train_tokens_per_second": 6850.863
    },
    {
      "epoch": 1.2908741825163497,
      "grad_norm": 0.7816157341003418,
      "learning_rate": 3.044573447554141e-05,
      "loss": 0.4872,
      "num_input_tokens_seen": 30171064,
      "step": 2690,
      "train_runtime": 4404.1038,
      "train_tokens_per_second": 6850.671
    },
    {
      "epoch": 1.2932741345173095,
      "grad_norm": 0.6968929767608643,
      "learning_rate": 3.038441390570008e-05,
      "loss": 0.4715,
      "num_input_tokens_seen": 30226872,
      "step": 2695,
      "train_runtime": 4412.2507,
      "train_tokens_per_second": 6850.67
    },
    {
      "epoch": 1.2956740865182697,
      "grad_norm": 0.8923588395118713,
      "learning_rate": 3.0323059346730666e-05,
      "loss": 0.5249,
      "num_input_tokens_seen": 30281784,
      "step": 2700,
      "train_runtime": 4420.3662,
      "train_tokens_per_second": 6850.515
    },
    {
      "epoch": 1.2980740385192295,
      "grad_norm": 0.9175417423248291,
      "learning_rate": 3.026167118593396e-05,
      "loss": 0.5334,
      "num_input_tokens_seen": 30336824,
      "step": 2705,
      "train_runtime": 4428.4152,
      "train_tokens_per_second": 6850.492
    },
    {
      "epoch": 1.3004739905201896,
      "grad_norm": 0.5945408344268799,
      "learning_rate": 3.0200249810822922e-05,
      "loss": 0.4795,
      "num_input_tokens_seen": 30391968,
      "step": 2710,
      "train_runtime": 4436.7566,
      "train_tokens_per_second": 6850.042
    },
    {
      "epoch": 1.3028739425211495,
      "grad_norm": 0.6741787195205688,
      "learning_rate": 3.0138795609120156e-05,
      "loss": 0.5054,
      "num_input_tokens_seen": 30448056,
      "step": 2715,
      "train_runtime": 4445.0926,
      "train_tokens_per_second": 6849.814
    },
    {
      "epoch": 1.3052738945221096,
      "grad_norm": 0.7565773129463196,
      "learning_rate": 3.0077308968755484e-05,
      "loss": 0.4871,
      "num_input_tokens_seen": 30509528,
      "step": 2720,
      "train_runtime": 4454.1899,
      "train_tokens_per_second": 6849.624
    },
    {
      "epoch": 1.3076738465230695,
      "grad_norm": 0.7174657583236694,
      "learning_rate": 3.0015790277863504e-05,
      "loss": 0.5235,
      "num_input_tokens_seen": 30564064,
      "step": 2725,
      "train_runtime": 4462.4576,
      "train_tokens_per_second": 6849.155
    },
    {
      "epoch": 1.3100737985240296,
      "grad_norm": 0.808497965335846,
      "learning_rate": 2.9954239924781114e-05,
      "loss": 0.5481,
      "num_input_tokens_seen": 30617256,
      "step": 2730,
      "train_runtime": 4469.9742,
      "train_tokens_per_second": 6849.538
    },
    {
      "epoch": 1.3124737505249895,
      "grad_norm": 0.7192595601081848,
      "learning_rate": 2.9892658298045105e-05,
      "loss": 0.4882,
      "num_input_tokens_seen": 30676776,
      "step": 2735,
      "train_runtime": 4478.1351,
      "train_tokens_per_second": 6850.346
    },
    {
      "epoch": 1.3148737025259494,
      "grad_norm": 0.7198320627212524,
      "learning_rate": 2.983104578638966e-05,
      "loss": 0.5133,
      "num_input_tokens_seen": 30729600,
      "step": 2740,
      "train_runtime": 4486.2754,
      "train_tokens_per_second": 6849.691
    },
    {
      "epoch": 1.3172736545269095,
      "grad_norm": 0.6649105548858643,
      "learning_rate": 2.976940277874395e-05,
      "loss": 0.4772,
      "num_input_tokens_seen": 30786720,
      "step": 2745,
      "train_runtime": 4494.0586,
      "train_tokens_per_second": 6850.538
    },
    {
      "epoch": 1.3196736065278696,
      "grad_norm": 0.8715736269950867,
      "learning_rate": 2.9707729664229623e-05,
      "loss": 0.5323,
      "num_input_tokens_seen": 30844488,
      "step": 2750,
      "train_runtime": 4502.1358,
      "train_tokens_per_second": 6851.079
    },
    {
      "epoch": 1.3220735585288295,
      "grad_norm": 0.7848823666572571,
      "learning_rate": 2.964602683215839e-05,
      "loss": 0.5318,
      "num_input_tokens_seen": 30901200,
      "step": 2755,
      "train_runtime": 4510.5455,
      "train_tokens_per_second": 6850.879
    },
    {
      "epoch": 1.3244735105297893,
      "grad_norm": 0.5609360337257385,
      "learning_rate": 2.958429467202956e-05,
      "loss": 0.4453,
      "num_input_tokens_seen": 30957496,
      "step": 2760,
      "train_runtime": 4519.3334,
      "train_tokens_per_second": 6850.014
    },
    {
      "epoch": 1.3268734625307494,
      "grad_norm": 0.8397387266159058,
      "learning_rate": 2.9522533573527568e-05,
      "loss": 0.4547,
      "num_input_tokens_seen": 31014440,
      "step": 2765,
      "train_runtime": 4527.735,
      "train_tokens_per_second": 6849.88
    },
    {
      "epoch": 1.3292734145317093,
      "grad_norm": 0.883388340473175,
      "learning_rate": 2.9460743926519524e-05,
      "loss": 0.4866,
      "num_input_tokens_seen": 31069232,
      "step": 2770,
      "train_runtime": 4535.7952,
      "train_tokens_per_second": 6849.787
    },
    {
      "epoch": 1.3316733665326694,
      "grad_norm": 0.6454315185546875,
      "learning_rate": 2.9398926121052757e-05,
      "loss": 0.4363,
      "num_input_tokens_seen": 31124192,
      "step": 2775,
      "train_runtime": 4543.7024,
      "train_tokens_per_second": 6849.963
    },
    {
      "epoch": 1.3340733185336293,
      "grad_norm": 0.8647413849830627,
      "learning_rate": 2.933708054735232e-05,
      "loss": 0.5387,
      "num_input_tokens_seen": 31181208,
      "step": 2780,
      "train_runtime": 4551.829,
      "train_tokens_per_second": 6850.259
    },
    {
      "epoch": 1.3364732705345892,
      "grad_norm": 0.8238906860351562,
      "learning_rate": 2.9275207595818587e-05,
      "loss": 0.4733,
      "num_input_tokens_seen": 31238792,
      "step": 2785,
      "train_runtime": 4560.1671,
      "train_tokens_per_second": 6850.361
    },
    {
      "epoch": 1.3388732225355493,
      "grad_norm": 0.8096624612808228,
      "learning_rate": 2.9213307657024747e-05,
      "loss": 0.4498,
      "num_input_tokens_seen": 31293408,
      "step": 2790,
      "train_runtime": 4568.3465,
      "train_tokens_per_second": 6850.051
    },
    {
      "epoch": 1.3412731745365094,
      "grad_norm": 0.6373225450515747,
      "learning_rate": 2.9151381121714326e-05,
      "loss": 0.4626,
      "num_input_tokens_seen": 31351360,
      "step": 2795,
      "train_runtime": 4576.4713,
      "train_tokens_per_second": 6850.553
    },
    {
      "epoch": 1.3436731265374693,
      "grad_norm": 0.9298360347747803,
      "learning_rate": 2.9089428380798765e-05,
      "loss": 0.5147,
      "num_input_tokens_seen": 31408064,
      "step": 2800,
      "train_runtime": 4584.763,
      "train_tokens_per_second": 6850.532
    },
    {
      "epoch": 1.3460730785384292,
      "grad_norm": 0.7824495434761047,
      "learning_rate": 2.9027449825354914e-05,
      "loss": 0.5005,
      "num_input_tokens_seen": 31465944,
      "step": 2805,
      "train_runtime": 4593.7143,
      "train_tokens_per_second": 6849.783
    },
    {
      "epoch": 1.3484730305393893,
      "grad_norm": 0.8347817063331604,
      "learning_rate": 2.8965445846622575e-05,
      "loss": 0.5212,
      "num_input_tokens_seen": 31519296,
      "step": 2810,
      "train_runtime": 4601.6577,
      "train_tokens_per_second": 6849.552
    },
    {
      "epoch": 1.3508729825403492,
      "grad_norm": 0.7829338312149048,
      "learning_rate": 2.8903416836002046e-05,
      "loss": 0.4881,
      "num_input_tokens_seen": 31575040,
      "step": 2815,
      "train_runtime": 4609.5566,
      "train_tokens_per_second": 6849.908
    },
    {
      "epoch": 1.3532729345413093,
      "grad_norm": 0.7527592182159424,
      "learning_rate": 2.8841363185051627e-05,
      "loss": 0.5284,
      "num_input_tokens_seen": 31627864,
      "step": 2820,
      "train_runtime": 4617.3734,
      "train_tokens_per_second": 6849.752
    },
    {
      "epoch": 1.3556728865422691,
      "grad_norm": 0.5921339988708496,
      "learning_rate": 2.877928528548518e-05,
      "loss": 0.5337,
      "num_input_tokens_seen": 31681448,
      "step": 2825,
      "train_runtime": 4625.135,
      "train_tokens_per_second": 6849.843
    },
    {
      "epoch": 1.358072838543229,
      "grad_norm": 0.8095146417617798,
      "learning_rate": 2.871718352916961e-05,
      "loss": 0.4355,
      "num_input_tokens_seen": 31734720,
      "step": 2830,
      "train_runtime": 4632.6583,
      "train_tokens_per_second": 6850.218
    },
    {
      "epoch": 1.3604727905441891,
      "grad_norm": 0.863218367099762,
      "learning_rate": 2.8655058308122435e-05,
      "loss": 0.522,
      "num_input_tokens_seen": 31786472,
      "step": 2835,
      "train_runtime": 4640.2065,
      "train_tokens_per_second": 6850.228
    },
    {
      "epoch": 1.3628727425451492,
      "grad_norm": 0.6763318181037903,
      "learning_rate": 2.8592910014509284e-05,
      "loss": 0.4825,
      "num_input_tokens_seen": 31842040,
      "step": 2840,
      "train_runtime": 4648.7432,
      "train_tokens_per_second": 6849.602
    },
    {
      "epoch": 1.3652726945461091,
      "grad_norm": 0.9902337789535522,
      "learning_rate": 2.853073904064144e-05,
      "loss": 0.4791,
      "num_input_tokens_seen": 31901936,
      "step": 2845,
      "train_runtime": 4657.7444,
      "train_tokens_per_second": 6849.224
    },
    {
      "epoch": 1.367672646547069,
      "grad_norm": 0.607513427734375,
      "learning_rate": 2.8468545778973365e-05,
      "loss": 0.4962,
      "num_input_tokens_seen": 31955760,
      "step": 2850,
      "train_runtime": 4665.9209,
      "train_tokens_per_second": 6848.757
    },
    {
      "epoch": 1.370072598548029,
      "grad_norm": 0.7585775256156921,
      "learning_rate": 2.8406330622100185e-05,
      "loss": 0.5193,
      "num_input_tokens_seen": 32012936,
      "step": 2855,
      "train_runtime": 4674.1143,
      "train_tokens_per_second": 6848.984
    },
    {
      "epoch": 1.372472550548989,
      "grad_norm": 0.6520575284957886,
      "learning_rate": 2.834409396275526e-05,
      "loss": 0.4838,
      "num_input_tokens_seen": 32075400,
      "step": 2860,
      "train_runtime": 4683.1148,
      "train_tokens_per_second": 6849.159
    },
    {
      "epoch": 1.374872502549949,
      "grad_norm": 0.7430661916732788,
      "learning_rate": 2.8281836193807677e-05,
      "loss": 0.5193,
      "num_input_tokens_seen": 32127560,
      "step": 2865,
      "train_runtime": 4690.6625,
      "train_tokens_per_second": 6849.258
    },
    {
      "epoch": 1.377272454550909,
      "grad_norm": 0.6538442373275757,
      "learning_rate": 2.821955770825978e-05,
      "loss": 0.563,
      "num_input_tokens_seen": 32182368,
      "step": 2870,
      "train_runtime": 4698.3261,
      "train_tokens_per_second": 6849.752
    },
    {
      "epoch": 1.3796724065518688,
      "grad_norm": 0.6958315968513489,
      "learning_rate": 2.81572588992447e-05,
      "loss": 0.4983,
      "num_input_tokens_seen": 32238704,
      "step": 2875,
      "train_runtime": 4706.8956,
      "train_tokens_per_second": 6849.25
    },
    {
      "epoch": 1.382072358552829,
      "grad_norm": 0.5171172618865967,
      "learning_rate": 2.809494016002382e-05,
      "loss": 0.4887,
      "num_input_tokens_seen": 32299312,
      "step": 2880,
      "train_runtime": 4717.4351,
      "train_tokens_per_second": 6846.795
    },
    {
      "epoch": 1.384472310553789,
      "grad_norm": 0.7386242151260376,
      "learning_rate": 2.8032601883984373e-05,
      "loss": 0.4676,
      "num_input_tokens_seen": 32353968,
      "step": 2885,
      "train_runtime": 4727.1468,
      "train_tokens_per_second": 6844.291
    },
    {
      "epoch": 1.386872262554749,
      "grad_norm": 0.6488030552864075,
      "learning_rate": 2.7970244464636907e-05,
      "loss": 0.5187,
      "num_input_tokens_seen": 32408248,
      "step": 2890,
      "train_runtime": 4737.0735,
      "train_tokens_per_second": 6841.407
    },
    {
      "epoch": 1.3892722145557088,
      "grad_norm": 0.7091050744056702,
      "learning_rate": 2.7907868295612805e-05,
      "loss": 0.5009,
      "num_input_tokens_seen": 32461008,
      "step": 2895,
      "train_runtime": 4746.6232,
      "train_tokens_per_second": 6838.758
    },
    {
      "epoch": 1.391672166556669,
      "grad_norm": 0.735463559627533,
      "learning_rate": 2.7845473770661816e-05,
      "loss": 0.4448,
      "num_input_tokens_seen": 32519744,
      "step": 2900,
      "train_runtime": 4756.731,
      "train_tokens_per_second": 6836.574
    },
    {
      "epoch": 1.3940721185576288,
      "grad_norm": 0.8551938533782959,
      "learning_rate": 2.7783061283649547e-05,
      "loss": 0.4562,
      "num_input_tokens_seen": 32575104,
      "step": 2905,
      "train_runtime": 4767.5045,
      "train_tokens_per_second": 6832.737
    },
    {
      "epoch": 1.396472070558589,
      "grad_norm": 0.8265554904937744,
      "learning_rate": 2.7720631228555003e-05,
      "loss": 0.4771,
      "num_input_tokens_seen": 32633880,
      "step": 2910,
      "train_runtime": 4778.118,
      "train_tokens_per_second": 6829.861
    },
    {
      "epoch": 1.3988720225595488,
      "grad_norm": 0.7008459568023682,
      "learning_rate": 2.7658183999468096e-05,
      "loss": 0.5213,
      "num_input_tokens_seen": 32687728,
      "step": 2915,
      "train_runtime": 4787.6745,
      "train_tokens_per_second": 6827.475
    },
    {
      "epoch": 1.4012719745605087,
      "grad_norm": 0.714462399482727,
      "learning_rate": 2.759571999058712e-05,
      "loss": 0.4879,
      "num_input_tokens_seen": 32744776,
      "step": 2920,
      "train_runtime": 4798.5825,
      "train_tokens_per_second": 6823.843
    },
    {
      "epoch": 1.4036719265614688,
      "grad_norm": 0.7445899248123169,
      "learning_rate": 2.7533239596216326e-05,
      "loss": 0.4801,
      "num_input_tokens_seen": 32802640,
      "step": 2925,
      "train_runtime": 4809.0391,
      "train_tokens_per_second": 6821.038
    },
    {
      "epoch": 1.4060718785624289,
      "grad_norm": 0.7316624522209167,
      "learning_rate": 2.747074321076336e-05,
      "loss": 0.4811,
      "num_input_tokens_seen": 32858848,
      "step": 2930,
      "train_runtime": 4819.753,
      "train_tokens_per_second": 6817.538
    },
    {
      "epoch": 1.4084718305633888,
      "grad_norm": 0.8229737877845764,
      "learning_rate": 2.7408231228736854e-05,
      "loss": 0.4749,
      "num_input_tokens_seen": 32915328,
      "step": 2935,
      "train_runtime": 4829.6875,
      "train_tokens_per_second": 6815.209
    },
    {
      "epoch": 1.4108717825643486,
      "grad_norm": 0.6625364422798157,
      "learning_rate": 2.7345704044743857e-05,
      "loss": 0.5214,
      "num_input_tokens_seen": 32970256,
      "step": 2940,
      "train_runtime": 4839.5418,
      "train_tokens_per_second": 6812.681
    },
    {
      "epoch": 1.4132717345653087,
      "grad_norm": 0.7320582270622253,
      "learning_rate": 2.7283162053487406e-05,
      "loss": 0.5137,
      "num_input_tokens_seen": 33024728,
      "step": 2945,
      "train_runtime": 4849.3505,
      "train_tokens_per_second": 6810.134
    },
    {
      "epoch": 1.4156716865662686,
      "grad_norm": 0.8458564281463623,
      "learning_rate": 2.7220605649763997e-05,
      "loss": 0.4864,
      "num_input_tokens_seen": 33083776,
      "step": 2950,
      "train_runtime": 4859.7251,
      "train_tokens_per_second": 6807.746
    },
    {
      "epoch": 1.4180716385672287,
      "grad_norm": 0.6681801676750183,
      "learning_rate": 2.71580352284611e-05,
      "loss": 0.4656,
      "num_input_tokens_seen": 33141792,
      "step": 2955,
      "train_runtime": 4870.089,
      "train_tokens_per_second": 6805.172
    },
    {
      "epoch": 1.4204715905681886,
      "grad_norm": 0.5828260779380798,
      "learning_rate": 2.7095451184554684e-05,
      "loss": 0.4626,
      "num_input_tokens_seen": 33200320,
      "step": 2960,
      "train_runtime": 4879.7888,
      "train_tokens_per_second": 6803.639
    },
    {
      "epoch": 1.4228715425691485,
      "grad_norm": 0.6321309208869934,
      "learning_rate": 2.7032853913106702e-05,
      "loss": 0.5166,
      "num_input_tokens_seen": 33258192,
      "step": 2965,
      "train_runtime": 4889.401,
      "train_tokens_per_second": 6802.1
    },
    {
      "epoch": 1.4252714945701086,
      "grad_norm": 0.5766092538833618,
      "learning_rate": 2.697024380926261e-05,
      "loss": 0.4709,
      "num_input_tokens_seen": 33315416,
      "step": 2970,
      "train_runtime": 4899.761,
      "train_tokens_per_second": 6799.396
    },
    {
      "epoch": 1.4276714465710687,
      "grad_norm": 0.5863097906112671,
      "learning_rate": 2.6907621268248867e-05,
      "loss": 0.4682,
      "num_input_tokens_seen": 33374248,
      "step": 2975,
      "train_runtime": 4910.9171,
      "train_tokens_per_second": 6795.93
    },
    {
      "epoch": 1.4300713985720286,
      "grad_norm": 0.6625893115997314,
      "learning_rate": 2.6844986685370438e-05,
      "loss": 0.4795,
      "num_input_tokens_seen": 33430576,
      "step": 2980,
      "train_runtime": 4920.8367,
      "train_tokens_per_second": 6793.677
    },
    {
      "epoch": 1.4324713505729885,
      "grad_norm": 0.889992356300354,
      "learning_rate": 2.6782340456008304e-05,
      "loss": 0.5081,
      "num_input_tokens_seen": 33481872,
      "step": 2985,
      "train_runtime": 4930.6268,
      "train_tokens_per_second": 6790.591
    },
    {
      "epoch": 1.4348713025739486,
      "grad_norm": 0.8572867512702942,
      "learning_rate": 2.6719682975616972e-05,
      "loss": 0.5238,
      "num_input_tokens_seen": 33535608,
      "step": 2990,
      "train_runtime": 4940.3628,
      "train_tokens_per_second": 6788.086
    },
    {
      "epoch": 1.4372712545749085,
      "grad_norm": 0.7185449600219727,
      "learning_rate": 2.6657014639721963e-05,
      "loss": 0.4628,
      "num_input_tokens_seen": 33595176,
      "step": 2995,
      "train_runtime": 4950.583,
      "train_tokens_per_second": 6786.105
    },
    {
      "epoch": 1.4396712065758686,
      "grad_norm": 0.6952937245368958,
      "learning_rate": 2.659433584391733e-05,
      "loss": 0.4726,
      "num_input_tokens_seen": 33655192,
      "step": 3000,
      "train_runtime": 4960.7955,
      "train_tokens_per_second": 6784.233
    },
    {
      "epoch": 1.4420711585768284,
      "grad_norm": 0.5073747634887695,
      "learning_rate": 2.6531646983863135e-05,
      "loss": 0.5086,
      "num_input_tokens_seen": 33710344,
      "step": 3005,
      "train_runtime": 4971.2496,
      "train_tokens_per_second": 6781.06
    },
    {
      "epoch": 1.4444711105777883,
      "grad_norm": 0.5523395538330078,
      "learning_rate": 2.6468948455283006e-05,
      "loss": 0.4855,
      "num_input_tokens_seen": 33762880,
      "step": 3010,
      "train_runtime": 4981.002,
      "train_tokens_per_second": 6778.331
    },
    {
      "epoch": 1.4468710625787484,
      "grad_norm": 0.7493255138397217,
      "learning_rate": 2.6406240653961562e-05,
      "loss": 0.5121,
      "num_input_tokens_seen": 33814912,
      "step": 3015,
      "train_runtime": 4990.9252,
      "train_tokens_per_second": 6775.279
    },
    {
      "epoch": 1.4492710145797085,
      "grad_norm": 0.7933918833732605,
      "learning_rate": 2.6343523975741995e-05,
      "loss": 0.4822,
      "num_input_tokens_seen": 33869336,
      "step": 3020,
      "train_runtime": 5000.7837,
      "train_tokens_per_second": 6772.806
    },
    {
      "epoch": 1.4516709665806684,
      "grad_norm": 0.827980101108551,
      "learning_rate": 2.628079881652351e-05,
      "loss": 0.5094,
      "num_input_tokens_seen": 33921376,
      "step": 3025,
      "train_runtime": 5010.3271,
      "train_tokens_per_second": 6770.292
    },
    {
      "epoch": 1.4540709185816283,
      "grad_norm": 0.7234380841255188,
      "learning_rate": 2.6218065572258847e-05,
      "loss": 0.4494,
      "num_input_tokens_seen": 33979216,
      "step": 3030,
      "train_runtime": 5021.1603,
      "train_tokens_per_second": 6767.204
    },
    {
      "epoch": 1.4564708705825884,
      "grad_norm": 0.6564066410064697,
      "learning_rate": 2.6155324638951795e-05,
      "loss": 0.5281,
      "num_input_tokens_seen": 34036320,
      "step": 3035,
      "train_runtime": 5032.1108,
      "train_tokens_per_second": 6763.826
    },
    {
      "epoch": 1.4588708225835483,
      "grad_norm": 0.9267168045043945,
      "learning_rate": 2.6092576412654668e-05,
      "loss": 0.5001,
      "num_input_tokens_seen": 34090128,
      "step": 3040,
      "train_runtime": 5042.1218,
      "train_tokens_per_second": 6761.068
    },
    {
      "epoch": 1.4612707745845084,
      "grad_norm": 0.6622974276542664,
      "learning_rate": 2.602982128946583e-05,
      "loss": 0.4876,
      "num_input_tokens_seen": 34148400,
      "step": 3045,
      "train_runtime": 5052.2931,
      "train_tokens_per_second": 6758.99
    },
    {
      "epoch": 1.4636707265854683,
      "grad_norm": 0.6938877105712891,
      "learning_rate": 2.596705966552718e-05,
      "loss": 0.4316,
      "num_input_tokens_seen": 34205656,
      "step": 3050,
      "train_runtime": 5063.4654,
      "train_tokens_per_second": 6755.385
    },
    {
      "epoch": 1.4660706785864281,
      "grad_norm": 1.1527178287506104,
      "learning_rate": 2.5904291937021623e-05,
      "loss": 0.5168,
      "num_input_tokens_seen": 34256136,
      "step": 3055,
      "train_runtime": 5073.3962,
      "train_tokens_per_second": 6752.111
    },
    {
      "epoch": 1.4684706305873882,
      "grad_norm": 0.8553231358528137,
      "learning_rate": 2.5841518500170647e-05,
      "loss": 0.4756,
      "num_input_tokens_seen": 34311976,
      "step": 3060,
      "train_runtime": 5083.9773,
      "train_tokens_per_second": 6749.042
    },
    {
      "epoch": 1.4708705825883484,
      "grad_norm": 0.6087079644203186,
      "learning_rate": 2.5778739751231747e-05,
      "loss": 0.4665,
      "num_input_tokens_seen": 34370640,
      "step": 3065,
      "train_runtime": 5094.5141,
      "train_tokens_per_second": 6746.598
    },
    {
      "epoch": 1.4732705345893082,
      "grad_norm": 0.7348918318748474,
      "learning_rate": 2.5715956086495947e-05,
      "loss": 0.4652,
      "num_input_tokens_seen": 34421432,
      "step": 3070,
      "train_runtime": 5103.6348,
      "train_tokens_per_second": 6744.494
    },
    {
      "epoch": 1.4756704865902681,
      "grad_norm": 1.1253235340118408,
      "learning_rate": 2.565316790228532e-05,
      "loss": 0.4909,
      "num_input_tokens_seen": 34478304,
      "step": 3075,
      "train_runtime": 5113.6496,
      "train_tokens_per_second": 6742.406
    },
    {
      "epoch": 1.4780704385912282,
      "grad_norm": 0.7545915842056274,
      "learning_rate": 2.5590375594950443e-05,
      "loss": 0.4865,
      "num_input_tokens_seen": 34532640,
      "step": 3080,
      "train_runtime": 5123.1565,
      "train_tokens_per_second": 6740.501
    },
    {
      "epoch": 1.480470390592188,
      "grad_norm": 0.8254991769790649,
      "learning_rate": 2.5527579560867947e-05,
      "loss": 0.503,
      "num_input_tokens_seen": 34597280,
      "step": 3085,
      "train_runtime": 5135.0435,
      "train_tokens_per_second": 6737.485
    },
    {
      "epoch": 1.4828703425931482,
      "grad_norm": 0.7427690625190735,
      "learning_rate": 2.546478019643797e-05,
      "loss": 0.4799,
      "num_input_tokens_seen": 34654488,
      "step": 3090,
      "train_runtime": 5145.9423,
      "train_tokens_per_second": 6734.333
    },
    {
      "epoch": 1.485270294594108,
      "grad_norm": 0.6483776569366455,
      "learning_rate": 2.540197789808168e-05,
      "loss": 0.4463,
      "num_input_tokens_seen": 34716120,
      "step": 3095,
      "train_runtime": 5158.485,
      "train_tokens_per_second": 6729.906
    },
    {
      "epoch": 1.487670246595068,
      "grad_norm": 0.5190485715866089,
      "learning_rate": 2.5339173062238774e-05,
      "loss": 0.4597,
      "num_input_tokens_seen": 34777640,
      "step": 3100,
      "train_runtime": 5171.0585,
      "train_tokens_per_second": 6725.439
    },
    {
      "epoch": 1.490070198596028,
      "grad_norm": 0.5749461054801941,
      "learning_rate": 2.5276366085364937e-05,
      "loss": 0.5084,
      "num_input_tokens_seen": 34831992,
      "step": 3105,
      "train_runtime": 5181.3994,
      "train_tokens_per_second": 6722.507
    },
    {
      "epoch": 1.4924701505969882,
      "grad_norm": 0.7715994119644165,
      "learning_rate": 2.52135573639294e-05,
      "loss": 0.4786,
      "num_input_tokens_seen": 34894736,
      "step": 3110,
      "train_runtime": 5191.5337,
      "train_tokens_per_second": 6721.47
    },
    {
      "epoch": 1.494870102597948,
      "grad_norm": 0.9101441502571106,
      "learning_rate": 2.5150747294412398e-05,
      "loss": 0.5175,
      "num_input_tokens_seen": 34951296,
      "step": 3115,
      "train_runtime": 5201.6456,
      "train_tokens_per_second": 6719.277
    },
    {
      "epoch": 1.497270054598908,
      "grad_norm": 0.7418543696403503,
      "learning_rate": 2.508793627330267e-05,
      "loss": 0.451,
      "num_input_tokens_seen": 35006168,
      "step": 3120,
      "train_runtime": 5211.4651,
      "train_tokens_per_second": 6717.145
    },
    {
      "epoch": 1.499670006599868,
      "grad_norm": 0.7147541642189026,
      "learning_rate": 2.502512469709497e-05,
      "loss": 0.5077,
      "num_input_tokens_seen": 35059176,
      "step": 3125,
      "train_runtime": 5221.3263,
      "train_tokens_per_second": 6714.611
    },
    {
      "epoch": 1.5020699586008281,
      "grad_norm": 0.5535465478897095,
      "learning_rate": 2.4962312962287544e-05,
      "loss": 0.4924,
      "num_input_tokens_seen": 35114264,
      "step": 3130,
      "train_runtime": 5230.6201,
      "train_tokens_per_second": 6713.212
    },
    {
      "epoch": 1.504469910601788,
      "grad_norm": 0.7213118672370911,
      "learning_rate": 2.4899501465379644e-05,
      "loss": 0.5004,
      "num_input_tokens_seen": 35168424,
      "step": 3135,
      "train_runtime": 5241.0072,
      "train_tokens_per_second": 6710.242
    },
    {
      "epoch": 1.506869862602748,
      "grad_norm": 0.7794874310493469,
      "learning_rate": 2.4836690602869044e-05,
      "loss": 0.5145,
      "num_input_tokens_seen": 35224296,
      "step": 3140,
      "train_runtime": 5250.7072,
      "train_tokens_per_second": 6708.486
    },
    {
      "epoch": 1.5092698146037078,
      "grad_norm": 0.9129291772842407,
      "learning_rate": 2.4773880771249477e-05,
      "loss": 0.4889,
      "num_input_tokens_seen": 35280088,
      "step": 3145,
      "train_runtime": 5261.3252,
      "train_tokens_per_second": 6705.552
    },
    {
      "epoch": 1.511669766604668,
      "grad_norm": 0.7600094079971313,
      "learning_rate": 2.4711072367008176e-05,
      "loss": 0.4967,
      "num_input_tokens_seen": 35340720,
      "step": 3150,
      "train_runtime": 5271.563,
      "train_tokens_per_second": 6704.031
    },
    {
      "epoch": 1.514069718605628,
      "grad_norm": 0.5989595055580139,
      "learning_rate": 2.4648265786623388e-05,
      "loss": 0.4843,
      "num_input_tokens_seen": 35397240,
      "step": 3155,
      "train_runtime": 5282.0778,
      "train_tokens_per_second": 6701.386
    },
    {
      "epoch": 1.5164696706065879,
      "grad_norm": 0.6885458827018738,
      "learning_rate": 2.4585461426561818e-05,
      "loss": 0.5011,
      "num_input_tokens_seen": 35460504,
      "step": 3160,
      "train_runtime": 5293.3254,
      "train_tokens_per_second": 6699.098
    },
    {
      "epoch": 1.5188696226075478,
      "grad_norm": 0.5150988698005676,
      "learning_rate": 2.452265968327618e-05,
      "loss": 0.512,
      "num_input_tokens_seen": 35517032,
      "step": 3165,
      "train_runtime": 5303.2586,
      "train_tokens_per_second": 6697.209
    },
    {
      "epoch": 1.5212695746085079,
      "grad_norm": 0.7029662132263184,
      "learning_rate": 2.4459860953202635e-05,
      "loss": 0.4807,
      "num_input_tokens_seen": 35567328,
      "step": 3170,
      "train_runtime": 5312.0452,
      "train_tokens_per_second": 6695.6
    },
    {
      "epoch": 1.523669526609468,
      "grad_norm": 0.6837257742881775,
      "learning_rate": 2.4397065632758374e-05,
      "loss": 0.4578,
      "num_input_tokens_seen": 35622032,
      "step": 3175,
      "train_runtime": 5321.4999,
      "train_tokens_per_second": 6693.983
    },
    {
      "epoch": 1.5260694786104279,
      "grad_norm": 0.7105430364608765,
      "learning_rate": 2.4334274118339014e-05,
      "loss": 0.512,
      "num_input_tokens_seen": 35684184,
      "step": 3180,
      "train_runtime": 5331.4522,
      "train_tokens_per_second": 6693.145
    },
    {
      "epoch": 1.5284694306113877,
      "grad_norm": 0.788021445274353,
      "learning_rate": 2.4271486806316173e-05,
      "loss": 0.5011,
      "num_input_tokens_seen": 35741544,
      "step": 3185,
      "train_runtime": 5341.311,
      "train_tokens_per_second": 6691.53
    },
    {
      "epoch": 1.5308693826123476,
      "grad_norm": 0.8190677165985107,
      "learning_rate": 2.420870409303495e-05,
      "loss": 0.4627,
      "num_input_tokens_seen": 35797096,
      "step": 3190,
      "train_runtime": 5350.6319,
      "train_tokens_per_second": 6690.256
    },
    {
      "epoch": 1.5332693346133077,
      "grad_norm": 0.9217768907546997,
      "learning_rate": 2.4145926374811395e-05,
      "loss": 0.4672,
      "num_input_tokens_seen": 35849520,
      "step": 3195,
      "train_runtime": 5360.1483,
      "train_tokens_per_second": 6688.158
    },
    {
      "epoch": 1.5356692866142678,
      "grad_norm": 0.729516327381134,
      "learning_rate": 2.4083154047930014e-05,
      "loss": 0.4645,
      "num_input_tokens_seen": 35908672,
      "step": 3200,
      "train_runtime": 5371.5509,
      "train_tokens_per_second": 6684.973
    },
    {
      "epoch": 1.5380692386152277,
      "grad_norm": 0.7882852554321289,
      "learning_rate": 2.4020387508641322e-05,
      "loss": 0.4833,
      "num_input_tokens_seen": 35963328,
      "step": 3205,
      "train_runtime": 5382.0522,
      "train_tokens_per_second": 6682.085
    },
    {
      "epoch": 1.5404691906161876,
      "grad_norm": 0.6502909660339355,
      "learning_rate": 2.3957627153159277e-05,
      "loss": 0.4763,
      "num_input_tokens_seen": 36021192,
      "step": 3210,
      "train_runtime": 5392.0941,
      "train_tokens_per_second": 6680.372
    },
    {
      "epoch": 1.5428691426171477,
      "grad_norm": 0.8590161204338074,
      "learning_rate": 2.3894873377658788e-05,
      "loss": 0.4768,
      "num_input_tokens_seen": 36078448,
      "step": 3215,
      "train_runtime": 5402.6273,
      "train_tokens_per_second": 6677.945
    },
    {
      "epoch": 1.5452690946181078,
      "grad_norm": 1.034970760345459,
      "learning_rate": 2.383212657827324e-05,
      "loss": 0.502,
      "num_input_tokens_seen": 36132656,
      "step": 3220,
      "train_runtime": 5412.5546,
      "train_tokens_per_second": 6675.712
    },
    {
      "epoch": 1.5476690466190677,
      "grad_norm": 0.5326734185218811,
      "learning_rate": 2.3769387151092e-05,
      "loss": 0.4883,
      "num_input_tokens_seen": 36191712,
      "step": 3225,
      "train_runtime": 5422.7637,
      "train_tokens_per_second": 6674.034
    },
    {
      "epoch": 1.5500689986200276,
      "grad_norm": 0.9736510515213013,
      "learning_rate": 2.370665549215787e-05,
      "loss": 0.5341,
      "num_input_tokens_seen": 36245160,
      "step": 3230,
      "train_runtime": 5432.9922,
      "train_tokens_per_second": 6671.307
    },
    {
      "epoch": 1.5524689506209874,
      "grad_norm": 0.6917448043823242,
      "learning_rate": 2.3643931997464617e-05,
      "loss": 0.4849,
      "num_input_tokens_seen": 36303576,
      "step": 3235,
      "train_runtime": 5443.3631,
      "train_tokens_per_second": 6669.328
    },
    {
      "epoch": 1.5548689026219475,
      "grad_norm": 0.9082401394844055,
      "learning_rate": 2.35812170629545e-05,
      "loss": 0.4583,
      "num_input_tokens_seen": 36360840,
      "step": 3240,
      "train_runtime": 5453.245,
      "train_tokens_per_second": 6667.744
    },
    {
      "epoch": 1.5572688546229077,
      "grad_norm": 0.6470857262611389,
      "learning_rate": 2.351851108451571e-05,
      "loss": 0.4604,
      "num_input_tokens_seen": 36422200,
      "step": 3245,
      "train_runtime": 5463.4424,
      "train_tokens_per_second": 6666.529
    },
    {
      "epoch": 1.5596688066238675,
      "grad_norm": 0.8061736822128296,
      "learning_rate": 2.34558144579799e-05,
      "loss": 0.5048,
      "num_input_tokens_seen": 36476632,
      "step": 3250,
      "train_runtime": 5473.1542,
      "train_tokens_per_second": 6664.645
    },
    {
      "epoch": 1.5620687586248274,
      "grad_norm": 0.7560340762138367,
      "learning_rate": 2.339312757911973e-05,
      "loss": 0.5113,
      "num_input_tokens_seen": 36529792,
      "step": 3255,
      "train_runtime": 5482.3009,
      "train_tokens_per_second": 6663.223
    },
    {
      "epoch": 1.5644687106257875,
      "grad_norm": 0.7179074883460999,
      "learning_rate": 2.3330450843646296e-05,
      "loss": 0.5005,
      "num_input_tokens_seen": 36586016,
      "step": 3260,
      "train_runtime": 5492.5745,
      "train_tokens_per_second": 6660.996
    },
    {
      "epoch": 1.5668686626267476,
      "grad_norm": 0.5973109602928162,
      "learning_rate": 2.3267784647206658e-05,
      "loss": 0.4804,
      "num_input_tokens_seen": 36641112,
      "step": 3265,
      "train_runtime": 5502.2894,
      "train_tokens_per_second": 6659.248
    },
    {
      "epoch": 1.5692686146277075,
      "grad_norm": 0.9687879681587219,
      "learning_rate": 2.3205129385381355e-05,
      "loss": 0.4928,
      "num_input_tokens_seen": 36697088,
      "step": 3270,
      "train_runtime": 5512.5707,
      "train_tokens_per_second": 6656.983
    },
    {
      "epoch": 1.5716685666286674,
      "grad_norm": 0.6984615325927734,
      "learning_rate": 2.3142485453681925e-05,
      "loss": 0.4872,
      "num_input_tokens_seen": 36755920,
      "step": 3275,
      "train_runtime": 5523.731,
      "train_tokens_per_second": 6654.184
    },
    {
      "epoch": 1.5740685186296273,
      "grad_norm": 0.7793405652046204,
      "learning_rate": 2.307985324754835e-05,
      "loss": 0.5391,
      "num_input_tokens_seen": 36811304,
      "step": 3280,
      "train_runtime": 5534.0048,
      "train_tokens_per_second": 6651.838
    },
    {
      "epoch": 1.5764684706305874,
      "grad_norm": 0.7121679782867432,
      "learning_rate": 2.3017233162346608e-05,
      "loss": 0.4955,
      "num_input_tokens_seen": 36868680,
      "step": 3285,
      "train_runtime": 5543.499,
      "train_tokens_per_second": 6650.796
    },
    {
      "epoch": 1.5788684226315475,
      "grad_norm": 0.9568763375282288,
      "learning_rate": 2.295462559336618e-05,
      "loss": 0.4775,
      "num_input_tokens_seen": 36925400,
      "step": 3290,
      "train_runtime": 5553.1982,
      "train_tokens_per_second": 6649.394
    },
    {
      "epoch": 1.5812683746325074,
      "grad_norm": 0.5952507257461548,
      "learning_rate": 2.2892030935817517e-05,
      "loss": 0.457,
      "num_input_tokens_seen": 36984032,
      "step": 3295,
      "train_runtime": 5563.7199,
      "train_tokens_per_second": 6647.357
    },
    {
      "epoch": 1.5836683266334672,
      "grad_norm": 0.8516509532928467,
      "learning_rate": 2.2829449584829558e-05,
      "loss": 0.5231,
      "num_input_tokens_seen": 37038928,
      "step": 3300,
      "train_runtime": 5573.6606,
      "train_tokens_per_second": 6645.35
    },
    {
      "epoch": 1.5860682786344273,
      "grad_norm": 0.569814920425415,
      "learning_rate": 2.2766881935447275e-05,
      "loss": 0.5044,
      "num_input_tokens_seen": 37092208,
      "step": 3305,
      "train_runtime": 5583.51,
      "train_tokens_per_second": 6643.17
    },
    {
      "epoch": 1.5884682306353874,
      "grad_norm": 0.8386396169662476,
      "learning_rate": 2.2704328382629138e-05,
      "loss": 0.4753,
      "num_input_tokens_seen": 37147680,
      "step": 3310,
      "train_runtime": 5592.6848,
      "train_tokens_per_second": 6642.191
    },
    {
      "epoch": 1.5908681826363473,
      "grad_norm": 0.7655364871025085,
      "learning_rate": 2.264178932124462e-05,
      "loss": 0.4796,
      "num_input_tokens_seen": 37203656,
      "step": 3315,
      "train_runtime": 5601.9649,
      "train_tokens_per_second": 6641.18
    },
    {
      "epoch": 1.5932681346373072,
      "grad_norm": 0.8739466071128845,
      "learning_rate": 2.257926514607171e-05,
      "loss": 0.4852,
      "num_input_tokens_seen": 37263520,
      "step": 3320,
      "train_runtime": 5612.1576,
      "train_tokens_per_second": 6639.785
    },
    {
      "epoch": 1.595668086638267,
      "grad_norm": 0.6632476449012756,
      "learning_rate": 2.2516756251794463e-05,
      "loss": 0.5121,
      "num_input_tokens_seen": 37318192,
      "step": 3325,
      "train_runtime": 5621.7888,
      "train_tokens_per_second": 6638.135
    },
    {
      "epoch": 1.5980680386392272,
      "grad_norm": 0.7768703699111938,
      "learning_rate": 2.245426303300044e-05,
      "loss": 0.5128,
      "num_input_tokens_seen": 37374224,
      "step": 3330,
      "train_runtime": 5631.8308,
      "train_tokens_per_second": 6636.248
    },
    {
      "epoch": 1.6004679906401873,
      "grad_norm": 0.7217375636100769,
      "learning_rate": 2.2391785884178256e-05,
      "loss": 0.4835,
      "num_input_tokens_seen": 37435240,
      "step": 3335,
      "train_runtime": 5642.3272,
      "train_tokens_per_second": 6634.716
    },
    {
      "epoch": 1.6028679426411472,
      "grad_norm": 0.5615156888961792,
      "learning_rate": 2.2329325199715114e-05,
      "loss": 0.4575,
      "num_input_tokens_seen": 37492120,
      "step": 3340,
      "train_runtime": 5652.3686,
      "train_tokens_per_second": 6632.993
    },
    {
      "epoch": 1.605267894642107,
      "grad_norm": 0.826392650604248,
      "learning_rate": 2.226688137389425e-05,
      "loss": 0.4922,
      "num_input_tokens_seen": 37548408,
      "step": 3345,
      "train_runtime": 5662.4517,
      "train_tokens_per_second": 6631.122
    },
    {
      "epoch": 1.6076678466430672,
      "grad_norm": 0.589180052280426,
      "learning_rate": 2.220445480089248e-05,
      "loss": 0.4807,
      "num_input_tokens_seen": 37610280,
      "step": 3350,
      "train_runtime": 5674.3947,
      "train_tokens_per_second": 6628.069
    },
    {
      "epoch": 1.6100677986440273,
      "grad_norm": 0.8704653978347778,
      "learning_rate": 2.214204587477774e-05,
      "loss": 0.5322,
      "num_input_tokens_seen": 37668512,
      "step": 3355,
      "train_runtime": 5684.5435,
      "train_tokens_per_second": 6626.48
    },
    {
      "epoch": 1.6124677506449872,
      "grad_norm": 0.7563439607620239,
      "learning_rate": 2.207965498950655e-05,
      "loss": 0.4843,
      "num_input_tokens_seen": 37727112,
      "step": 3360,
      "train_runtime": 5694.2908,
      "train_tokens_per_second": 6625.428
    },
    {
      "epoch": 1.614867702645947,
      "grad_norm": 0.7133488059043884,
      "learning_rate": 2.2017282538921556e-05,
      "loss": 0.4732,
      "num_input_tokens_seen": 37780192,
      "step": 3365,
      "train_runtime": 5703.5817,
      "train_tokens_per_second": 6623.942
    },
    {
      "epoch": 1.617267654646907,
      "grad_norm": 0.8156766295433044,
      "learning_rate": 2.1954928916749006e-05,
      "loss": 0.5115,
      "num_input_tokens_seen": 37839376,
      "step": 3370,
      "train_runtime": 5713.8648,
      "train_tokens_per_second": 6622.379
    },
    {
      "epoch": 1.619667606647867,
      "grad_norm": 0.7063591480255127,
      "learning_rate": 2.1892594516596343e-05,
      "loss": 0.5177,
      "num_input_tokens_seen": 37894296,
      "step": 3375,
      "train_runtime": 5723.4986,
      "train_tokens_per_second": 6620.827
    },
    {
      "epoch": 1.6220675586488271,
      "grad_norm": 0.8170085549354553,
      "learning_rate": 2.183027973194964e-05,
      "loss": 0.4848,
      "num_input_tokens_seen": 37951552,
      "step": 3380,
      "train_runtime": 5733.3985,
      "train_tokens_per_second": 6619.382
    },
    {
      "epoch": 1.624467510649787,
      "grad_norm": 0.6729702353477478,
      "learning_rate": 2.176798495617114e-05,
      "loss": 0.4927,
      "num_input_tokens_seen": 38011968,
      "step": 3385,
      "train_runtime": 5743.0143,
      "train_tokens_per_second": 6618.818
    },
    {
      "epoch": 1.6268674626507469,
      "grad_norm": 0.7593095898628235,
      "learning_rate": 2.1705710582496815e-05,
      "loss": 0.4888,
      "num_input_tokens_seen": 38067280,
      "step": 3390,
      "train_runtime": 5752.7516,
      "train_tokens_per_second": 6617.23
    },
    {
      "epoch": 1.629267414651707,
      "grad_norm": 1.1748439073562622,
      "learning_rate": 2.1643457004033807e-05,
      "loss": 0.5178,
      "num_input_tokens_seen": 38124912,
      "step": 3395,
      "train_runtime": 5763.3474,
      "train_tokens_per_second": 6615.064
    },
    {
      "epoch": 1.631667366652667,
      "grad_norm": 0.8947390913963318,
      "learning_rate": 2.1581224613758005e-05,
      "loss": 0.5112,
      "num_input_tokens_seen": 38178808,
      "step": 3400,
      "train_runtime": 5772.7591,
      "train_tokens_per_second": 6613.615
    },
    {
      "epoch": 1.634067318653627,
      "grad_norm": 0.702033519744873,
      "learning_rate": 2.1519013804511562e-05,
      "loss": 0.5106,
      "num_input_tokens_seen": 38233976,
      "step": 3405,
      "train_runtime": 5782.5071,
      "train_tokens_per_second": 6612.007
    },
    {
      "epoch": 1.6364672706545869,
      "grad_norm": 0.9868459105491638,
      "learning_rate": 2.145682496900039e-05,
      "loss": 0.501,
      "num_input_tokens_seen": 38291736,
      "step": 3410,
      "train_runtime": 5792.3708,
      "train_tokens_per_second": 6610.719
    },
    {
      "epoch": 1.6388672226555467,
      "grad_norm": 1.0660921335220337,
      "learning_rate": 2.1394658499791684e-05,
      "loss": 0.4836,
      "num_input_tokens_seen": 38347056,
      "step": 3415,
      "train_runtime": 5800.6961,
      "train_tokens_per_second": 6610.768
    },
    {
      "epoch": 1.6412671746565068,
      "grad_norm": 0.809270441532135,
      "learning_rate": 2.1332514789311448e-05,
      "loss": 0.5138,
      "num_input_tokens_seen": 38399184,
      "step": 3420,
      "train_runtime": 5808.2869,
      "train_tokens_per_second": 6611.103
    },
    {
      "epoch": 1.643667126657467,
      "grad_norm": 0.7200763821601868,
      "learning_rate": 2.1270394229842044e-05,
      "loss": 0.4522,
      "num_input_tokens_seen": 38456896,
      "step": 3425,
      "train_runtime": 5816.1423,
      "train_tokens_per_second": 6612.097
    },
    {
      "epoch": 1.6460670786584268,
      "grad_norm": 0.8460598587989807,
      "learning_rate": 2.1208297213519686e-05,
      "loss": 0.4847,
      "num_input_tokens_seen": 38512168,
      "step": 3430,
      "train_runtime": 5823.8311,
      "train_tokens_per_second": 6612.858
    },
    {
      "epoch": 1.6484670306593867,
      "grad_norm": 0.7235488891601562,
      "learning_rate": 2.1146224132331944e-05,
      "loss": 0.4733,
      "num_input_tokens_seen": 38573240,
      "step": 3435,
      "train_runtime": 5832.0444,
      "train_tokens_per_second": 6614.017
    },
    {
      "epoch": 1.6508669826603468,
      "grad_norm": 0.8452171087265015,
      "learning_rate": 2.1084175378115344e-05,
      "loss": 0.5236,
      "num_input_tokens_seen": 38624080,
      "step": 3440,
      "train_runtime": 5839.2065,
      "train_tokens_per_second": 6614.611
    },
    {
      "epoch": 1.653266934661307,
      "grad_norm": 0.7488996982574463,
      "learning_rate": 2.1022151342552815e-05,
      "loss": 0.5226,
      "num_input_tokens_seen": 38679488,
      "step": 3445,
      "train_runtime": 5846.9076,
      "train_tokens_per_second": 6615.375
    },
    {
      "epoch": 1.6556668866622668,
      "grad_norm": 0.7845451235771179,
      "learning_rate": 2.0960152417171243e-05,
      "loss": 0.4533,
      "num_input_tokens_seen": 38736136,
      "step": 3450,
      "train_runtime": 5855.1703,
      "train_tokens_per_second": 6615.715
    },
    {
      "epoch": 1.6580668386632267,
      "grad_norm": 0.9303568005561829,
      "learning_rate": 2.089817899333904e-05,
      "loss": 0.483,
      "num_input_tokens_seen": 38788592,
      "step": 3455,
      "train_runtime": 5862.705,
      "train_tokens_per_second": 6616.16
    },
    {
      "epoch": 1.6604667906641866,
      "grad_norm": 0.7032025456428528,
      "learning_rate": 2.083623146226362e-05,
      "loss": 0.4556,
      "num_input_tokens_seen": 38846528,
      "step": 3460,
      "train_runtime": 5870.8119,
      "train_tokens_per_second": 6616.892
    },
    {
      "epoch": 1.6628667426651467,
      "grad_norm": 1.0094935894012451,
      "learning_rate": 2.0774310214988942e-05,
      "loss": 0.545,
      "num_input_tokens_seen": 38896768,
      "step": 3465,
      "train_runtime": 5879.1312,
      "train_tokens_per_second": 6616.074
    },
    {
      "epoch": 1.6652666946661068,
      "grad_norm": 0.8336009979248047,
      "learning_rate": 2.071241564239305e-05,
      "loss": 0.4741,
      "num_input_tokens_seen": 38952672,
      "step": 3470,
      "train_runtime": 5888.8317,
      "train_tokens_per_second": 6614.669
    },
    {
      "epoch": 1.6676666466670667,
      "grad_norm": 0.6727505326271057,
      "learning_rate": 2.0650548135185618e-05,
      "loss": 0.4831,
      "num_input_tokens_seen": 39007376,
      "step": 3475,
      "train_runtime": 5898.9169,
      "train_tokens_per_second": 6612.634
    },
    {
      "epoch": 1.6700665986680265,
      "grad_norm": 0.7282326221466064,
      "learning_rate": 2.0588708083905468e-05,
      "loss": 0.5174,
      "num_input_tokens_seen": 39064568,
      "step": 3480,
      "train_runtime": 5909.1279,
      "train_tokens_per_second": 6610.886
    },
    {
      "epoch": 1.6724665506689866,
      "grad_norm": 0.6648644208908081,
      "learning_rate": 2.0526895878918077e-05,
      "loss": 0.5055,
      "num_input_tokens_seen": 39117320,
      "step": 3485,
      "train_runtime": 5918.494,
      "train_tokens_per_second": 6609.337
    },
    {
      "epoch": 1.6748665026699467,
      "grad_norm": 0.8427759408950806,
      "learning_rate": 2.0465111910413192e-05,
      "loss": 0.5316,
      "num_input_tokens_seen": 39171840,
      "step": 3490,
      "train_runtime": 5927.2143,
      "train_tokens_per_second": 6608.811
    },
    {
      "epoch": 1.6772664546709066,
      "grad_norm": 0.6149888634681702,
      "learning_rate": 2.040335656840228e-05,
      "loss": 0.4517,
      "num_input_tokens_seen": 39226624,
      "step": 3495,
      "train_runtime": 5935.062,
      "train_tokens_per_second": 6609.303
    },
    {
      "epoch": 1.6796664066718665,
      "grad_norm": 0.9388527870178223,
      "learning_rate": 2.03416302427161e-05,
      "loss": 0.5067,
      "num_input_tokens_seen": 39284168,
      "step": 3500,
      "train_runtime": 5942.9844,
      "train_tokens_per_second": 6610.175
    },
    {
      "epoch": 1.6820663586728264,
      "grad_norm": 0.8548518419265747,
      "learning_rate": 2.027993332300227e-05,
      "loss": 0.5064,
      "num_input_tokens_seen": 39340120,
      "step": 3505,
      "train_runtime": 5951.1485,
      "train_tokens_per_second": 6610.509
    },
    {
      "epoch": 1.6844663106737865,
      "grad_norm": 0.6581935882568359,
      "learning_rate": 2.021826619872278e-05,
      "loss": 0.4523,
      "num_input_tokens_seen": 39399136,
      "step": 3510,
      "train_runtime": 5959.3451,
      "train_tokens_per_second": 6611.32
    },
    {
      "epoch": 1.6868662626747466,
      "grad_norm": 0.6218190789222717,
      "learning_rate": 2.0156629259151515e-05,
      "loss": 0.4804,
      "num_input_tokens_seen": 39456808,
      "step": 3515,
      "train_runtime": 5967.3525,
      "train_tokens_per_second": 6612.113
    },
    {
      "epoch": 1.6892662146757065,
      "grad_norm": 0.8073654174804688,
      "learning_rate": 2.0095022893371826e-05,
      "loss": 0.4838,
      "num_input_tokens_seen": 39516000,
      "step": 3520,
      "train_runtime": 5975.9682,
      "train_tokens_per_second": 6612.485
    },
    {
      "epoch": 1.6916661666766664,
      "grad_norm": 0.7715812921524048,
      "learning_rate": 2.0033447490274083e-05,
      "loss": 0.4669,
      "num_input_tokens_seen": 39569280,
      "step": 3525,
      "train_runtime": 5983.6596,
      "train_tokens_per_second": 6612.89
    },
    {
      "epoch": 1.6940661186776265,
      "grad_norm": 0.8139777183532715,
      "learning_rate": 1.99719034385532e-05,
      "loss": 0.5031,
      "num_input_tokens_seen": 39625464,
      "step": 3530,
      "train_runtime": 5991.822,
      "train_tokens_per_second": 6613.258
    },
    {
      "epoch": 1.6964660706785866,
      "grad_norm": 0.7577908635139465,
      "learning_rate": 1.9910391126706158e-05,
      "loss": 0.4991,
      "num_input_tokens_seen": 39676928,
      "step": 3535,
      "train_runtime": 5999.8126,
      "train_tokens_per_second": 6613.028
    },
    {
      "epoch": 1.6988660226795465,
      "grad_norm": 0.5273564457893372,
      "learning_rate": 1.9848910943029624e-05,
      "loss": 0.4548,
      "num_input_tokens_seen": 39734168,
      "step": 3540,
      "train_runtime": 6008.5552,
      "train_tokens_per_second": 6612.932
    },
    {
      "epoch": 1.7012659746805063,
      "grad_norm": 0.8542927503585815,
      "learning_rate": 1.978746327561741e-05,
      "loss": 0.4886,
      "num_input_tokens_seen": 39795520,
      "step": 3545,
      "train_runtime": 6017.0289,
      "train_tokens_per_second": 6613.816
    },
    {
      "epoch": 1.7036659266814662,
      "grad_norm": 0.6213528513908386,
      "learning_rate": 1.972604851235811e-05,
      "loss": 0.4737,
      "num_input_tokens_seen": 39851264,
      "step": 3550,
      "train_runtime": 6025.5762,
      "train_tokens_per_second": 6613.685
    },
    {
      "epoch": 1.7060658786824263,
      "grad_norm": 0.7265267372131348,
      "learning_rate": 1.9664667040932577e-05,
      "loss": 0.5013,
      "num_input_tokens_seen": 39904120,
      "step": 3555,
      "train_runtime": 6033.0567,
      "train_tokens_per_second": 6614.246
    },
    {
      "epoch": 1.7084658306833864,
      "grad_norm": 0.8746877312660217,
      "learning_rate": 1.9603319248811542e-05,
      "loss": 0.4541,
      "num_input_tokens_seen": 39957104,
      "step": 3560,
      "train_runtime": 6040.7403,
      "train_tokens_per_second": 6614.604
    },
    {
      "epoch": 1.7108657826843463,
      "grad_norm": 0.690990686416626,
      "learning_rate": 1.9542005523253103e-05,
      "loss": 0.5057,
      "num_input_tokens_seen": 40014640,
      "step": 3565,
      "train_runtime": 6048.7384,
      "train_tokens_per_second": 6615.37
    },
    {
      "epoch": 1.7132657346853062,
      "grad_norm": 0.5996572375297546,
      "learning_rate": 1.948072625130032e-05,
      "loss": 0.5071,
      "num_input_tokens_seen": 40071928,
      "step": 3570,
      "train_runtime": 6056.481,
      "train_tokens_per_second": 6616.371
    },
    {
      "epoch": 1.7156656866862663,
      "grad_norm": 1.0447416305541992,
      "learning_rate": 1.9419481819778785e-05,
      "loss": 0.5099,
      "num_input_tokens_seen": 40125856,
      "step": 3575,
      "train_runtime": 6063.7113,
      "train_tokens_per_second": 6617.376
    },
    {
      "epoch": 1.7180656386872264,
      "grad_norm": 1.0107308626174927,
      "learning_rate": 1.9358272615294153e-05,
      "loss": 0.4823,
      "num_input_tokens_seen": 40181760,
      "step": 3580,
      "train_runtime": 6071.812,
      "train_tokens_per_second": 6617.754
    },
    {
      "epoch": 1.7204655906881863,
      "grad_norm": 0.7742976546287537,
      "learning_rate": 1.9297099024229675e-05,
      "loss": 0.5261,
      "num_input_tokens_seen": 40236472,
      "step": 3585,
      "train_runtime": 6079.4422,
      "train_tokens_per_second": 6618.448
    },
    {
      "epoch": 1.7228655426891462,
      "grad_norm": 0.7820068597793579,
      "learning_rate": 1.923596143274385e-05,
      "loss": 0.4674,
      "num_input_tokens_seen": 40295104,
      "step": 3590,
      "train_runtime": 6087.6682,
      "train_tokens_per_second": 6619.136
    },
    {
      "epoch": 1.725265494690106,
      "grad_norm": 0.6710221171379089,
      "learning_rate": 1.9174860226767876e-05,
      "loss": 0.5175,
      "num_input_tokens_seen": 40345800,
      "step": 3595,
      "train_runtime": 6095.1949,
      "train_tokens_per_second": 6619.28
    },
    {
      "epoch": 1.7276654466910661,
      "grad_norm": 0.7176735401153564,
      "learning_rate": 1.91137957920033e-05,
      "loss": 0.5171,
      "num_input_tokens_seen": 40402256,
      "step": 3600,
      "train_runtime": 6103.2553,
      "train_tokens_per_second": 6619.788
    },
    {
      "epoch": 1.7300653986920262,
      "grad_norm": 0.9111002087593079,
      "learning_rate": 1.905276851391954e-05,
      "loss": 0.4883,
      "num_input_tokens_seen": 40458888,
      "step": 3605,
      "train_runtime": 6111.7843,
      "train_tokens_per_second": 6619.816
    },
    {
      "epoch": 1.7324653506929861,
      "grad_norm": 0.7179924845695496,
      "learning_rate": 1.899177877775146e-05,
      "loss": 0.4852,
      "num_input_tokens_seen": 40516112,
      "step": 3610,
      "train_runtime": 6120.0523,
      "train_tokens_per_second": 6620.223
    },
    {
      "epoch": 1.734865302693946,
      "grad_norm": 0.7747234106063843,
      "learning_rate": 1.8930826968496943e-05,
      "loss": 0.5067,
      "num_input_tokens_seen": 40572824,
      "step": 3615,
      "train_runtime": 6128.2202,
      "train_tokens_per_second": 6620.654
    },
    {
      "epoch": 1.7372652546949061,
      "grad_norm": 0.7451600432395935,
      "learning_rate": 1.8869913470914448e-05,
      "loss": 0.4881,
      "num_input_tokens_seen": 40631656,
      "step": 3620,
      "train_runtime": 6136.6832,
      "train_tokens_per_second": 6621.11
    },
    {
      "epoch": 1.7396652066958662,
      "grad_norm": 0.9544029235839844,
      "learning_rate": 1.880903866952062e-05,
      "loss": 0.5206,
      "num_input_tokens_seen": 40687064,
      "step": 3625,
      "train_runtime": 6144.9437,
      "train_tokens_per_second": 6621.227
    },
    {
      "epoch": 1.742065158696826,
      "grad_norm": 0.7754983901977539,
      "learning_rate": 1.8748202948587813e-05,
      "loss": 0.4979,
      "num_input_tokens_seen": 40743400,
      "step": 3630,
      "train_runtime": 6153.1589,
      "train_tokens_per_second": 6621.542
    },
    {
      "epoch": 1.744465110697786,
      "grad_norm": 0.7278411388397217,
      "learning_rate": 1.8687406692141673e-05,
      "loss": 0.4632,
      "num_input_tokens_seen": 40802376,
      "step": 3635,
      "train_runtime": 6161.8706,
      "train_tokens_per_second": 6621.751
    },
    {
      "epoch": 1.7468650626987459,
      "grad_norm": 0.6943597793579102,
      "learning_rate": 1.8626650283958762e-05,
      "loss": 0.4851,
      "num_input_tokens_seen": 40854616,
      "step": 3640,
      "train_runtime": 6169.6683,
      "train_tokens_per_second": 6621.85
    },
    {
      "epoch": 1.749265014699706,
      "grad_norm": 0.8194776177406311,
      "learning_rate": 1.8565934107564068e-05,
      "loss": 0.4573,
      "num_input_tokens_seen": 40911032,
      "step": 3645,
      "train_runtime": 6178.2227,
      "train_tokens_per_second": 6621.812
    },
    {
      "epoch": 1.751664966700666,
      "grad_norm": 0.8596030473709106,
      "learning_rate": 1.8505258546228623e-05,
      "loss": 0.4862,
      "num_input_tokens_seen": 40970312,
      "step": 3650,
      "train_runtime": 6186.5562,
      "train_tokens_per_second": 6622.475
    },
    {
      "epoch": 1.754064918701626,
      "grad_norm": 0.6645076274871826,
      "learning_rate": 1.8444623982967098e-05,
      "loss": 0.4606,
      "num_input_tokens_seen": 41028576,
      "step": 3655,
      "train_runtime": 6195.0286,
      "train_tokens_per_second": 6622.823
    },
    {
      "epoch": 1.7564648707025858,
      "grad_norm": 0.668375551700592,
      "learning_rate": 1.8384030800535332e-05,
      "loss": 0.4504,
      "num_input_tokens_seen": 41088352,
      "step": 3660,
      "train_runtime": 6203.7002,
      "train_tokens_per_second": 6623.201
    },
    {
      "epoch": 1.758864822703546,
      "grad_norm": 0.6859973669052124,
      "learning_rate": 1.832347938142796e-05,
      "loss": 0.5408,
      "num_input_tokens_seen": 41144096,
      "step": 3665,
      "train_runtime": 6211.4168,
      "train_tokens_per_second": 6623.947
    },
    {
      "epoch": 1.761264774704506,
      "grad_norm": 0.8838623762130737,
      "learning_rate": 1.8262970107875994e-05,
      "loss": 0.4798,
      "num_input_tokens_seen": 41199488,
      "step": 3670,
      "train_runtime": 6219.0044,
      "train_tokens_per_second": 6624.772
    },
    {
      "epoch": 1.763664726705466,
      "grad_norm": 0.8268917202949524,
      "learning_rate": 1.8202503361844393e-05,
      "loss": 0.5226,
      "num_input_tokens_seen": 41254392,
      "step": 3675,
      "train_runtime": 6226.8544,
      "train_tokens_per_second": 6625.238
    },
    {
      "epoch": 1.7660646787064258,
      "grad_norm": 0.9109818339347839,
      "learning_rate": 1.8142079525029672e-05,
      "loss": 0.5196,
      "num_input_tokens_seen": 41310952,
      "step": 3680,
      "train_runtime": 6234.9064,
      "train_tokens_per_second": 6625.753
    },
    {
      "epoch": 1.7684646307073857,
      "grad_norm": 0.8743447661399841,
      "learning_rate": 1.808169897885745e-05,
      "loss": 0.4813,
      "num_input_tokens_seen": 41363784,
      "step": 3685,
      "train_runtime": 6242.8579,
      "train_tokens_per_second": 6625.777
    },
    {
      "epoch": 1.7708645827083458,
      "grad_norm": 0.8028547763824463,
      "learning_rate": 1.802136210448012e-05,
      "loss": 0.4864,
      "num_input_tokens_seen": 41418736,
      "step": 3690,
      "train_runtime": 6250.665,
      "train_tokens_per_second": 6626.293
    },
    {
      "epoch": 1.773264534709306,
      "grad_norm": 0.8359841108322144,
      "learning_rate": 1.796106928277437e-05,
      "loss": 0.451,
      "num_input_tokens_seen": 41480096,
      "step": 3695,
      "train_runtime": 6259.4151,
      "train_tokens_per_second": 6626.833
    },
    {
      "epoch": 1.7756644867102658,
      "grad_norm": 0.6087771654129028,
      "learning_rate": 1.7900820894338786e-05,
      "loss": 0.4405,
      "num_input_tokens_seen": 41535640,
      "step": 3700,
      "train_runtime": 6267.1679,
      "train_tokens_per_second": 6627.498
    },
    {
      "epoch": 1.7780644387112257,
      "grad_norm": 0.7156651020050049,
      "learning_rate": 1.7840617319491527e-05,
      "loss": 0.51,
      "num_input_tokens_seen": 41592104,
      "step": 3705,
      "train_runtime": 6275.4346,
      "train_tokens_per_second": 6627.765
    },
    {
      "epoch": 1.7804643907121858,
      "grad_norm": 0.7992216348648071,
      "learning_rate": 1.7780458938267807e-05,
      "loss": 0.4488,
      "num_input_tokens_seen": 41649776,
      "step": 3710,
      "train_runtime": 6283.7454,
      "train_tokens_per_second": 6628.177
    },
    {
      "epoch": 1.7828643427131459,
      "grad_norm": 0.7933105230331421,
      "learning_rate": 1.772034613041758e-05,
      "loss": 0.4581,
      "num_input_tokens_seen": 41707280,
      "step": 3715,
      "train_runtime": 6291.9245,
      "train_tokens_per_second": 6628.7
    },
    {
      "epoch": 1.7852642947141057,
      "grad_norm": 0.8297272324562073,
      "learning_rate": 1.7660279275403124e-05,
      "loss": 0.4598,
      "num_input_tokens_seen": 41765768,
      "step": 3720,
      "train_runtime": 6300.2081,
      "train_tokens_per_second": 6629.268
    },
    {
      "epoch": 1.7876642467150656,
      "grad_norm": 0.6287772059440613,
      "learning_rate": 1.7600258752396626e-05,
      "loss": 0.4783,
      "num_input_tokens_seen": 41819576,
      "step": 3725,
      "train_runtime": 6308.2419,
      "train_tokens_per_second": 6629.355
    },
    {
      "epoch": 1.7900641987160257,
      "grad_norm": 0.7246582508087158,
      "learning_rate": 1.754028494027782e-05,
      "loss": 0.4821,
      "num_input_tokens_seen": 41876528,
      "step": 3730,
      "train_runtime": 6316.3849,
      "train_tokens_per_second": 6629.825
    },
    {
      "epoch": 1.7924641507169856,
      "grad_norm": 0.752740204334259,
      "learning_rate": 1.748035821763154e-05,
      "loss": 0.4984,
      "num_input_tokens_seen": 41933488,
      "step": 3735,
      "train_runtime": 6324.4895,
      "train_tokens_per_second": 6630.336
    },
    {
      "epoch": 1.7948641027179457,
      "grad_norm": 0.7370868921279907,
      "learning_rate": 1.7420478962745424e-05,
      "loss": 0.4707,
      "num_input_tokens_seen": 41989264,
      "step": 3740,
      "train_runtime": 6332.3923,
      "train_tokens_per_second": 6630.869
    },
    {
      "epoch": 1.7972640547189056,
      "grad_norm": 0.5607179999351501,
      "learning_rate": 1.736064755360742e-05,
      "loss": 0.5113,
      "num_input_tokens_seen": 42045264,
      "step": 3745,
      "train_runtime": 6340.5688,
      "train_tokens_per_second": 6631.15
    },
    {
      "epoch": 1.7996640067198655,
      "grad_norm": 0.851588785648346,
      "learning_rate": 1.7300864367903462e-05,
      "loss": 0.4807,
      "num_input_tokens_seen": 42103712,
      "step": 3750,
      "train_runtime": 6348.5367,
      "train_tokens_per_second": 6632.034
    },
    {
      "epoch": 1.8020639587208256,
      "grad_norm": 0.6969419717788696,
      "learning_rate": 1.7241129783015108e-05,
      "loss": 0.5129,
      "num_input_tokens_seen": 42156568,
      "step": 3755,
      "train_runtime": 6356.2935,
      "train_tokens_per_second": 6632.256
    },
    {
      "epoch": 1.8044639107217857,
      "grad_norm": 0.705589771270752,
      "learning_rate": 1.7181444176017077e-05,
      "loss": 0.4709,
      "num_input_tokens_seen": 42214056,
      "step": 3760,
      "train_runtime": 6364.5049,
      "train_tokens_per_second": 6632.732
    },
    {
      "epoch": 1.8068638627227456,
      "grad_norm": 0.9332826733589172,
      "learning_rate": 1.7121807923674926e-05,
      "loss": 0.4609,
      "num_input_tokens_seen": 42270872,
      "step": 3765,
      "train_runtime": 6372.8289,
      "train_tokens_per_second": 6632.984
    },
    {
      "epoch": 1.8092638147237055,
      "grad_norm": 0.6459842324256897,
      "learning_rate": 1.7062221402442678e-05,
      "loss": 0.5136,
      "num_input_tokens_seen": 42324392,
      "step": 3770,
      "train_runtime": 6380.6203,
      "train_tokens_per_second": 6633.272
    },
    {
      "epoch": 1.8116637667246656,
      "grad_norm": 0.8273303508758545,
      "learning_rate": 1.7002684988460417e-05,
      "loss": 0.465,
      "num_input_tokens_seen": 42381736,
      "step": 3775,
      "train_runtime": 6388.9298,
      "train_tokens_per_second": 6633.621
    },
    {
      "epoch": 1.8140637187256254,
      "grad_norm": 0.6155418157577515,
      "learning_rate": 1.694319905755193e-05,
      "loss": 0.4924,
      "num_input_tokens_seen": 42442312,
      "step": 3780,
      "train_runtime": 6399.8787,
      "train_tokens_per_second": 6631.737
    },
    {
      "epoch": 1.8164636707265855,
      "grad_norm": 1.0188329219818115,
      "learning_rate": 1.6883763985222305e-05,
      "loss": 0.468,
      "num_input_tokens_seen": 42496896,
      "step": 3785,
      "train_runtime": 6409.4045,
      "train_tokens_per_second": 6630.397
    },
    {
      "epoch": 1.8188636227275454,
      "grad_norm": 0.604070782661438,
      "learning_rate": 1.6824380146655633e-05,
      "loss": 0.5271,
      "num_input_tokens_seen": 42554600,
      "step": 3790,
      "train_runtime": 6419.249,
      "train_tokens_per_second": 6629.218
    },
    {
      "epoch": 1.8212635747285053,
      "grad_norm": 0.7463460564613342,
      "learning_rate": 1.6765047916712545e-05,
      "loss": 0.5052,
      "num_input_tokens_seen": 42611168,
      "step": 3795,
      "train_runtime": 6429.2745,
      "train_tokens_per_second": 6627.679
    },
    {
      "epoch": 1.8236635267294654,
      "grad_norm": 0.6504276990890503,
      "learning_rate": 1.6705767669927914e-05,
      "loss": 0.4572,
      "num_input_tokens_seen": 42668344,
      "step": 3800,
      "train_runtime": 6440.1221,
      "train_tokens_per_second": 6625.394
    },
    {
      "epoch": 1.8260634787304255,
      "grad_norm": 0.8336795568466187,
      "learning_rate": 1.6646539780508478e-05,
      "loss": 0.4514,
      "num_input_tokens_seen": 42725880,
      "step": 3805,
      "train_runtime": 6450.437,
      "train_tokens_per_second": 6623.719
    },
    {
      "epoch": 1.8284634307313854,
      "grad_norm": 0.6106321215629578,
      "learning_rate": 1.658736462233045e-05,
      "loss": 0.4553,
      "num_input_tokens_seen": 42785824,
      "step": 3810,
      "train_runtime": 6460.6963,
      "train_tokens_per_second": 6622.479
    },
    {
      "epoch": 1.8308633827323453,
      "grad_norm": 0.9887316823005676,
      "learning_rate": 1.6528242568937174e-05,
      "loss": 0.5347,
      "num_input_tokens_seen": 42840440,
      "step": 3815,
      "train_runtime": 6470.5401,
      "train_tokens_per_second": 6620.845
    },
    {
      "epoch": 1.8332633347333054,
      "grad_norm": 0.6800510287284851,
      "learning_rate": 1.6469173993536787e-05,
      "loss": 0.5028,
      "num_input_tokens_seen": 42893576,
      "step": 3820,
      "train_runtime": 6480.2024,
      "train_tokens_per_second": 6619.172
    },
    {
      "epoch": 1.8356632867342653,
      "grad_norm": 0.5527476668357849,
      "learning_rate": 1.641015926899985e-05,
      "loss": 0.4997,
      "num_input_tokens_seen": 42952744,
      "step": 3825,
      "train_runtime": 6490.1332,
      "train_tokens_per_second": 6618.161
    },
    {
      "epoch": 1.8380632387352254,
      "grad_norm": 0.833662211894989,
      "learning_rate": 1.6351198767856978e-05,
      "loss": 0.5076,
      "num_input_tokens_seen": 43010768,
      "step": 3830,
      "train_runtime": 6498.8469,
      "train_tokens_per_second": 6618.215
    },
    {
      "epoch": 1.8404631907361853,
      "grad_norm": 0.8122771978378296,
      "learning_rate": 1.6292292862296482e-05,
      "loss": 0.4789,
      "num_input_tokens_seen": 43067120,
      "step": 3835,
      "train_runtime": 6506.9502,
      "train_tokens_per_second": 6618.634
    },
    {
      "epoch": 1.8428631427371451,
      "grad_norm": 0.7453281283378601,
      "learning_rate": 1.6233441924162085e-05,
      "loss": 0.472,
      "num_input_tokens_seen": 43124944,
      "step": 3840,
      "train_runtime": 6514.9238,
      "train_tokens_per_second": 6619.409
    },
    {
      "epoch": 1.8452630947381052,
      "grad_norm": 0.7798519730567932,
      "learning_rate": 1.617464632495048e-05,
      "loss": 0.4968,
      "num_input_tokens_seen": 43181496,
      "step": 3845,
      "train_runtime": 6522.7215,
      "train_tokens_per_second": 6620.165
    },
    {
      "epoch": 1.8476630467390653,
      "grad_norm": 0.770413339138031,
      "learning_rate": 1.611590643580906e-05,
      "loss": 0.4799,
      "num_input_tokens_seen": 43236224,
      "step": 3850,
      "train_runtime": 6531.17,
      "train_tokens_per_second": 6619.981
    },
    {
      "epoch": 1.8500629987400252,
      "grad_norm": 0.7712330222129822,
      "learning_rate": 1.6057222627533554e-05,
      "loss": 0.4825,
      "num_input_tokens_seen": 43291464,
      "step": 3855,
      "train_runtime": 6539.3507,
      "train_tokens_per_second": 6620.147
    },
    {
      "epoch": 1.852462950740985,
      "grad_norm": 0.667767345905304,
      "learning_rate": 1.599859527056566e-05,
      "loss": 0.4525,
      "num_input_tokens_seen": 43349520,
      "step": 3860,
      "train_runtime": 6547.7333,
      "train_tokens_per_second": 6620.538
    },
    {
      "epoch": 1.8548629027419452,
      "grad_norm": 0.8143635988235474,
      "learning_rate": 1.594002473499073e-05,
      "loss": 0.4601,
      "num_input_tokens_seen": 43410208,
      "step": 3865,
      "train_runtime": 6556.4635,
      "train_tokens_per_second": 6620.979
    },
    {
      "epoch": 1.857262854742905,
      "grad_norm": 0.6884592771530151,
      "learning_rate": 1.588151139053544e-05,
      "loss": 0.4458,
      "num_input_tokens_seen": 43469344,
      "step": 3870,
      "train_runtime": 6565.0785,
      "train_tokens_per_second": 6621.298
    },
    {
      "epoch": 1.8596628067438652,
      "grad_norm": 0.8038159608840942,
      "learning_rate": 1.5823055606565458e-05,
      "loss": 0.4859,
      "num_input_tokens_seen": 43526440,
      "step": 3875,
      "train_runtime": 6573.964,
      "train_tokens_per_second": 6621.034
    },
    {
      "epoch": 1.862062758744825,
      "grad_norm": 0.6315177083015442,
      "learning_rate": 1.5764657752083072e-05,
      "loss": 0.4795,
      "num_input_tokens_seen": 43583936,
      "step": 3880,
      "train_runtime": 6582.4382,
      "train_tokens_per_second": 6621.245
    },
    {
      "epoch": 1.864462710745785,
      "grad_norm": 0.7281184792518616,
      "learning_rate": 1.5706318195724894e-05,
      "loss": 0.4707,
      "num_input_tokens_seen": 43639480,
      "step": 3885,
      "train_runtime": 6590.3977,
      "train_tokens_per_second": 6621.676
    },
    {
      "epoch": 1.866862662746745,
      "grad_norm": 0.8681549429893494,
      "learning_rate": 1.5648037305759566e-05,
      "loss": 0.4557,
      "num_input_tokens_seen": 43690520,
      "step": 3890,
      "train_runtime": 6598.0076,
      "train_tokens_per_second": 6621.775
    },
    {
      "epoch": 1.8692626147477052,
      "grad_norm": 0.9573807120323181,
      "learning_rate": 1.5589815450085355e-05,
      "loss": 0.4621,
      "num_input_tokens_seen": 43749480,
      "step": 3895,
      "train_runtime": 6606.515,
      "train_tokens_per_second": 6622.172
    },
    {
      "epoch": 1.871662566748665,
      "grad_norm": 0.9825738072395325,
      "learning_rate": 1.5531652996227885e-05,
      "loss": 0.4627,
      "num_input_tokens_seen": 43799824,
      "step": 3900,
      "train_runtime": 6614.0046,
      "train_tokens_per_second": 6622.285
    },
    {
      "epoch": 1.874062518749625,
      "grad_norm": 0.8160600662231445,
      "learning_rate": 1.5473550311337833e-05,
      "loss": 0.4806,
      "num_input_tokens_seen": 43858032,
      "step": 3905,
      "train_runtime": 6622.3127,
      "train_tokens_per_second": 6622.767
    },
    {
      "epoch": 1.876462470750585,
      "grad_norm": 0.8037713766098022,
      "learning_rate": 1.541550776218855e-05,
      "loss": 0.4767,
      "num_input_tokens_seen": 43914232,
      "step": 3910,
      "train_runtime": 6630.3703,
      "train_tokens_per_second": 6623.194
    },
    {
      "epoch": 1.878862422751545,
      "grad_norm": 0.8697477579116821,
      "learning_rate": 1.535752571517379e-05,
      "loss": 0.4582,
      "num_input_tokens_seen": 43970744,
      "step": 3915,
      "train_runtime": 6638.2775,
      "train_tokens_per_second": 6623.818
    },
    {
      "epoch": 1.881262374752505,
      "grad_norm": 0.6897442936897278,
      "learning_rate": 1.529960453630538e-05,
      "loss": 0.4725,
      "num_input_tokens_seen": 44028408,
      "step": 3920,
      "train_runtime": 6646.2538,
      "train_tokens_per_second": 6624.545
    },
    {
      "epoch": 1.883662326753465,
      "grad_norm": 0.7267577052116394,
      "learning_rate": 1.5241744591210954e-05,
      "loss": 0.4661,
      "num_input_tokens_seen": 44085968,
      "step": 3925,
      "train_runtime": 6654.4818,
      "train_tokens_per_second": 6625.004
    },
    {
      "epoch": 1.8860622787544248,
      "grad_norm": 0.6550572514533997,
      "learning_rate": 1.5183946245131563e-05,
      "loss": 0.5171,
      "num_input_tokens_seen": 44143360,
      "step": 3930,
      "train_runtime": 6662.7155,
      "train_tokens_per_second": 6625.431
    },
    {
      "epoch": 1.8884622307553849,
      "grad_norm": 0.8330610394477844,
      "learning_rate": 1.5126209862919427e-05,
      "loss": 0.4935,
      "num_input_tokens_seen": 44193864,
      "step": 3935,
      "train_runtime": 6669.9997,
      "train_tokens_per_second": 6625.767
    },
    {
      "epoch": 1.890862182756345,
      "grad_norm": 0.8436587452888489,
      "learning_rate": 1.506853580903564e-05,
      "loss": 0.5181,
      "num_input_tokens_seen": 44249464,
      "step": 3940,
      "train_runtime": 6677.7583,
      "train_tokens_per_second": 6626.395
    },
    {
      "epoch": 1.8932621347573049,
      "grad_norm": 0.8945364356040955,
      "learning_rate": 1.5010924447547808e-05,
      "loss": 0.445,
      "num_input_tokens_seen": 44306480,
      "step": 3945,
      "train_runtime": 6685.9167,
      "train_tokens_per_second": 6626.837
    },
    {
      "epoch": 1.8956620867582648,
      "grad_norm": 0.7293525338172913,
      "learning_rate": 1.4953376142127828e-05,
      "loss": 0.4933,
      "num_input_tokens_seen": 44363776,
      "step": 3950,
      "train_runtime": 6693.7184,
      "train_tokens_per_second": 6627.673
    },
    {
      "epoch": 1.8980620387592249,
      "grad_norm": 0.8093637228012085,
      "learning_rate": 1.4895891256049548e-05,
      "loss": 0.4952,
      "num_input_tokens_seen": 44419016,
      "step": 3955,
      "train_runtime": 6701.9236,
      "train_tokens_per_second": 6627.801
    },
    {
      "epoch": 1.900461990760185,
      "grad_norm": 0.8808810710906982,
      "learning_rate": 1.483847015218647e-05,
      "loss": 0.5036,
      "num_input_tokens_seen": 44473296,
      "step": 3960,
      "train_runtime": 6709.8008,
      "train_tokens_per_second": 6628.11
    },
    {
      "epoch": 1.9028619427611448,
      "grad_norm": 0.606708288192749,
      "learning_rate": 1.4781113193009466e-05,
      "loss": 0.4709,
      "num_input_tokens_seen": 44533064,
      "step": 3965,
      "train_runtime": 6718.435,
      "train_tokens_per_second": 6628.488
    },
    {
      "epoch": 1.9052618947621047,
      "grad_norm": 0.7501396536827087,
      "learning_rate": 1.472382074058451e-05,
      "loss": 0.487,
      "num_input_tokens_seen": 44591088,
      "step": 3970,
      "train_runtime": 6726.4717,
      "train_tokens_per_second": 6629.194
    },
    {
      "epoch": 1.9076618467630646,
      "grad_norm": 0.7472719550132751,
      "learning_rate": 1.4666593156570376e-05,
      "loss": 0.4822,
      "num_input_tokens_seen": 44639864,
      "step": 3975,
      "train_runtime": 6733.726,
      "train_tokens_per_second": 6629.296
    },
    {
      "epoch": 1.9100617987640247,
      "grad_norm": 0.9028266668319702,
      "learning_rate": 1.460943080221635e-05,
      "loss": 0.4792,
      "num_input_tokens_seen": 44697568,
      "step": 3980,
      "train_runtime": 6742.2116,
      "train_tokens_per_second": 6629.511
    },
    {
      "epoch": 1.9124617507649848,
      "grad_norm": 0.6775950193405151,
      "learning_rate": 1.4552334038359938e-05,
      "loss": 0.4861,
      "num_input_tokens_seen": 44750848,
      "step": 3985,
      "train_runtime": 6749.8459,
      "train_tokens_per_second": 6629.907
    },
    {
      "epoch": 1.9148617027659447,
      "grad_norm": 0.7115968465805054,
      "learning_rate": 1.4495303225424656e-05,
      "loss": 0.4546,
      "num_input_tokens_seen": 44804648,
      "step": 3990,
      "train_runtime": 6758.0597,
      "train_tokens_per_second": 6629.809
    },
    {
      "epoch": 1.9172616547669046,
      "grad_norm": 0.8527563214302063,
      "learning_rate": 1.4438338723417654e-05,
      "loss": 0.5007,
      "num_input_tokens_seen": 44860632,
      "step": 3995,
      "train_runtime": 6766.2816,
      "train_tokens_per_second": 6630.027
    },
    {
      "epoch": 1.9196616067678647,
      "grad_norm": 0.8954775333404541,
      "learning_rate": 1.4381440891927512e-05,
      "loss": 0.5301,
      "num_input_tokens_seen": 44913712,
      "step": 4000,
      "train_runtime": 6774.2353,
      "train_tokens_per_second": 6630.078
    },
    {
      "epoch": 1.9220615587688248,
      "grad_norm": 0.7284995317459106,
      "learning_rate": 1.432461009012196e-05,
      "loss": 0.5028,
      "num_input_tokens_seen": 44970992,
      "step": 4005,
      "train_runtime": 6782.3775,
      "train_tokens_per_second": 6630.565
    },
    {
      "epoch": 1.9244615107697847,
      "grad_norm": 1.017869472503662,
      "learning_rate": 1.4267846676745598e-05,
      "loss": 0.4618,
      "num_input_tokens_seen": 45024328,
      "step": 4010,
      "train_runtime": 6790.5882,
      "train_tokens_per_second": 6630.402
    },
    {
      "epoch": 1.9268614627707445,
      "grad_norm": 0.7588083148002625,
      "learning_rate": 1.4211151010117627e-05,
      "loss": 0.5078,
      "num_input_tokens_seen": 45082296,
      "step": 4015,
      "train_runtime": 6798.9435,
      "train_tokens_per_second": 6630.78
    },
    {
      "epoch": 1.9292614147717044,
      "grad_norm": 0.66818767786026,
      "learning_rate": 1.4154523448129597e-05,
      "loss": 0.4823,
      "num_input_tokens_seen": 45137992,
      "step": 4020,
      "train_runtime": 6806.9385,
      "train_tokens_per_second": 6631.174
    },
    {
      "epoch": 1.9316613667726645,
      "grad_norm": 0.700678825378418,
      "learning_rate": 1.4097964348243172e-05,
      "loss": 0.4639,
      "num_input_tokens_seen": 45197208,
      "step": 4025,
      "train_runtime": 6815.6104,
      "train_tokens_per_second": 6631.425
    },
    {
      "epoch": 1.9340613187736246,
      "grad_norm": 0.8906050324440002,
      "learning_rate": 1.4041474067487814e-05,
      "loss": 0.4599,
      "num_input_tokens_seen": 45256040,
      "step": 4030,
      "train_runtime": 6824.0323,
      "train_tokens_per_second": 6631.862
    },
    {
      "epoch": 1.9364612707745845,
      "grad_norm": 0.8205930590629578,
      "learning_rate": 1.3985052962458593e-05,
      "loss": 0.4903,
      "num_input_tokens_seen": 45311968,
      "step": 4035,
      "train_runtime": 6831.8772,
      "train_tokens_per_second": 6632.433
    },
    {
      "epoch": 1.9388612227755444,
      "grad_norm": 0.9148489832878113,
      "learning_rate": 1.3928701389313897e-05,
      "loss": 0.4939,
      "num_input_tokens_seen": 45361584,
      "step": 4040,
      "train_runtime": 6839.5045,
      "train_tokens_per_second": 6632.291
    },
    {
      "epoch": 1.9412611747765045,
      "grad_norm": 1.021208643913269,
      "learning_rate": 1.3872419703773187e-05,
      "loss": 0.4876,
      "num_input_tokens_seen": 45421616,
      "step": 4045,
      "train_runtime": 6848.0389,
      "train_tokens_per_second": 6632.792
    },
    {
      "epoch": 1.9436611267774646,
      "grad_norm": 0.8669795393943787,
      "learning_rate": 1.3816208261114755e-05,
      "loss": 0.5142,
      "num_input_tokens_seen": 45475784,
      "step": 4050,
      "train_runtime": 6855.5247,
      "train_tokens_per_second": 6633.451
    },
    {
      "epoch": 1.9460610787784245,
      "grad_norm": 1.084006428718567,
      "learning_rate": 1.3760067416173511e-05,
      "loss": 0.4949,
      "num_input_tokens_seen": 45529816,
      "step": 4055,
      "train_runtime": 6863.458,
      "train_tokens_per_second": 6633.655
    },
    {
      "epoch": 1.9484610307793844,
      "grad_norm": 0.639717161655426,
      "learning_rate": 1.3703997523338688e-05,
      "loss": 0.4917,
      "num_input_tokens_seen": 45585432,
      "step": 4060,
      "train_runtime": 6870.9893,
      "train_tokens_per_second": 6634.479
    },
    {
      "epoch": 1.9508609827803443,
      "grad_norm": 0.7942274808883667,
      "learning_rate": 1.3647998936551643e-05,
      "loss": 0.4542,
      "num_input_tokens_seen": 45642256,
      "step": 4065,
      "train_runtime": 6879.1089,
      "train_tokens_per_second": 6634.908
    },
    {
      "epoch": 1.9532609347813044,
      "grad_norm": 0.7706002593040466,
      "learning_rate": 1.3592072009303603e-05,
      "loss": 0.4767,
      "num_input_tokens_seen": 45700704,
      "step": 4070,
      "train_runtime": 6887.1919,
      "train_tokens_per_second": 6635.608
    },
    {
      "epoch": 1.9556608867822645,
      "grad_norm": 0.6891798377037048,
      "learning_rate": 1.3536217094633471e-05,
      "loss": 0.4649,
      "num_input_tokens_seen": 45754672,
      "step": 4075,
      "train_runtime": 6895.2959,
      "train_tokens_per_second": 6635.636
    },
    {
      "epoch": 1.9580608387832243,
      "grad_norm": 0.6927337646484375,
      "learning_rate": 1.3480434545125562e-05,
      "loss": 0.4794,
      "num_input_tokens_seen": 45805360,
      "step": 4080,
      "train_runtime": 6902.6999,
      "train_tokens_per_second": 6635.861
    },
    {
      "epoch": 1.9604607907841842,
      "grad_norm": 0.7922900319099426,
      "learning_rate": 1.3424724712907355e-05,
      "loss": 0.5073,
      "num_input_tokens_seen": 45859408,
      "step": 4085,
      "train_runtime": 6910.3792,
      "train_tokens_per_second": 6636.309
    },
    {
      "epoch": 1.9628607427851443,
      "grad_norm": 0.5073052048683167,
      "learning_rate": 1.3369087949647352e-05,
      "loss": 0.4844,
      "num_input_tokens_seen": 45915912,
      "step": 4090,
      "train_runtime": 6918.4066,
      "train_tokens_per_second": 6636.776
    },
    {
      "epoch": 1.9652606947861044,
      "grad_norm": 0.805068850517273,
      "learning_rate": 1.3313524606552763e-05,
      "loss": 0.4683,
      "num_input_tokens_seen": 45972424,
      "step": 4095,
      "train_runtime": 6926.7284,
      "train_tokens_per_second": 6636.961
    },
    {
      "epoch": 1.9676606467870643,
      "grad_norm": 0.7410593628883362,
      "learning_rate": 1.3258035034367338e-05,
      "loss": 0.4847,
      "num_input_tokens_seen": 46029616,
      "step": 4100,
      "train_runtime": 6934.891,
      "train_tokens_per_second": 6637.396
    },
    {
      "epoch": 1.9700605987880242,
      "grad_norm": 0.9381468296051025,
      "learning_rate": 1.3202619583369189e-05,
      "loss": 0.5131,
      "num_input_tokens_seen": 46087816,
      "step": 4105,
      "train_runtime": 6943.9707,
      "train_tokens_per_second": 6637.098
    },
    {
      "epoch": 1.972460550788984,
      "grad_norm": 0.7725812792778015,
      "learning_rate": 1.3147278603368487e-05,
      "loss": 0.496,
      "num_input_tokens_seen": 46141504,
      "step": 4110,
      "train_runtime": 6951.6679,
      "train_tokens_per_second": 6637.472
    },
    {
      "epoch": 1.9748605027899442,
      "grad_norm": 0.9349031448364258,
      "learning_rate": 1.3092012443705332e-05,
      "loss": 0.4513,
      "num_input_tokens_seen": 46202072,
      "step": 4115,
      "train_runtime": 6960.2643,
      "train_tokens_per_second": 6637.977
    },
    {
      "epoch": 1.9772604547909043,
      "grad_norm": 0.5486748218536377,
      "learning_rate": 1.3036821453247506e-05,
      "loss": 0.4997,
      "num_input_tokens_seen": 46258400,
      "step": 4120,
      "train_runtime": 6968.5186,
      "train_tokens_per_second": 6638.197
    },
    {
      "epoch": 1.9796604067918642,
      "grad_norm": 0.8410947322845459,
      "learning_rate": 1.2981705980388295e-05,
      "loss": 0.5062,
      "num_input_tokens_seen": 46309656,
      "step": 4125,
      "train_runtime": 6975.9975,
      "train_tokens_per_second": 6638.428
    },
    {
      "epoch": 1.982060358792824,
      "grad_norm": 0.6465336680412292,
      "learning_rate": 1.2926666373044294e-05,
      "loss": 0.4891,
      "num_input_tokens_seen": 46366888,
      "step": 4130,
      "train_runtime": 6984.2364,
      "train_tokens_per_second": 6638.791
    },
    {
      "epoch": 1.9844603107937842,
      "grad_norm": 0.6658479571342468,
      "learning_rate": 1.2871702978653163e-05,
      "loss": 0.5002,
      "num_input_tokens_seen": 46419304,
      "step": 4135,
      "train_runtime": 6991.7902,
      "train_tokens_per_second": 6639.116
    },
    {
      "epoch": 1.9868602627947443,
      "grad_norm": 0.8227950930595398,
      "learning_rate": 1.28168161441715e-05,
      "loss": 0.5105,
      "num_input_tokens_seen": 46469520,
      "step": 4140,
      "train_runtime": 6999.0924,
      "train_tokens_per_second": 6639.364
    },
    {
      "epoch": 1.9892602147957041,
      "grad_norm": 1.1198500394821167,
      "learning_rate": 1.27620062160726e-05,
      "loss": 0.5154,
      "num_input_tokens_seen": 46523240,
      "step": 4145,
      "train_runtime": 7007.0718,
      "train_tokens_per_second": 6639.47
    },
    {
      "epoch": 1.991660166796664,
      "grad_norm": 0.8290591835975647,
      "learning_rate": 1.2707273540344274e-05,
      "loss": 0.5361,
      "num_input_tokens_seen": 46577712,
      "step": 4150,
      "train_runtime": 7015.0992,
      "train_tokens_per_second": 6639.637
    },
    {
      "epoch": 1.994060118797624,
      "grad_norm": 0.6306242346763611,
      "learning_rate": 1.265261846248672e-05,
      "loss": 0.4873,
      "num_input_tokens_seen": 46629984,
      "step": 4155,
      "train_runtime": 7022.7592,
      "train_tokens_per_second": 6639.838
    },
    {
      "epoch": 1.996460070798584,
      "grad_norm": 0.8492105007171631,
      "learning_rate": 1.2598041327510254e-05,
      "loss": 0.4779,
      "num_input_tokens_seen": 46689664,
      "step": 4160,
      "train_runtime": 7031.9599,
      "train_tokens_per_second": 6639.637
    },
    {
      "epoch": 1.9988600227995441,
      "grad_norm": 0.8231053352355957,
      "learning_rate": 1.25435424799332e-05,
      "loss": 0.4451,
      "num_input_tokens_seen": 46752192,
      "step": 4165,
      "train_runtime": 7041.1099,
      "train_tokens_per_second": 6639.89
    },
    {
      "epoch": 2.000959980800384,
      "grad_norm": 0.6937538385391235,
      "learning_rate": 1.2489122263779684e-05,
      "loss": 0.4431,
      "num_input_tokens_seen": 46800120,
      "step": 4170,
      "train_runtime": 7048.3249,
      "train_tokens_per_second": 6639.893
    },
    {
      "epoch": 2.003359932801344,
      "grad_norm": 0.5429336428642273,
      "learning_rate": 1.2434781022577476e-05,
      "loss": 0.4561,
      "num_input_tokens_seen": 46859352,
      "step": 4175,
      "train_runtime": 7056.8347,
      "train_tokens_per_second": 6640.279
    },
    {
      "epoch": 2.005759884802304,
      "grad_norm": 0.7788823843002319,
      "learning_rate": 1.2380519099355831e-05,
      "loss": 0.4531,
      "num_input_tokens_seen": 46918656,
      "step": 4180,
      "train_runtime": 7065.0446,
      "train_tokens_per_second": 6640.957
    },
    {
      "epoch": 2.008159836803264,
      "grad_norm": 0.7995026111602783,
      "learning_rate": 1.2326336836643274e-05,
      "loss": 0.5048,
      "num_input_tokens_seen": 46976896,
      "step": 4185,
      "train_runtime": 7073.7177,
      "train_tokens_per_second": 6641.048
    },
    {
      "epoch": 2.010559788804224,
      "grad_norm": 0.7401773929595947,
      "learning_rate": 1.227223457646551e-05,
      "loss": 0.4846,
      "num_input_tokens_seen": 47033584,
      "step": 4190,
      "train_runtime": 7081.7376,
      "train_tokens_per_second": 6641.532
    },
    {
      "epoch": 2.012959740805184,
      "grad_norm": 1.0051988363265991,
      "learning_rate": 1.22182126603432e-05,
      "loss": 0.497,
      "num_input_tokens_seen": 47084560,
      "step": 4195,
      "train_runtime": 7089.243,
      "train_tokens_per_second": 6641.691
    },
    {
      "epoch": 2.0153596928061437,
      "grad_norm": 0.7586055994033813,
      "learning_rate": 1.2164271429289837e-05,
      "loss": 0.4671,
      "num_input_tokens_seen": 47141040,
      "step": 4200,
      "train_runtime": 7097.5162,
      "train_tokens_per_second": 6641.907
    },
    {
      "epoch": 2.017759644807104,
      "grad_norm": 0.6509086489677429,
      "learning_rate": 1.2110411223809612e-05,
      "loss": 0.4329,
      "num_input_tokens_seen": 47198656,
      "step": 4205,
      "train_runtime": 7107.6834,
      "train_tokens_per_second": 6640.512
    },
    {
      "epoch": 2.020159596808064,
      "grad_norm": 0.7223982810974121,
      "learning_rate": 1.2056632383895217e-05,
      "loss": 0.4903,
      "num_input_tokens_seen": 47255504,
      "step": 4210,
      "train_runtime": 7117.033,
      "train_tokens_per_second": 6639.776
    },
    {
      "epoch": 2.0225595488090238,
      "grad_norm": 0.9436632990837097,
      "learning_rate": 1.2002935249025732e-05,
      "loss": 0.4788,
      "num_input_tokens_seen": 47307728,
      "step": 4215,
      "train_runtime": 7126.5999,
      "train_tokens_per_second": 6638.191
    },
    {
      "epoch": 2.0249595008099837,
      "grad_norm": 0.7383816838264465,
      "learning_rate": 1.1949320158164466e-05,
      "loss": 0.4692,
      "num_input_tokens_seen": 47365504,
      "step": 4220,
      "train_runtime": 7136.5388,
      "train_tokens_per_second": 6637.041
    },
    {
      "epoch": 2.027359452810944,
      "grad_norm": 0.8641635775566101,
      "learning_rate": 1.1895787449756834e-05,
      "loss": 0.4565,
      "num_input_tokens_seen": 47424664,
      "step": 4225,
      "train_runtime": 7147.349,
      "train_tokens_per_second": 6635.28
    },
    {
      "epoch": 2.029759404811904,
      "grad_norm": 0.8401957750320435,
      "learning_rate": 1.1842337461728232e-05,
      "loss": 0.5177,
      "num_input_tokens_seen": 47482624,
      "step": 4230,
      "train_runtime": 7158.1241,
      "train_tokens_per_second": 6633.389
    },
    {
      "epoch": 2.0321593568128637,
      "grad_norm": 0.7083563208580017,
      "learning_rate": 1.1788970531481832e-05,
      "loss": 0.4509,
      "num_input_tokens_seen": 47541264,
      "step": 4235,
      "train_runtime": 7168.9418,
      "train_tokens_per_second": 6631.559
    },
    {
      "epoch": 2.0345593088138236,
      "grad_norm": 0.7770140171051025,
      "learning_rate": 1.1735686995896559e-05,
      "loss": 0.5111,
      "num_input_tokens_seen": 47596256,
      "step": 4240,
      "train_runtime": 7178.4941,
      "train_tokens_per_second": 6630.396
    },
    {
      "epoch": 2.0369592608147835,
      "grad_norm": 0.8754630088806152,
      "learning_rate": 1.1682487191324868e-05,
      "loss": 0.5576,
      "num_input_tokens_seen": 47649808,
      "step": 4245,
      "train_runtime": 7188.2139,
      "train_tokens_per_second": 6628.88
    },
    {
      "epoch": 2.039359212815744,
      "grad_norm": 0.6423441767692566,
      "learning_rate": 1.1629371453590671e-05,
      "loss": 0.4836,
      "num_input_tokens_seen": 47709328,
      "step": 4250,
      "train_runtime": 7198.5845,
      "train_tokens_per_second": 6627.599
    },
    {
      "epoch": 2.0417591648167037,
      "grad_norm": 0.7070155143737793,
      "learning_rate": 1.1576340117987233e-05,
      "loss": 0.5057,
      "num_input_tokens_seen": 47765800,
      "step": 4255,
      "train_runtime": 7209.1424,
      "train_tokens_per_second": 6625.726
    },
    {
      "epoch": 2.0441591168176636,
      "grad_norm": 0.8831612467765808,
      "learning_rate": 1.1523393519274996e-05,
      "loss": 0.4447,
      "num_input_tokens_seen": 47820320,
      "step": 4260,
      "train_runtime": 7218.3344,
      "train_tokens_per_second": 6624.841
    },
    {
      "epoch": 2.0465590688186235,
      "grad_norm": 0.6510924100875854,
      "learning_rate": 1.1470531991679523e-05,
      "loss": 0.5101,
      "num_input_tokens_seen": 47876928,
      "step": 4265,
      "train_runtime": 7228.3009,
      "train_tokens_per_second": 6623.538
    },
    {
      "epoch": 2.048959020819584,
      "grad_norm": 0.6335709691047668,
      "learning_rate": 1.1417755868889343e-05,
      "loss": 0.4432,
      "num_input_tokens_seen": 47933280,
      "step": 4270,
      "train_runtime": 7237.6205,
      "train_tokens_per_second": 6622.795
    },
    {
      "epoch": 2.0513589728205437,
      "grad_norm": 0.7883151769638062,
      "learning_rate": 1.1365065484053895e-05,
      "loss": 0.4606,
      "num_input_tokens_seen": 47991280,
      "step": 4275,
      "train_runtime": 7247.4539,
      "train_tokens_per_second": 6621.812
    },
    {
      "epoch": 2.0537589248215036,
      "grad_norm": 0.8296838998794556,
      "learning_rate": 1.1312461169781383e-05,
      "loss": 0.4669,
      "num_input_tokens_seen": 48045896,
      "step": 4280,
      "train_runtime": 7257.2601,
      "train_tokens_per_second": 6620.391
    },
    {
      "epoch": 2.0561588768224635,
      "grad_norm": 0.8068815469741821,
      "learning_rate": 1.1259943258136682e-05,
      "loss": 0.4849,
      "num_input_tokens_seen": 48105824,
      "step": 4285,
      "train_runtime": 7268.0346,
      "train_tokens_per_second": 6618.822
    },
    {
      "epoch": 2.0585588288234233,
      "grad_norm": 0.977588415145874,
      "learning_rate": 1.1207512080639273e-05,
      "loss": 0.4956,
      "num_input_tokens_seen": 48160632,
      "step": 4290,
      "train_runtime": 7277.9569,
      "train_tokens_per_second": 6617.329
    },
    {
      "epoch": 2.0609587808243837,
      "grad_norm": 0.7364087700843811,
      "learning_rate": 1.1155167968261105e-05,
      "loss": 0.4357,
      "num_input_tokens_seen": 48217992,
      "step": 4295,
      "train_runtime": 7288.3331,
      "train_tokens_per_second": 6615.778
    },
    {
      "epoch": 2.0633587328253435,
      "grad_norm": 0.757265031337738,
      "learning_rate": 1.1102911251424526e-05,
      "loss": 0.4907,
      "num_input_tokens_seen": 48276216,
      "step": 4300,
      "train_runtime": 7298.7103,
      "train_tokens_per_second": 6614.349
    },
    {
      "epoch": 2.0657586848263034,
      "grad_norm": 0.773041844367981,
      "learning_rate": 1.1050742260000226e-05,
      "loss": 0.4687,
      "num_input_tokens_seen": 48331296,
      "step": 4305,
      "train_runtime": 7308.4104,
      "train_tokens_per_second": 6613.106
    },
    {
      "epoch": 2.0681586368272633,
      "grad_norm": 1.1142570972442627,
      "learning_rate": 1.0998661323305107e-05,
      "loss": 0.4574,
      "num_input_tokens_seen": 48387368,
      "step": 4310,
      "train_runtime": 7317.8081,
      "train_tokens_per_second": 6612.276
    },
    {
      "epoch": 2.0705585888282236,
      "grad_norm": 1.0279673337936401,
      "learning_rate": 1.094666877010023e-05,
      "loss": 0.5004,
      "num_input_tokens_seen": 48440296,
      "step": 4315,
      "train_runtime": 7327.8587,
      "train_tokens_per_second": 6610.43
    },
    {
      "epoch": 2.0729585408291835,
      "grad_norm": 0.9261734485626221,
      "learning_rate": 1.0894764928588721e-05,
      "loss": 0.4747,
      "num_input_tokens_seen": 48492496,
      "step": 4320,
      "train_runtime": 7336.9344,
      "train_tokens_per_second": 6609.368
    },
    {
      "epoch": 2.0753584928301434,
      "grad_norm": 1.1111286878585815,
      "learning_rate": 1.0842950126413742e-05,
      "loss": 0.5137,
      "num_input_tokens_seen": 48549184,
      "step": 4325,
      "train_runtime": 7346.6107,
      "train_tokens_per_second": 6608.378
    },
    {
      "epoch": 2.0777584448311033,
      "grad_norm": 0.8526914119720459,
      "learning_rate": 1.0791224690656384e-05,
      "loss": 0.4573,
      "num_input_tokens_seen": 48601016,
      "step": 4330,
      "train_runtime": 7354.8806,
      "train_tokens_per_second": 6607.995
    },
    {
      "epoch": 2.080158396832063,
      "grad_norm": 0.5850500464439392,
      "learning_rate": 1.0739588947833593e-05,
      "loss": 0.4814,
      "num_input_tokens_seen": 48655504,
      "step": 4335,
      "train_runtime": 7363.7381,
      "train_tokens_per_second": 6607.446
    },
    {
      "epoch": 2.0825583488330235,
      "grad_norm": 1.0572696924209595,
      "learning_rate": 1.068804322389616e-05,
      "loss": 0.4997,
      "num_input_tokens_seen": 48708616,
      "step": 4340,
      "train_runtime": 7372.6454,
      "train_tokens_per_second": 6606.667
    },
    {
      "epoch": 2.0849583008339834,
      "grad_norm": 0.5862051844596863,
      "learning_rate": 1.06365878442266e-05,
      "loss": 0.4459,
      "num_input_tokens_seen": 48769440,
      "step": 4345,
      "train_runtime": 7382.0777,
      "train_tokens_per_second": 6606.465
    },
    {
      "epoch": 2.0873582528349433,
      "grad_norm": 0.7404434680938721,
      "learning_rate": 1.0585223133637143e-05,
      "loss": 0.4882,
      "num_input_tokens_seen": 48827720,
      "step": 4350,
      "train_runtime": 7391.0584,
      "train_tokens_per_second": 6606.323
    },
    {
      "epoch": 2.089758204835903,
      "grad_norm": 0.7802624106407166,
      "learning_rate": 1.053394941636768e-05,
      "loss": 0.5322,
      "num_input_tokens_seen": 48879552,
      "step": 4355,
      "train_runtime": 7398.7138,
      "train_tokens_per_second": 6606.493
    },
    {
      "epoch": 2.0921581568368635,
      "grad_norm": 0.7315226197242737,
      "learning_rate": 1.0482767016083694e-05,
      "loss": 0.4515,
      "num_input_tokens_seen": 48932848,
      "step": 4360,
      "train_runtime": 7406.1993,
      "train_tokens_per_second": 6607.012
    },
    {
      "epoch": 2.0945581088378233,
      "grad_norm": 0.967128574848175,
      "learning_rate": 1.0431676255874232e-05,
      "loss": 0.5213,
      "num_input_tokens_seen": 48989744,
      "step": 4365,
      "train_runtime": 7414.1239,
      "train_tokens_per_second": 6607.624
    },
    {
      "epoch": 2.0969580608387832,
      "grad_norm": 0.731792151927948,
      "learning_rate": 1.0380677458249852e-05,
      "loss": 0.4821,
      "num_input_tokens_seen": 49043888,
      "step": 4370,
      "train_runtime": 7421.75,
      "train_tokens_per_second": 6608.13
    },
    {
      "epoch": 2.099358012839743,
      "grad_norm": 0.8551647067070007,
      "learning_rate": 1.0329770945140618e-05,
      "loss": 0.5018,
      "num_input_tokens_seen": 49099976,
      "step": 4375,
      "train_runtime": 7429.6538,
      "train_tokens_per_second": 6608.649
    },
    {
      "epoch": 2.101757964840703,
      "grad_norm": 0.8482736945152283,
      "learning_rate": 1.0278957037894048e-05,
      "loss": 0.5266,
      "num_input_tokens_seen": 49158168,
      "step": 4380,
      "train_runtime": 7437.7108,
      "train_tokens_per_second": 6609.314
    },
    {
      "epoch": 2.1041579168416633,
      "grad_norm": 0.8070186376571655,
      "learning_rate": 1.0228236057273063e-05,
      "loss": 0.4906,
      "num_input_tokens_seen": 49209920,
      "step": 4385,
      "train_runtime": 7445.1797,
      "train_tokens_per_second": 6609.635
    },
    {
      "epoch": 2.106557868842623,
      "grad_norm": 0.7493661046028137,
      "learning_rate": 1.0177608323454008e-05,
      "loss": 0.5067,
      "num_input_tokens_seen": 49262384,
      "step": 4390,
      "train_runtime": 7452.9186,
      "train_tokens_per_second": 6609.811
    },
    {
      "epoch": 2.108957820843583,
      "grad_norm": 0.7874744534492493,
      "learning_rate": 1.0127074156024594e-05,
      "loss": 0.4642,
      "num_input_tokens_seen": 49315632,
      "step": 4395,
      "train_runtime": 7460.8462,
      "train_tokens_per_second": 6609.925
    },
    {
      "epoch": 2.111357772844543,
      "grad_norm": 0.9224854707717896,
      "learning_rate": 1.0076633873981883e-05,
      "loss": 0.4984,
      "num_input_tokens_seen": 49371384,
      "step": 4400,
      "train_runtime": 7468.9769,
      "train_tokens_per_second": 6610.194
    },
    {
      "epoch": 2.1137577248455033,
      "grad_norm": 0.8540477156639099,
      "learning_rate": 1.0026287795730319e-05,
      "loss": 0.4767,
      "num_input_tokens_seen": 49426056,
      "step": 4405,
      "train_runtime": 7477.3027,
      "train_tokens_per_second": 6610.145
    },
    {
      "epoch": 2.116157676846463,
      "grad_norm": 1.0904680490493774,
      "learning_rate": 9.976036239079656e-06,
      "loss": 0.491,
      "num_input_tokens_seen": 49483160,
      "step": 4410,
      "train_runtime": 7485.9905,
      "train_tokens_per_second": 6610.102
    },
    {
      "epoch": 2.118557628847423,
      "grad_norm": 0.5771769881248474,
      "learning_rate": 9.925879521242978e-06,
      "loss": 0.4566,
      "num_input_tokens_seen": 49537568,
      "step": 4415,
      "train_runtime": 7494.7254,
      "train_tokens_per_second": 6609.657
    },
    {
      "epoch": 2.120957580848383,
      "grad_norm": 0.765743613243103,
      "learning_rate": 9.87581795883473e-06,
      "loss": 0.4878,
      "num_input_tokens_seen": 49594120,
      "step": 4420,
      "train_runtime": 7503.2956,
      "train_tokens_per_second": 6609.645
    },
    {
      "epoch": 2.123357532849343,
      "grad_norm": 0.8731431365013123,
      "learning_rate": 9.825851867868646e-06,
      "loss": 0.4871,
      "num_input_tokens_seen": 49647944,
      "step": 4425,
      "train_runtime": 7511.5023,
      "train_tokens_per_second": 6609.589
    },
    {
      "epoch": 2.125757484850303,
      "grad_norm": 0.9633266925811768,
      "learning_rate": 9.775981563755835e-06,
      "loss": 0.4747,
      "num_input_tokens_seen": 49702848,
      "step": 4430,
      "train_runtime": 7520.7688,
      "train_tokens_per_second": 6608.746
    },
    {
      "epoch": 2.128157436851263,
      "grad_norm": 0.8484842777252197,
      "learning_rate": 9.726207361302716e-06,
      "loss": 0.4871,
      "num_input_tokens_seen": 49754336,
      "step": 4435,
      "train_runtime": 7530.7578,
      "train_tokens_per_second": 6606.817
    },
    {
      "epoch": 2.130557388852223,
      "grad_norm": 0.6933907270431519,
      "learning_rate": 9.676529574709104e-06,
      "loss": 0.4813,
      "num_input_tokens_seen": 49818104,
      "step": 4440,
      "train_runtime": 7543.2161,
      "train_tokens_per_second": 6604.359
    },
    {
      "epoch": 2.132957340853183,
      "grad_norm": 0.8864620327949524,
      "learning_rate": 9.62694851756616e-06,
      "loss": 0.5196,
      "num_input_tokens_seen": 49872640,
      "step": 4445,
      "train_runtime": 7553.5538,
      "train_tokens_per_second": 6602.54
    },
    {
      "epoch": 2.135357292854143,
      "grad_norm": 0.6627900004386902,
      "learning_rate": 9.577464502854432e-06,
      "loss": 0.441,
      "num_input_tokens_seen": 49929176,
      "step": 4450,
      "train_runtime": 7563.6578,
      "train_tokens_per_second": 6601.194
    },
    {
      "epoch": 2.137757244855103,
      "grad_norm": 0.8925694823265076,
      "learning_rate": 9.528077842941929e-06,
      "loss": 0.4755,
      "num_input_tokens_seen": 49984040,
      "step": 4455,
      "train_runtime": 7574.4434,
      "train_tokens_per_second": 6599.038
    },
    {
      "epoch": 2.140157196856063,
      "grad_norm": 0.7881972789764404,
      "learning_rate": 9.478788849582071e-06,
      "loss": 0.4841,
      "num_input_tokens_seen": 50036368,
      "step": 4460,
      "train_runtime": 7584.774,
      "train_tokens_per_second": 6596.949
    },
    {
      "epoch": 2.1425571488570228,
      "grad_norm": 0.7480626106262207,
      "learning_rate": 9.42959783391176e-06,
      "loss": 0.4813,
      "num_input_tokens_seen": 50091376,
      "step": 4465,
      "train_runtime": 7594.7525,
      "train_tokens_per_second": 6595.524
    },
    {
      "epoch": 2.1449571008579826,
      "grad_norm": 0.8503336310386658,
      "learning_rate": 9.38050510644944e-06,
      "loss": 0.4844,
      "num_input_tokens_seen": 50148472,
      "step": 4470,
      "train_runtime": 7604.4881,
      "train_tokens_per_second": 6594.589
    },
    {
      "epoch": 2.147357052858943,
      "grad_norm": 0.896701991558075,
      "learning_rate": 9.331510977093077e-06,
      "loss": 0.4784,
      "num_input_tokens_seen": 50202392,
      "step": 4475,
      "train_runtime": 7614.8511,
      "train_tokens_per_second": 6592.695
    },
    {
      "epoch": 2.149757004859903,
      "grad_norm": 0.7483791708946228,
      "learning_rate": 9.282615755118266e-06,
      "loss": 0.4473,
      "num_input_tokens_seen": 50262048,
      "step": 4480,
      "train_runtime": 7625.4864,
      "train_tokens_per_second": 6591.324
    },
    {
      "epoch": 2.1521569568608627,
      "grad_norm": 0.8028972148895264,
      "learning_rate": 9.23381974917622e-06,
      "loss": 0.4611,
      "num_input_tokens_seen": 50318512,
      "step": 4485,
      "train_runtime": 7635.9972,
      "train_tokens_per_second": 6589.645
    },
    {
      "epoch": 2.1545569088618226,
      "grad_norm": 0.7019287347793579,
      "learning_rate": 9.185123267291881e-06,
      "loss": 0.4622,
      "num_input_tokens_seen": 50371472,
      "step": 4490,
      "train_runtime": 7645.9049,
      "train_tokens_per_second": 6588.033
    },
    {
      "epoch": 2.156956860862783,
      "grad_norm": 0.849296510219574,
      "learning_rate": 9.136526616861921e-06,
      "loss": 0.501,
      "num_input_tokens_seen": 50425888,
      "step": 4495,
      "train_runtime": 7656.303,
      "train_tokens_per_second": 6586.193
    },
    {
      "epoch": 2.159356812863743,
      "grad_norm": 0.5608788728713989,
      "learning_rate": 9.088030104652829e-06,
      "loss": 0.4828,
      "num_input_tokens_seen": 50484136,
      "step": 4500,
      "train_runtime": 7666.3853,
      "train_tokens_per_second": 6585.129
    },
    {
      "epoch": 2.1617567648647027,
      "grad_norm": 0.7533180713653564,
      "learning_rate": 9.03963403679899e-06,
      "loss": 0.463,
      "num_input_tokens_seen": 50540376,
      "step": 4505,
      "train_runtime": 7676.9709,
      "train_tokens_per_second": 6583.375
    },
    {
      "epoch": 2.1641567168656626,
      "grad_norm": 0.8343721032142639,
      "learning_rate": 8.99133871880071e-06,
      "loss": 0.4948,
      "num_input_tokens_seen": 50594968,
      "step": 4510,
      "train_runtime": 7687.0369,
      "train_tokens_per_second": 6581.856
    },
    {
      "epoch": 2.1665566688666225,
      "grad_norm": 1.0494121313095093,
      "learning_rate": 8.943144455522314e-06,
      "loss": 0.4919,
      "num_input_tokens_seen": 50649296,
      "step": 4515,
      "train_runtime": 7697.4192,
      "train_tokens_per_second": 6580.036
    },
    {
      "epoch": 2.168956620867583,
      "grad_norm": 0.8824997544288635,
      "learning_rate": 8.895051551190248e-06,
      "loss": 0.4279,
      "num_input_tokens_seen": 50706696,
      "step": 4520,
      "train_runtime": 7707.9222,
      "train_tokens_per_second": 6578.517
    },
    {
      "epoch": 2.1713565728685427,
      "grad_norm": 0.8693490028381348,
      "learning_rate": 8.847060309391084e-06,
      "loss": 0.4776,
      "num_input_tokens_seen": 50758984,
      "step": 4525,
      "train_runtime": 7717.5559,
      "train_tokens_per_second": 6577.08
    },
    {
      "epoch": 2.1737565248695025,
      "grad_norm": 0.6775808334350586,
      "learning_rate": 8.799171033069695e-06,
      "loss": 0.4821,
      "num_input_tokens_seen": 50812536,
      "step": 4530,
      "train_runtime": 7727.2348,
      "train_tokens_per_second": 6575.772
    },
    {
      "epoch": 2.1761564768704624,
      "grad_norm": 0.7019457817077637,
      "learning_rate": 8.75138402452725e-06,
      "loss": 0.4698,
      "num_input_tokens_seen": 50867192,
      "step": 4535,
      "train_runtime": 7737.0022,
      "train_tokens_per_second": 6574.535
    },
    {
      "epoch": 2.1785564288714228,
      "grad_norm": 0.6866047978401184,
      "learning_rate": 8.7036995854194e-06,
      "loss": 0.4612,
      "num_input_tokens_seen": 50925384,
      "step": 4540,
      "train_runtime": 7746.4582,
      "train_tokens_per_second": 6574.022
    },
    {
      "epoch": 2.1809563808723826,
      "grad_norm": 0.605133593082428,
      "learning_rate": 8.656118016754292e-06,
      "loss": 0.4939,
      "num_input_tokens_seen": 50983216,
      "step": 4545,
      "train_runtime": 7757.2379,
      "train_tokens_per_second": 6572.341
    },
    {
      "epoch": 2.1833563328733425,
      "grad_norm": 0.6981828212738037,
      "learning_rate": 8.608639618890702e-06,
      "loss": 0.5204,
      "num_input_tokens_seen": 51038664,
      "step": 4550,
      "train_runtime": 7767.547,
      "train_tokens_per_second": 6570.757
    },
    {
      "epoch": 2.1857562848743024,
      "grad_norm": 0.8705071806907654,
      "learning_rate": 8.561264691536172e-06,
      "loss": 0.4907,
      "num_input_tokens_seen": 51096648,
      "step": 4555,
      "train_runtime": 7777.3381,
      "train_tokens_per_second": 6569.94
    },
    {
      "epoch": 2.1881562368752627,
      "grad_norm": 0.7312107682228088,
      "learning_rate": 8.51399353374506e-06,
      "loss": 0.5114,
      "num_input_tokens_seen": 51152456,
      "step": 4560,
      "train_runtime": 7787.2126,
      "train_tokens_per_second": 6568.776
    },
    {
      "epoch": 2.1905561888762226,
      "grad_norm": 0.8138951063156128,
      "learning_rate": 8.466826443916667e-06,
      "loss": 0.4822,
      "num_input_tokens_seen": 51207840,
      "step": 4565,
      "train_runtime": 7796.4469,
      "train_tokens_per_second": 6568.1
    },
    {
      "epoch": 2.1929561408771825,
      "grad_norm": 0.6703912019729614,
      "learning_rate": 8.4197637197934e-06,
      "loss": 0.4849,
      "num_input_tokens_seen": 51261448,
      "step": 4570,
      "train_runtime": 7806.184,
      "train_tokens_per_second": 6566.774
    },
    {
      "epoch": 2.1953560928781424,
      "grad_norm": 0.9687227010726929,
      "learning_rate": 8.37280565845884e-06,
      "loss": 0.467,
      "num_input_tokens_seen": 51317720,
      "step": 4575,
      "train_runtime": 7816.3502,
      "train_tokens_per_second": 6565.433
    },
    {
      "epoch": 2.1977560448791023,
      "grad_norm": 0.8064000606536865,
      "learning_rate": 8.325952556335878e-06,
      "loss": 0.4851,
      "num_input_tokens_seen": 51372576,
      "step": 4580,
      "train_runtime": 7825.9422,
      "train_tokens_per_second": 6564.395
    },
    {
      "epoch": 2.2001559968800626,
      "grad_norm": 0.8729395866394043,
      "learning_rate": 8.279204709184843e-06,
      "loss": 0.5434,
      "num_input_tokens_seen": 51422552,
      "step": 4585,
      "train_runtime": 7835.905,
      "train_tokens_per_second": 6562.427
    },
    {
      "epoch": 2.2025559488810225,
      "grad_norm": 0.898769199848175,
      "learning_rate": 8.232562412101674e-06,
      "loss": 0.5217,
      "num_input_tokens_seen": 51477960,
      "step": 4590,
      "train_runtime": 7846.3182,
      "train_tokens_per_second": 6560.779
    },
    {
      "epoch": 2.2049559008819823,
      "grad_norm": 0.9951900243759155,
      "learning_rate": 8.186025959515995e-06,
      "loss": 0.4839,
      "num_input_tokens_seen": 51537952,
      "step": 4595,
      "train_runtime": 7856.7191,
      "train_tokens_per_second": 6559.73
    },
    {
      "epoch": 2.2073558528829422,
      "grad_norm": 0.8248569965362549,
      "learning_rate": 8.139595645189282e-06,
      "loss": 0.4497,
      "num_input_tokens_seen": 51592688,
      "step": 4600,
      "train_runtime": 7866.4031,
      "train_tokens_per_second": 6558.612
    },
    {
      "epoch": 2.209755804883902,
      "grad_norm": 0.8907241821289062,
      "learning_rate": 8.09327176221305e-06,
      "loss": 0.4774,
      "num_input_tokens_seen": 51645280,
      "step": 4605,
      "train_runtime": 7876.1364,
      "train_tokens_per_second": 6557.185
    },
    {
      "epoch": 2.2121557568848624,
      "grad_norm": 0.6718706488609314,
      "learning_rate": 8.047054603006931e-06,
      "loss": 0.5308,
      "num_input_tokens_seen": 51698536,
      "step": 4610,
      "train_runtime": 7886.3852,
      "train_tokens_per_second": 6555.416
    },
    {
      "epoch": 2.2145557088858223,
      "grad_norm": 0.6906898617744446,
      "learning_rate": 8.000944459316864e-06,
      "loss": 0.4422,
      "num_input_tokens_seen": 51756256,
      "step": 4615,
      "train_runtime": 7897.4196,
      "train_tokens_per_second": 6553.565
    },
    {
      "epoch": 2.216955660886782,
      "grad_norm": 0.7952353954315186,
      "learning_rate": 7.954941622213272e-06,
      "loss": 0.5049,
      "num_input_tokens_seen": 51813256,
      "step": 4620,
      "train_runtime": 7907.2916,
      "train_tokens_per_second": 6552.592
    },
    {
      "epoch": 2.219355612887742,
      "grad_norm": 0.7251629829406738,
      "learning_rate": 7.909046382089203e-06,
      "loss": 0.4541,
      "num_input_tokens_seen": 51867560,
      "step": 4625,
      "train_runtime": 7917.3897,
      "train_tokens_per_second": 6551.093
    },
    {
      "epoch": 2.2217555648887024,
      "grad_norm": 0.7001914978027344,
      "learning_rate": 7.863259028658485e-06,
      "loss": 0.4918,
      "num_input_tokens_seen": 51920280,
      "step": 4630,
      "train_runtime": 7927.2271,
      "train_tokens_per_second": 6549.614
    },
    {
      "epoch": 2.2241555168896623,
      "grad_norm": 0.722760021686554,
      "learning_rate": 7.817579850953904e-06,
      "loss": 0.4356,
      "num_input_tokens_seen": 51975984,
      "step": 4635,
      "train_runtime": 7939.1498,
      "train_tokens_per_second": 6546.795
    },
    {
      "epoch": 2.226555468890622,
      "grad_norm": 0.8394641876220703,
      "learning_rate": 7.77200913732542e-06,
      "loss": 0.5007,
      "num_input_tokens_seen": 52031784,
      "step": 4640,
      "train_runtime": 7948.6393,
      "train_tokens_per_second": 6545.999
    },
    {
      "epoch": 2.228955420891582,
      "grad_norm": 0.8581427335739136,
      "learning_rate": 7.72654717543828e-06,
      "loss": 0.4482,
      "num_input_tokens_seen": 52086728,
      "step": 4645,
      "train_runtime": 7958.8142,
      "train_tokens_per_second": 6544.534
    },
    {
      "epoch": 2.2313553728925424,
      "grad_norm": 0.8242650032043457,
      "learning_rate": 7.681194252271242e-06,
      "loss": 0.4219,
      "num_input_tokens_seen": 52143544,
      "step": 4650,
      "train_runtime": 7968.3907,
      "train_tokens_per_second": 6543.799
    },
    {
      "epoch": 2.2337553248935023,
      "grad_norm": 0.7680621147155762,
      "learning_rate": 7.635950654114782e-06,
      "loss": 0.4771,
      "num_input_tokens_seen": 52203016,
      "step": 4655,
      "train_runtime": 7978.6952,
      "train_tokens_per_second": 6542.801
    },
    {
      "epoch": 2.236155276894462,
      "grad_norm": 0.6597278118133545,
      "learning_rate": 7.5908166665692285e-06,
      "loss": 0.4791,
      "num_input_tokens_seen": 52258320,
      "step": 4660,
      "train_runtime": 7988.4947,
      "train_tokens_per_second": 6541.698
    },
    {
      "epoch": 2.238555228895422,
      "grad_norm": 0.8721866011619568,
      "learning_rate": 7.545792574543003e-06,
      "loss": 0.4895,
      "num_input_tokens_seen": 52313336,
      "step": 4665,
      "train_runtime": 7998.6775,
      "train_tokens_per_second": 6540.248
    },
    {
      "epoch": 2.240955180896382,
      "grad_norm": 1.1070098876953125,
      "learning_rate": 7.500878662250818e-06,
      "loss": 0.5019,
      "num_input_tokens_seen": 52366728,
      "step": 4670,
      "train_runtime": 8008.484,
      "train_tokens_per_second": 6538.906
    },
    {
      "epoch": 2.2433551328973422,
      "grad_norm": 0.6862952709197998,
      "learning_rate": 7.456075213211883e-06,
      "loss": 0.4622,
      "num_input_tokens_seen": 52423136,
      "step": 4675,
      "train_runtime": 8018.9005,
      "train_tokens_per_second": 6537.447
    },
    {
      "epoch": 2.245755084898302,
      "grad_norm": 0.7063257098197937,
      "learning_rate": 7.411382510248091e-06,
      "loss": 0.4422,
      "num_input_tokens_seen": 52480088,
      "step": 4680,
      "train_runtime": 8028.8285,
      "train_tokens_per_second": 6536.456
    },
    {
      "epoch": 2.248155036899262,
      "grad_norm": 0.7958875894546509,
      "learning_rate": 7.366800835482246e-06,
      "loss": 0.4774,
      "num_input_tokens_seen": 52538696,
      "step": 4685,
      "train_runtime": 8038.5124,
      "train_tokens_per_second": 6535.873
    },
    {
      "epoch": 2.250554988900222,
      "grad_norm": 0.7092862725257874,
      "learning_rate": 7.3223304703363135e-06,
      "loss": 0.4537,
      "num_input_tokens_seen": 52598800,
      "step": 4690,
      "train_runtime": 8049.8427,
      "train_tokens_per_second": 6534.14
    },
    {
      "epoch": 2.2529549409011818,
      "grad_norm": 0.6956859230995178,
      "learning_rate": 7.277971695529592e-06,
      "loss": 0.4435,
      "num_input_tokens_seen": 52657280,
      "step": 4695,
      "train_runtime": 8060.2392,
      "train_tokens_per_second": 6532.967
    },
    {
      "epoch": 2.255354892902142,
      "grad_norm": 0.6482681632041931,
      "learning_rate": 7.233724791076968e-06,
      "loss": 0.455,
      "num_input_tokens_seen": 52713952,
      "step": 4700,
      "train_runtime": 8070.1937,
      "train_tokens_per_second": 6531.931
    },
    {
      "epoch": 2.257754844903102,
      "grad_norm": 0.7593861222267151,
      "learning_rate": 7.189590036287167e-06,
      "loss": 0.4506,
      "num_input_tokens_seen": 52772688,
      "step": 4705,
      "train_runtime": 8080.8866,
      "train_tokens_per_second": 6530.557
    },
    {
      "epoch": 2.260154796904062,
      "grad_norm": 0.8229504823684692,
      "learning_rate": 7.145567709760942e-06,
      "loss": 0.4944,
      "num_input_tokens_seen": 52829984,
      "step": 4710,
      "train_runtime": 8091.297,
      "train_tokens_per_second": 6529.236
    },
    {
      "epoch": 2.2625547489050217,
      "grad_norm": 0.7563186287879944,
      "learning_rate": 7.1016580893893514e-06,
      "loss": 0.485,
      "num_input_tokens_seen": 52888368,
      "step": 4715,
      "train_runtime": 8102.4796,
      "train_tokens_per_second": 6527.43
    },
    {
      "epoch": 2.264954700905982,
      "grad_norm": 0.8408580422401428,
      "learning_rate": 7.057861452352005e-06,
      "loss": 0.4722,
      "num_input_tokens_seen": 52945664,
      "step": 4720,
      "train_runtime": 8112.5815,
      "train_tokens_per_second": 6526.364
    },
    {
      "epoch": 2.267354652906942,
      "grad_norm": 0.791147768497467,
      "learning_rate": 7.014178075115305e-06,
      "loss": 0.5043,
      "num_input_tokens_seen": 53001096,
      "step": 4725,
      "train_runtime": 8122.5542,
      "train_tokens_per_second": 6525.176
    },
    {
      "epoch": 2.269754604907902,
      "grad_norm": 0.8713123798370361,
      "learning_rate": 6.9706082334306895e-06,
      "loss": 0.4978,
      "num_input_tokens_seen": 53054936,
      "step": 4730,
      "train_runtime": 8132.2978,
      "train_tokens_per_second": 6523.979
    },
    {
      "epoch": 2.2721545569088617,
      "grad_norm": 0.9158002734184265,
      "learning_rate": 6.927152202332898e-06,
      "loss": 0.4493,
      "num_input_tokens_seen": 53115032,
      "step": 4735,
      "train_runtime": 8142.6092,
      "train_tokens_per_second": 6523.097
    },
    {
      "epoch": 2.274554508909822,
      "grad_norm": 0.8470547795295715,
      "learning_rate": 6.883810256138268e-06,
      "loss": 0.5082,
      "num_input_tokens_seen": 53168048,
      "step": 4740,
      "train_runtime": 8152.4189,
      "train_tokens_per_second": 6521.751
    },
    {
      "epoch": 2.276954460910782,
      "grad_norm": 0.8152704834938049,
      "learning_rate": 6.8405826684429495e-06,
      "loss": 0.4622,
      "num_input_tokens_seen": 53228112,
      "step": 4745,
      "train_runtime": 8163.4113,
      "train_tokens_per_second": 6520.327
    },
    {
      "epoch": 2.279354412911742,
      "grad_norm": 1.1918436288833618,
      "learning_rate": 6.7974697121212044e-06,
      "loss": 0.475,
      "num_input_tokens_seen": 53282056,
      "step": 4750,
      "train_runtime": 8172.6885,
      "train_tokens_per_second": 6519.526
    },
    {
      "epoch": 2.2817543649127017,
      "grad_norm": 0.8063285946846008,
      "learning_rate": 6.754471659323708e-06,
      "loss": 0.4444,
      "num_input_tokens_seen": 53342728,
      "step": 4755,
      "train_runtime": 8181.7917,
      "train_tokens_per_second": 6519.688
    },
    {
      "epoch": 2.2841543169136616,
      "grad_norm": 0.8364700078964233,
      "learning_rate": 6.711588781475786e-06,
      "loss": 0.4833,
      "num_input_tokens_seen": 53397656,
      "step": 4760,
      "train_runtime": 8189.9068,
      "train_tokens_per_second": 6519.935
    },
    {
      "epoch": 2.286554268914622,
      "grad_norm": 0.8302350640296936,
      "learning_rate": 6.668821349275714e-06,
      "loss": 0.4532,
      "num_input_tokens_seen": 53452736,
      "step": 4765,
      "train_runtime": 8198.4472,
      "train_tokens_per_second": 6519.861
    },
    {
      "epoch": 2.2889542209155818,
      "grad_norm": 0.7638778686523438,
      "learning_rate": 6.626169632693041e-06,
      "loss": 0.4679,
      "num_input_tokens_seen": 53510640,
      "step": 4770,
      "train_runtime": 8207.0649,
      "train_tokens_per_second": 6520.07
    },
    {
      "epoch": 2.2913541729165416,
      "grad_norm": 0.6307675242424011,
      "learning_rate": 6.5836339009668564e-06,
      "loss": 0.4336,
      "num_input_tokens_seen": 53568536,
      "step": 4775,
      "train_runtime": 8216.2863,
      "train_tokens_per_second": 6519.799
    },
    {
      "epoch": 2.2937541249175015,
      "grad_norm": 0.7008303999900818,
      "learning_rate": 6.541214422604078e-06,
      "loss": 0.4903,
      "num_input_tokens_seen": 53623272,
      "step": 4780,
      "train_runtime": 8224.518,
      "train_tokens_per_second": 6519.929
    },
    {
      "epoch": 2.2961540769184614,
      "grad_norm": 0.7568659782409668,
      "learning_rate": 6.49891146537778e-06,
      "loss": 0.4665,
      "num_input_tokens_seen": 53680840,
      "step": 4785,
      "train_runtime": 8233.1619,
      "train_tokens_per_second": 6520.076
    },
    {
      "epoch": 2.2985540289194217,
      "grad_norm": 0.7729014158248901,
      "learning_rate": 6.456725296325511e-06,
      "loss": 0.4648,
      "num_input_tokens_seen": 53736888,
      "step": 4790,
      "train_runtime": 8241.812,
      "train_tokens_per_second": 6520.033
    },
    {
      "epoch": 2.3009539809203816,
      "grad_norm": 0.8767671585083008,
      "learning_rate": 6.414656181747578e-06,
      "loss": 0.4426,
      "num_input_tokens_seen": 53793888,
      "step": 4795,
      "train_runtime": 8250.382,
      "train_tokens_per_second": 6520.169
    },
    {
      "epoch": 2.3033539329213415,
      "grad_norm": 0.5542830228805542,
      "learning_rate": 6.3727043872053775e-06,
      "loss": 0.4942,
      "num_input_tokens_seen": 53853120,
      "step": 4800,
      "train_runtime": 8259.364,
      "train_tokens_per_second": 6520.25
    },
    {
      "epoch": 2.3057538849223014,
      "grad_norm": 0.677183985710144,
      "learning_rate": 6.330870177519749e-06,
      "loss": 0.4601,
      "num_input_tokens_seen": 53911008,
      "step": 4805,
      "train_runtime": 8268.0332,
      "train_tokens_per_second": 6520.415
    },
    {
      "epoch": 2.3081538369232617,
      "grad_norm": 0.6295929551124573,
      "learning_rate": 6.2891538167692525e-06,
      "loss": 0.4975,
      "num_input_tokens_seen": 53970856,
      "step": 4810,
      "train_runtime": 8276.673,
      "train_tokens_per_second": 6520.839
    },
    {
      "epoch": 2.3105537889242216,
      "grad_norm": 0.6823136806488037,
      "learning_rate": 6.247555568288524e-06,
      "loss": 0.5108,
      "num_input_tokens_seen": 54024760,
      "step": 4815,
      "train_runtime": 8284.8494,
      "train_tokens_per_second": 6520.91
    },
    {
      "epoch": 2.3129537409251815,
      "grad_norm": 1.1955187320709229,
      "learning_rate": 6.2060756946666385e-06,
      "loss": 0.4972,
      "num_input_tokens_seen": 54079992,
      "step": 4820,
      "train_runtime": 8293.4716,
      "train_tokens_per_second": 6520.791
    },
    {
      "epoch": 2.3153536929261413,
      "grad_norm": 0.5726960301399231,
      "learning_rate": 6.164714457745416e-06,
      "loss": 0.4765,
      "num_input_tokens_seen": 54137056,
      "step": 4825,
      "train_runtime": 8302.0452,
      "train_tokens_per_second": 6520.93
    },
    {
      "epoch": 2.3177536449271017,
      "grad_norm": 0.8014964461326599,
      "learning_rate": 6.123472118617779e-06,
      "loss": 0.502,
      "num_input_tokens_seen": 54187216,
      "step": 4830,
      "train_runtime": 8309.8904,
      "train_tokens_per_second": 6520.81
    },
    {
      "epoch": 2.3201535969280616,
      "grad_norm": 0.6722724437713623,
      "learning_rate": 6.082348937626103e-06,
      "loss": 0.5223,
      "num_input_tokens_seen": 54243408,
      "step": 4835,
      "train_runtime": 8318.422,
      "train_tokens_per_second": 6520.877
    },
    {
      "epoch": 2.3225535489290214,
      "grad_norm": 0.7219895720481873,
      "learning_rate": 6.041345174360602e-06,
      "loss": 0.4379,
      "num_input_tokens_seen": 54300888,
      "step": 4840,
      "train_runtime": 8327.0808,
      "train_tokens_per_second": 6520.999
    },
    {
      "epoch": 2.3249535009299813,
      "grad_norm": 0.5452620983123779,
      "learning_rate": 6.0004610876576385e-06,
      "loss": 0.425,
      "num_input_tokens_seen": 54359080,
      "step": 4845,
      "train_runtime": 8335.9015,
      "train_tokens_per_second": 6521.08
    },
    {
      "epoch": 2.327353452930941,
      "grad_norm": 0.7828608751296997,
      "learning_rate": 5.9596969355981165e-06,
      "loss": 0.4783,
      "num_input_tokens_seen": 54414784,
      "step": 4850,
      "train_runtime": 8343.8457,
      "train_tokens_per_second": 6521.547
    },
    {
      "epoch": 2.3297534049319015,
      "grad_norm": 0.7745143175125122,
      "learning_rate": 5.9190529755058786e-06,
      "loss": 0.4625,
      "num_input_tokens_seen": 54469544,
      "step": 4855,
      "train_runtime": 8352.9742,
      "train_tokens_per_second": 6520.976
    },
    {
      "epoch": 2.3321533569328614,
      "grad_norm": 0.7965600490570068,
      "learning_rate": 5.878529463946028e-06,
      "loss": 0.4517,
      "num_input_tokens_seen": 54525088,
      "step": 4860,
      "train_runtime": 8362.2759,
      "train_tokens_per_second": 6520.365
    },
    {
      "epoch": 2.3345533089338213,
      "grad_norm": 0.7234916090965271,
      "learning_rate": 5.838126656723353e-06,
      "loss": 0.4848,
      "num_input_tokens_seen": 54581656,
      "step": 4865,
      "train_runtime": 8372.4358,
      "train_tokens_per_second": 6519.209
    },
    {
      "epoch": 2.336953260934781,
      "grad_norm": 0.8496655225753784,
      "learning_rate": 5.797844808880681e-06,
      "loss": 0.4535,
      "num_input_tokens_seen": 54633656,
      "step": 4870,
      "train_runtime": 8381.8667,
      "train_tokens_per_second": 6518.077
    },
    {
      "epoch": 2.339353212935741,
      "grad_norm": 0.8986937999725342,
      "learning_rate": 5.757684174697306e-06,
      "loss": 0.5149,
      "num_input_tokens_seen": 54688552,
      "step": 4875,
      "train_runtime": 8392.2449,
      "train_tokens_per_second": 6516.558
    },
    {
      "epoch": 2.3417531649367014,
      "grad_norm": 0.8993620276451111,
      "learning_rate": 5.717645007687333e-06,
      "loss": 0.4811,
      "num_input_tokens_seen": 54745736,
      "step": 4880,
      "train_runtime": 8401.6978,
      "train_tokens_per_second": 6516.032
    },
    {
      "epoch": 2.3441531169376613,
      "grad_norm": 0.8470688462257385,
      "learning_rate": 5.677727560598117e-06,
      "loss": 0.4531,
      "num_input_tokens_seen": 54801056,
      "step": 4885,
      "train_runtime": 8411.9299,
      "train_tokens_per_second": 6514.683
    },
    {
      "epoch": 2.346553068938621,
      "grad_norm": 0.7177883982658386,
      "learning_rate": 5.637932085408665e-06,
      "loss": 0.428,
      "num_input_tokens_seen": 54862792,
      "step": 4890,
      "train_runtime": 8422.5464,
      "train_tokens_per_second": 6513.801
    },
    {
      "epoch": 2.348953020939581,
      "grad_norm": 0.9984344840049744,
      "learning_rate": 5.598258833328024e-06,
      "loss": 0.5082,
      "num_input_tokens_seen": 54917120,
      "step": 4895,
      "train_runtime": 8432.5181,
      "train_tokens_per_second": 6512.541
    },
    {
      "epoch": 2.3513529729405414,
      "grad_norm": 0.7532204985618591,
      "learning_rate": 5.558708054793702e-06,
      "loss": 0.4747,
      "num_input_tokens_seen": 54970952,
      "step": 4900,
      "train_runtime": 8442.5045,
      "train_tokens_per_second": 6511.214
    },
    {
      "epoch": 2.3537529249415012,
      "grad_norm": 0.9301844835281372,
      "learning_rate": 5.519279999470114e-06,
      "loss": 0.4653,
      "num_input_tokens_seen": 55030344,
      "step": 4905,
      "train_runtime": 8453.3379,
      "train_tokens_per_second": 6509.895
    },
    {
      "epoch": 2.356152876942461,
      "grad_norm": 0.7001831531524658,
      "learning_rate": 5.47997491624696e-06,
      "loss": 0.4505,
      "num_input_tokens_seen": 55089240,
      "step": 4910,
      "train_runtime": 8463.8354,
      "train_tokens_per_second": 6508.78
    },
    {
      "epoch": 2.358552828943421,
      "grad_norm": 1.0007083415985107,
      "learning_rate": 5.440793053237703e-06,
      "loss": 0.4951,
      "num_input_tokens_seen": 55145288,
      "step": 4915,
      "train_runtime": 8472.6075,
      "train_tokens_per_second": 6508.656
    },
    {
      "epoch": 2.3609527809443813,
      "grad_norm": 0.807292103767395,
      "learning_rate": 5.401734657777949e-06,
      "loss": 0.4555,
      "num_input_tokens_seen": 55202104,
      "step": 4920,
      "train_runtime": 8481.8958,
      "train_tokens_per_second": 6508.227
    },
    {
      "epoch": 2.363352732945341,
      "grad_norm": 0.8415015339851379,
      "learning_rate": 5.362799976423946e-06,
      "loss": 0.4936,
      "num_input_tokens_seen": 55259704,
      "step": 4925,
      "train_runtime": 8490.9011,
      "train_tokens_per_second": 6508.108
    },
    {
      "epoch": 2.365752684946301,
      "grad_norm": 0.6624288558959961,
      "learning_rate": 5.323989254950973e-06,
      "loss": 0.4645,
      "num_input_tokens_seen": 55317744,
      "step": 4930,
      "train_runtime": 8500.053,
      "train_tokens_per_second": 6507.929
    },
    {
      "epoch": 2.368152636947261,
      "grad_norm": 0.8374559283256531,
      "learning_rate": 5.285302738351813e-06,
      "loss": 0.4797,
      "num_input_tokens_seen": 55372296,
      "step": 4935,
      "train_runtime": 8507.8541,
      "train_tokens_per_second": 6508.374
    },
    {
      "epoch": 2.370552588948221,
      "grad_norm": 0.5884356498718262,
      "learning_rate": 5.246740670835227e-06,
      "loss": 0.4606,
      "num_input_tokens_seen": 55433904,
      "step": 4940,
      "train_runtime": 8517.3387,
      "train_tokens_per_second": 6508.36
    },
    {
      "epoch": 2.372952540949181,
      "grad_norm": 0.7946999669075012,
      "learning_rate": 5.208303295824368e-06,
      "loss": 0.4901,
      "num_input_tokens_seen": 55489480,
      "step": 4945,
      "train_runtime": 8525.7706,
      "train_tokens_per_second": 6508.442
    },
    {
      "epoch": 2.375352492950141,
      "grad_norm": 0.8008665442466736,
      "learning_rate": 5.16999085595527e-06,
      "loss": 0.4489,
      "num_input_tokens_seen": 55548432,
      "step": 4950,
      "train_runtime": 8534.5861,
      "train_tokens_per_second": 6508.626
    },
    {
      "epoch": 2.377752444951101,
      "grad_norm": 0.6131346225738525,
      "learning_rate": 5.1318035930753295e-06,
      "loss": 0.4751,
      "num_input_tokens_seen": 55606952,
      "step": 4955,
      "train_runtime": 8544.472,
      "train_tokens_per_second": 6507.945
    },
    {
      "epoch": 2.380152396952061,
      "grad_norm": 0.6987022757530212,
      "learning_rate": 5.09374174824174e-06,
      "loss": 0.4716,
      "num_input_tokens_seen": 55665912,
      "step": 4960,
      "train_runtime": 8553.5875,
      "train_tokens_per_second": 6507.902
    },
    {
      "epoch": 2.3825523489530207,
      "grad_norm": 0.9554920792579651,
      "learning_rate": 5.0558055617200205e-06,
      "loss": 0.4208,
      "num_input_tokens_seen": 55719624,
      "step": 4965,
      "train_runtime": 8561.4317,
      "train_tokens_per_second": 6508.213
    },
    {
      "epoch": 2.384952300953981,
      "grad_norm": 0.7300603985786438,
      "learning_rate": 5.0179952729824395e-06,
      "loss": 0.4832,
      "num_input_tokens_seen": 55774472,
      "step": 4970,
      "train_runtime": 8570.1123,
      "train_tokens_per_second": 6508.021
    },
    {
      "epoch": 2.387352252954941,
      "grad_norm": 0.8243890404701233,
      "learning_rate": 4.980311120706569e-06,
      "loss": 0.5135,
      "num_input_tokens_seen": 55826392,
      "step": 4975,
      "train_runtime": 8578.1037,
      "train_tokens_per_second": 6508.011
    },
    {
      "epoch": 2.389752204955901,
      "grad_norm": 0.7249002456665039,
      "learning_rate": 4.942753342773718e-06,
      "loss": 0.5443,
      "num_input_tokens_seen": 55880968,
      "step": 4980,
      "train_runtime": 8586.3873,
      "train_tokens_per_second": 6508.088
    },
    {
      "epoch": 2.3921521569568607,
      "grad_norm": 0.883586585521698,
      "learning_rate": 4.90532217626746e-06,
      "loss": 0.4719,
      "num_input_tokens_seen": 55933504,
      "step": 4985,
      "train_runtime": 8594.9139,
      "train_tokens_per_second": 6507.745
    },
    {
      "epoch": 2.394552108957821,
      "grad_norm": 0.9183365702629089,
      "learning_rate": 4.868017857472157e-06,
      "loss": 0.4971,
      "num_input_tokens_seen": 55986736,
      "step": 4990,
      "train_runtime": 8603.0537,
      "train_tokens_per_second": 6507.775
    },
    {
      "epoch": 2.396952060958781,
      "grad_norm": 0.9093974232673645,
      "learning_rate": 4.830840621871416e-06,
      "loss": 0.471,
      "num_input_tokens_seen": 56042472,
      "step": 4995,
      "train_runtime": 8612.3964,
      "train_tokens_per_second": 6507.187
    },
    {
      "epoch": 2.3993520129597408,
      "grad_norm": 0.8658146858215332,
      "learning_rate": 4.793790704146639e-06,
      "loss": 0.5096,
      "num_input_tokens_seen": 56094608,
      "step": 5000,
      "train_runtime": 8620.6801,
      "train_tokens_per_second": 6506.982
    },
    {
      "epoch": 2.4017519649607006,
      "grad_norm": 0.881760835647583,
      "learning_rate": 4.756868338175552e-06,
      "loss": 0.4545,
      "num_input_tokens_seen": 56152192,
      "step": 5005,
      "train_runtime": 8628.9033,
      "train_tokens_per_second": 6507.454
    },
    {
      "epoch": 2.404151916961661,
      "grad_norm": 0.6396927833557129,
      "learning_rate": 4.7200737570306765e-06,
      "loss": 0.482,
      "num_input_tokens_seen": 56209072,
      "step": 5010,
      "train_runtime": 8637.3318,
      "train_tokens_per_second": 6507.689
    },
    {
      "epoch": 2.406551868962621,
      "grad_norm": 0.7207968831062317,
      "learning_rate": 4.683407192977923e-06,
      "loss": 0.4701,
      "num_input_tokens_seen": 56265496,
      "step": 5015,
      "train_runtime": 8645.9013,
      "train_tokens_per_second": 6507.765
    },
    {
      "epoch": 2.4089518209635807,
      "grad_norm": 0.6970353126525879,
      "learning_rate": 4.646868877475083e-06,
      "loss": 0.4906,
      "num_input_tokens_seen": 56324336,
      "step": 5020,
      "train_runtime": 8654.8609,
      "train_tokens_per_second": 6507.827
    },
    {
      "epoch": 2.4113517729645406,
      "grad_norm": 0.6664267182350159,
      "learning_rate": 4.610459041170376e-06,
      "loss": 0.4497,
      "num_input_tokens_seen": 56387160,
      "step": 5025,
      "train_runtime": 8664.2456,
      "train_tokens_per_second": 6508.029
    },
    {
      "epoch": 2.4137517249655005,
      "grad_norm": 0.6361657977104187,
      "learning_rate": 4.574177913900992e-06,
      "loss": 0.4473,
      "num_input_tokens_seen": 56450040,
      "step": 5030,
      "train_runtime": 8672.7824,
      "train_tokens_per_second": 6508.873
    },
    {
      "epoch": 2.416151676966461,
      "grad_norm": 0.9782693386077881,
      "learning_rate": 4.538025724691647e-06,
      "loss": 0.5403,
      "num_input_tokens_seen": 56509192,
      "step": 5035,
      "train_runtime": 8680.8979,
      "train_tokens_per_second": 6509.602
    },
    {
      "epoch": 2.4185516289674207,
      "grad_norm": 1.0109143257141113,
      "learning_rate": 4.502002701753149e-06,
      "loss": 0.4535,
      "num_input_tokens_seen": 56564168,
      "step": 5040,
      "train_runtime": 8689.3056,
      "train_tokens_per_second": 6509.63
    },
    {
      "epoch": 2.4209515809683806,
      "grad_norm": 0.8760951161384583,
      "learning_rate": 4.4661090724809286e-06,
      "loss": 0.4666,
      "num_input_tokens_seen": 56619720,
      "step": 5045,
      "train_runtime": 8698.0152,
      "train_tokens_per_second": 6509.499
    },
    {
      "epoch": 2.4233515329693405,
      "grad_norm": 0.879936933517456,
      "learning_rate": 4.430345063453614e-06,
      "loss": 0.4685,
      "num_input_tokens_seen": 56674064,
      "step": 5050,
      "train_runtime": 8707.0335,
      "train_tokens_per_second": 6508.998
    },
    {
      "epoch": 2.4257514849703004,
      "grad_norm": 0.5749469995498657,
      "learning_rate": 4.394710900431628e-06,
      "loss": 0.5077,
      "num_input_tokens_seen": 56730176,
      "step": 5055,
      "train_runtime": 8715.7157,
      "train_tokens_per_second": 6508.952
    },
    {
      "epoch": 2.4281514369712607,
      "grad_norm": 0.670002818107605,
      "learning_rate": 4.359206808355715e-06,
      "loss": 0.4711,
      "num_input_tokens_seen": 56786912,
      "step": 5060,
      "train_runtime": 8724.2214,
      "train_tokens_per_second": 6509.109
    },
    {
      "epoch": 2.4305513889722206,
      "grad_norm": 0.8267392516136169,
      "learning_rate": 4.32383301134556e-06,
      "loss": 0.468,
      "num_input_tokens_seen": 56846864,
      "step": 5065,
      "train_runtime": 8733.1875,
      "train_tokens_per_second": 6509.292
    },
    {
      "epoch": 2.4329513409731804,
      "grad_norm": 0.9042259454727173,
      "learning_rate": 4.288589732698365e-06,
      "loss": 0.4722,
      "num_input_tokens_seen": 56903624,
      "step": 5070,
      "train_runtime": 8741.802,
      "train_tokens_per_second": 6509.37
    },
    {
      "epoch": 2.4353512929741403,
      "grad_norm": 0.9303114414215088,
      "learning_rate": 4.253477194887423e-06,
      "loss": 0.4879,
      "num_input_tokens_seen": 56961168,
      "step": 5075,
      "train_runtime": 8750.9039,
      "train_tokens_per_second": 6509.175
    },
    {
      "epoch": 2.4377512449751007,
      "grad_norm": 0.8733497858047485,
      "learning_rate": 4.218495619560725e-06,
      "loss": 0.4762,
      "num_input_tokens_seen": 57017760,
      "step": 5080,
      "train_runtime": 8759.4851,
      "train_tokens_per_second": 6509.259
    },
    {
      "epoch": 2.4401511969760605,
      "grad_norm": 0.8203326463699341,
      "learning_rate": 4.1836452275395624e-06,
      "loss": 0.4934,
      "num_input_tokens_seen": 57072760,
      "step": 5085,
      "train_runtime": 8768.1106,
      "train_tokens_per_second": 6509.129
    },
    {
      "epoch": 2.4425511489770204,
      "grad_norm": 1.0363794565200806,
      "learning_rate": 4.148926238817141e-06,
      "loss": 0.4518,
      "num_input_tokens_seen": 57128592,
      "step": 5090,
      "train_runtime": 8776.3031,
      "train_tokens_per_second": 6509.414
    },
    {
      "epoch": 2.4449511009779803,
      "grad_norm": 0.9167368412017822,
      "learning_rate": 4.114338872557175e-06,
      "loss": 0.4542,
      "num_input_tokens_seen": 57184720,
      "step": 5095,
      "train_runtime": 8784.8429,
      "train_tokens_per_second": 6509.476
    },
    {
      "epoch": 2.4473510529789406,
      "grad_norm": 0.662429928779602,
      "learning_rate": 4.079883347092506e-06,
      "loss": 0.4811,
      "num_input_tokens_seen": 57248888,
      "step": 5100,
      "train_runtime": 8794.2311,
      "train_tokens_per_second": 6509.823
    },
    {
      "epoch": 2.4497510049799005,
      "grad_norm": 0.6756502389907837,
      "learning_rate": 4.045559879923747e-06,
      "loss": 0.454,
      "num_input_tokens_seen": 57307744,
      "step": 5105,
      "train_runtime": 8803.0414,
      "train_tokens_per_second": 6509.994
    },
    {
      "epoch": 2.4521509569808604,
      "grad_norm": 0.7121127843856812,
      "learning_rate": 4.011368687717867e-06,
      "loss": 0.4506,
      "num_input_tokens_seen": 57363824,
      "step": 5110,
      "train_runtime": 8811.1922,
      "train_tokens_per_second": 6510.336
    },
    {
      "epoch": 2.4545509089818203,
      "grad_norm": 0.764569878578186,
      "learning_rate": 3.977309986306874e-06,
      "loss": 0.4614,
      "num_input_tokens_seen": 57422952,
      "step": 5115,
      "train_runtime": 8819.6634,
      "train_tokens_per_second": 6510.787
    },
    {
      "epoch": 2.45695086098278,
      "grad_norm": 0.9439240097999573,
      "learning_rate": 3.943383990686425e-06,
      "loss": 0.5036,
      "num_input_tokens_seen": 57475568,
      "step": 5120,
      "train_runtime": 8827.7896,
      "train_tokens_per_second": 6510.754
    },
    {
      "epoch": 2.4593508129837405,
      "grad_norm": 0.7676842212677002,
      "learning_rate": 3.909590915014455e-06,
      "loss": 0.4741,
      "num_input_tokens_seen": 57533000,
      "step": 5125,
      "train_runtime": 8836.2004,
      "train_tokens_per_second": 6511.056
    },
    {
      "epoch": 2.4617507649847004,
      "grad_norm": 0.7224127054214478,
      "learning_rate": 3.875930972609851e-06,
      "loss": 0.4555,
      "num_input_tokens_seen": 57591416,
      "step": 5130,
      "train_runtime": 8844.7508,
      "train_tokens_per_second": 6511.367
    },
    {
      "epoch": 2.4641507169856602,
      "grad_norm": 0.8699045777320862,
      "learning_rate": 3.842404375951089e-06,
      "loss": 0.4948,
      "num_input_tokens_seen": 57648120,
      "step": 5135,
      "train_runtime": 8853.2169,
      "train_tokens_per_second": 6511.545
    },
    {
      "epoch": 2.46655066898662,
      "grad_norm": 0.8307254910469055,
      "learning_rate": 3.809011336674917e-06,
      "loss": 0.4747,
      "num_input_tokens_seen": 57705096,
      "step": 5140,
      "train_runtime": 8861.9212,
      "train_tokens_per_second": 6511.579
    },
    {
      "epoch": 2.46895062098758,
      "grad_norm": 1.0947297811508179,
      "learning_rate": 3.7757520655749863e-06,
      "loss": 0.4711,
      "num_input_tokens_seen": 57760000,
      "step": 5145,
      "train_runtime": 8870.5168,
      "train_tokens_per_second": 6511.458
    },
    {
      "epoch": 2.4713505729885403,
      "grad_norm": 0.6444729566574097,
      "learning_rate": 3.7426267726005354e-06,
      "loss": 0.4566,
      "num_input_tokens_seen": 57814992,
      "step": 5150,
      "train_runtime": 8879.2323,
      "train_tokens_per_second": 6511.26
    },
    {
      "epoch": 2.4737505249895,
      "grad_norm": 0.7921139001846313,
      "learning_rate": 3.709635666855077e-06,
      "loss": 0.4552,
      "num_input_tokens_seen": 57870400,
      "step": 5155,
      "train_runtime": 8888.1359,
      "train_tokens_per_second": 6510.972
    },
    {
      "epoch": 2.47615047699046,
      "grad_norm": 0.6223105192184448,
      "learning_rate": 3.6767789565950563e-06,
      "loss": 0.425,
      "num_input_tokens_seen": 57932208,
      "step": 5160,
      "train_runtime": 8896.7689,
      "train_tokens_per_second": 6511.601
    },
    {
      "epoch": 2.4785504289914204,
      "grad_norm": 0.7725955843925476,
      "learning_rate": 3.64405684922855e-06,
      "loss": 0.4413,
      "num_input_tokens_seen": 57989280,
      "step": 5165,
      "train_runtime": 8905.0042,
      "train_tokens_per_second": 6511.988
    },
    {
      "epoch": 2.4809503809923803,
      "grad_norm": 0.7563416361808777,
      "learning_rate": 3.611469551313959e-06,
      "loss": 0.521,
      "num_input_tokens_seen": 58045968,
      "step": 5170,
      "train_runtime": 8913.261,
      "train_tokens_per_second": 6512.316
    },
    {
      "epoch": 2.48335033299334,
      "grad_norm": 0.7822843790054321,
      "learning_rate": 3.579017268558693e-06,
      "loss": 0.4989,
      "num_input_tokens_seen": 58098536,
      "step": 5175,
      "train_runtime": 8920.913,
      "train_tokens_per_second": 6512.622
    },
    {
      "epoch": 2.4857502849943,
      "grad_norm": 0.80488520860672,
      "learning_rate": 3.5467002058178764e-06,
      "loss": 0.498,
      "num_input_tokens_seen": 58153656,
      "step": 5180,
      "train_runtime": 8929.6199,
      "train_tokens_per_second": 6512.445
    },
    {
      "epoch": 2.48815023699526,
      "grad_norm": 0.7986950278282166,
      "learning_rate": 3.514518567093056e-06,
      "loss": 0.4513,
      "num_input_tokens_seen": 58208960,
      "step": 5185,
      "train_runtime": 8938.3362,
      "train_tokens_per_second": 6512.281
    },
    {
      "epoch": 2.4905501889962203,
      "grad_norm": 0.7876197695732117,
      "learning_rate": 3.4824725555309272e-06,
      "loss": 0.4757,
      "num_input_tokens_seen": 58268880,
      "step": 5190,
      "train_runtime": 8946.6352,
      "train_tokens_per_second": 6512.938
    },
    {
      "epoch": 2.49295014099718,
      "grad_norm": 0.8735581040382385,
      "learning_rate": 3.4505623734220226e-06,
      "loss": 0.4926,
      "num_input_tokens_seen": 58323184,
      "step": 5195,
      "train_runtime": 8954.4183,
      "train_tokens_per_second": 6513.341
    },
    {
      "epoch": 2.49535009299814,
      "grad_norm": 0.8230021595954895,
      "learning_rate": 3.4187882221994564e-06,
      "loss": 0.5169,
      "num_input_tokens_seen": 58379592,
      "step": 5200,
      "train_runtime": 8962.9041,
      "train_tokens_per_second": 6513.468
    },
    {
      "epoch": 2.4977500449991,
      "grad_norm": 0.9317114353179932,
      "learning_rate": 3.3871503024376554e-06,
      "loss": 0.4625,
      "num_input_tokens_seen": 58439472,
      "step": 5205,
      "train_runtime": 8971.3456,
      "train_tokens_per_second": 6514.014
    },
    {
      "epoch": 2.50014999700006,
      "grad_norm": 0.889101505279541,
      "learning_rate": 3.3556488138510674e-06,
      "loss": 0.4478,
      "num_input_tokens_seen": 58498776,
      "step": 5210,
      "train_runtime": 8980.13,
      "train_tokens_per_second": 6514.246
    },
    {
      "epoch": 2.50254994900102,
      "grad_norm": 0.5332804322242737,
      "learning_rate": 3.3242839552929366e-06,
      "loss": 0.4552,
      "num_input_tokens_seen": 58559344,
      "step": 5215,
      "train_runtime": 8988.8739,
      "train_tokens_per_second": 6514.647
    },
    {
      "epoch": 2.50494990100198,
      "grad_norm": 0.9555898308753967,
      "learning_rate": 3.2930559247540267e-06,
      "loss": 0.4537,
      "num_input_tokens_seen": 58614416,
      "step": 5220,
      "train_runtime": 8997.7825,
      "train_tokens_per_second": 6514.318
    },
    {
      "epoch": 2.50734985300294,
      "grad_norm": 1.1382311582565308,
      "learning_rate": 3.2619649193613626e-06,
      "loss": 0.5041,
      "num_input_tokens_seen": 58667216,
      "step": 5225,
      "train_runtime": 9006.2657,
      "train_tokens_per_second": 6514.045
    },
    {
      "epoch": 2.5097498050038998,
      "grad_norm": 1.1261781454086304,
      "learning_rate": 3.2310111353770045e-06,
      "loss": 0.5123,
      "num_input_tokens_seen": 58722648,
      "step": 5230,
      "train_runtime": 9014.5273,
      "train_tokens_per_second": 6514.224
    },
    {
      "epoch": 2.5121497570048597,
      "grad_norm": 0.6339508295059204,
      "learning_rate": 3.2001947681967987e-06,
      "loss": 0.466,
      "num_input_tokens_seen": 58780640,
      "step": 5235,
      "train_runtime": 9023.7118,
      "train_tokens_per_second": 6514.02
    },
    {
      "epoch": 2.51454970900582,
      "grad_norm": 0.8819341659545898,
      "learning_rate": 3.169516012349161e-06,
      "loss": 0.4855,
      "num_input_tokens_seen": 58839080,
      "step": 5240,
      "train_runtime": 9032.9027,
      "train_tokens_per_second": 6513.862
    },
    {
      "epoch": 2.51694966100678,
      "grad_norm": 0.8198482394218445,
      "learning_rate": 3.138975061493815e-06,
      "loss": 0.5462,
      "num_input_tokens_seen": 58888056,
      "step": 5245,
      "train_runtime": 9041.1086,
      "train_tokens_per_second": 6513.367
    },
    {
      "epoch": 2.5193496130077397,
      "grad_norm": 0.7308799028396606,
      "learning_rate": 3.1085721084205987e-06,
      "loss": 0.4879,
      "num_input_tokens_seen": 58948912,
      "step": 5250,
      "train_runtime": 9049.9278,
      "train_tokens_per_second": 6513.744
    },
    {
      "epoch": 2.5217495650087,
      "grad_norm": 0.7503857612609863,
      "learning_rate": 3.078307345048251e-06,
      "loss": 0.434,
      "num_input_tokens_seen": 59005656,
      "step": 5255,
      "train_runtime": 9058.4522,
      "train_tokens_per_second": 6513.878
    },
    {
      "epoch": 2.52414951700966,
      "grad_norm": 0.7755120992660522,
      "learning_rate": 3.0481809624231667e-06,
      "loss": 0.4226,
      "num_input_tokens_seen": 59064880,
      "step": 5260,
      "train_runtime": 9067.2632,
      "train_tokens_per_second": 6514.08
    },
    {
      "epoch": 2.52654946901062,
      "grad_norm": 0.7984574437141418,
      "learning_rate": 3.018193150718224e-06,
      "loss": 0.4881,
      "num_input_tokens_seen": 59122920,
      "step": 5265,
      "train_runtime": 9075.8636,
      "train_tokens_per_second": 6514.302
    },
    {
      "epoch": 2.5289494210115797,
      "grad_norm": 0.7857392430305481,
      "learning_rate": 2.9883440992315744e-06,
      "loss": 0.4949,
      "num_input_tokens_seen": 59180768,
      "step": 5270,
      "train_runtime": 9084.2259,
      "train_tokens_per_second": 6514.674
    },
    {
      "epoch": 2.5313493730125396,
      "grad_norm": 0.7636000514030457,
      "learning_rate": 2.9586339963854402e-06,
      "loss": 0.4584,
      "num_input_tokens_seen": 59236392,
      "step": 5275,
      "train_runtime": 9093.425,
      "train_tokens_per_second": 6514.2
    },
    {
      "epoch": 2.5337493250135,
      "grad_norm": 0.7404913306236267,
      "learning_rate": 2.929063029724924e-06,
      "loss": 0.5001,
      "num_input_tokens_seen": 59288152,
      "step": 5280,
      "train_runtime": 9101.2939,
      "train_tokens_per_second": 6514.255
    },
    {
      "epoch": 2.53614927701446,
      "grad_norm": 0.8310667872428894,
      "learning_rate": 2.8996313859168373e-06,
      "loss": 0.4752,
      "num_input_tokens_seen": 59350448,
      "step": 5285,
      "train_runtime": 9109.697,
      "train_tokens_per_second": 6515.085
    },
    {
      "epoch": 2.5385492290154197,
      "grad_norm": 0.7058178782463074,
      "learning_rate": 2.8703392507485244e-06,
      "loss": 0.5058,
      "num_input_tokens_seen": 59405224,
      "step": 5290,
      "train_runtime": 9118.1859,
      "train_tokens_per_second": 6515.027
    },
    {
      "epoch": 2.5409491810163796,
      "grad_norm": 0.9837594628334045,
      "learning_rate": 2.8411868091266614e-06,
      "loss": 0.5101,
      "num_input_tokens_seen": 59459408,
      "step": 5295,
      "train_runtime": 9125.7939,
      "train_tokens_per_second": 6515.533
    },
    {
      "epoch": 2.5433491330173394,
      "grad_norm": 0.749136745929718,
      "learning_rate": 2.812174245076121e-06,
      "loss": 0.4509,
      "num_input_tokens_seen": 59519864,
      "step": 5300,
      "train_runtime": 9134.5564,
      "train_tokens_per_second": 6515.901
    },
    {
      "epoch": 2.5457490850182998,
      "grad_norm": 0.8679369688034058,
      "learning_rate": 2.783301741738803e-06,
      "loss": 0.5337,
      "num_input_tokens_seen": 59575648,
      "step": 5305,
      "train_runtime": 9142.5914,
      "train_tokens_per_second": 6516.276
    },
    {
      "epoch": 2.5481490370192597,
      "grad_norm": 0.7311270833015442,
      "learning_rate": 2.75456948137246e-06,
      "loss": 0.4446,
      "num_input_tokens_seen": 59631568,
      "step": 5310,
      "train_runtime": 9150.8949,
      "train_tokens_per_second": 6516.474
    },
    {
      "epoch": 2.5505489890202195,
      "grad_norm": 0.9072261452674866,
      "learning_rate": 2.725977645349567e-06,
      "loss": 0.4515,
      "num_input_tokens_seen": 59688168,
      "step": 5315,
      "train_runtime": 9158.8503,
      "train_tokens_per_second": 6516.993
    },
    {
      "epoch": 2.5529489410211794,
      "grad_norm": 0.7925878763198853,
      "learning_rate": 2.6975264141561792e-06,
      "loss": 0.4743,
      "num_input_tokens_seen": 59750784,
      "step": 5320,
      "train_runtime": 9167.7914,
      "train_tokens_per_second": 6517.468
    },
    {
      "epoch": 2.5553488930221393,
      "grad_norm": 0.7712064981460571,
      "learning_rate": 2.6692159673907674e-06,
      "loss": 0.4835,
      "num_input_tokens_seen": 59804776,
      "step": 5325,
      "train_runtime": 9176.5665,
      "train_tokens_per_second": 6517.119
    },
    {
      "epoch": 2.5577488450230996,
      "grad_norm": 0.9932171106338501,
      "learning_rate": 2.641046483763107e-06,
      "loss": 0.4954,
      "num_input_tokens_seen": 59862336,
      "step": 5330,
      "train_runtime": 9184.9522,
      "train_tokens_per_second": 6517.436
    },
    {
      "epoch": 2.5601487970240595,
      "grad_norm": 0.8807353377342224,
      "learning_rate": 2.613018141093143e-06,
      "loss": 0.5017,
      "num_input_tokens_seen": 59920072,
      "step": 5335,
      "train_runtime": 9193.9014,
      "train_tokens_per_second": 6517.372
    },
    {
      "epoch": 2.5625487490250194,
      "grad_norm": 0.7849051356315613,
      "learning_rate": 2.585131116309872e-06,
      "loss": 0.4951,
      "num_input_tokens_seen": 59975568,
      "step": 5340,
      "train_runtime": 9202.2095,
      "train_tokens_per_second": 6517.518
    },
    {
      "epoch": 2.5649487010259797,
      "grad_norm": 0.5779772400856018,
      "learning_rate": 2.557385585450217e-06,
      "loss": 0.4706,
      "num_input_tokens_seen": 60036392,
      "step": 5345,
      "train_runtime": 9211.2288,
      "train_tokens_per_second": 6517.74
    },
    {
      "epoch": 2.5673486530269396,
      "grad_norm": 0.9567521810531616,
      "learning_rate": 2.529781723657915e-06,
      "loss": 0.4893,
      "num_input_tokens_seen": 60093024,
      "step": 5350,
      "train_runtime": 9220.1795,
      "train_tokens_per_second": 6517.555
    },
    {
      "epoch": 2.5697486050278995,
      "grad_norm": 0.7940301299095154,
      "learning_rate": 2.5023197051824267e-06,
      "loss": 0.5055,
      "num_input_tokens_seen": 60144920,
      "step": 5355,
      "train_runtime": 9228.2311,
      "train_tokens_per_second": 6517.492
    },
    {
      "epoch": 2.5721485570288594,
      "grad_norm": 0.9344842433929443,
      "learning_rate": 2.4749997033778228e-06,
      "loss": 0.5167,
      "num_input_tokens_seen": 60203224,
      "step": 5360,
      "train_runtime": 9236.6101,
      "train_tokens_per_second": 6517.892
    },
    {
      "epoch": 2.5745485090298192,
      "grad_norm": 0.9174864888191223,
      "learning_rate": 2.4478218907016877e-06,
      "loss": 0.4896,
      "num_input_tokens_seen": 60259032,
      "step": 5365,
      "train_runtime": 9245.2879,
      "train_tokens_per_second": 6517.81
    },
    {
      "epoch": 2.5769484610307796,
      "grad_norm": 0.9624903798103333,
      "learning_rate": 2.4207864387140512e-06,
      "loss": 0.5132,
      "num_input_tokens_seen": 60308024,
      "step": 5370,
      "train_runtime": 9253.8315,
      "train_tokens_per_second": 6517.087
    },
    {
      "epoch": 2.5793484130317395,
      "grad_norm": 0.6800229549407959,
      "learning_rate": 2.3938935180762707e-06,
      "loss": 0.5086,
      "num_input_tokens_seen": 60362552,
      "step": 5375,
      "train_runtime": 9261.5584,
      "train_tokens_per_second": 6517.537
    },
    {
      "epoch": 2.5817483650326993,
      "grad_norm": 0.9939396977424622,
      "learning_rate": 2.36714329854999e-06,
      "loss": 0.5001,
      "num_input_tokens_seen": 60415520,
      "step": 5380,
      "train_runtime": 9269.7261,
      "train_tokens_per_second": 6517.509
    },
    {
      "epoch": 2.584148317033659,
      "grad_norm": 0.7869457602500916,
      "learning_rate": 2.3405359489960365e-06,
      "loss": 0.493,
      "num_input_tokens_seen": 60469016,
      "step": 5385,
      "train_runtime": 9277.4328,
      "train_tokens_per_second": 6517.861
    },
    {
      "epoch": 2.586548269034619,
      "grad_norm": 0.8779625296592712,
      "learning_rate": 2.314071637373394e-06,
      "loss": 0.537,
      "num_input_tokens_seen": 60528736,
      "step": 5390,
      "train_runtime": 9286.7608,
      "train_tokens_per_second": 6517.745
    },
    {
      "epoch": 2.5889482210355794,
      "grad_norm": 0.9168468713760376,
      "learning_rate": 2.2877505307380976e-06,
      "loss": 0.5101,
      "num_input_tokens_seen": 60585352,
      "step": 5395,
      "train_runtime": 9294.8068,
      "train_tokens_per_second": 6518.194
    },
    {
      "epoch": 2.5913481730365393,
      "grad_norm": 0.7564955353736877,
      "learning_rate": 2.2615727952422033e-06,
      "loss": 0.4426,
      "num_input_tokens_seen": 60645192,
      "step": 5400,
      "train_runtime": 9303.554,
      "train_tokens_per_second": 6518.497
    },
    {
      "epoch": 2.593748125037499,
      "grad_norm": 0.823637843132019,
      "learning_rate": 2.235538596132747e-06,
      "loss": 0.4401,
      "num_input_tokens_seen": 60705872,
      "step": 5405,
      "train_runtime": 9314.3874,
      "train_tokens_per_second": 6517.43
    },
    {
      "epoch": 2.596148077038459,
      "grad_norm": 0.5428220629692078,
      "learning_rate": 2.2096480977506883e-06,
      "loss": 0.466,
      "num_input_tokens_seen": 60766448,
      "step": 5410,
      "train_runtime": 9324.731,
      "train_tokens_per_second": 6516.697
    },
    {
      "epoch": 2.598548029039419,
      "grad_norm": 1.0644038915634155,
      "learning_rate": 2.183901463529861e-06,
      "loss": 0.4647,
      "num_input_tokens_seen": 60820832,
      "step": 5415,
      "train_runtime": 9335.3113,
      "train_tokens_per_second": 6515.137
    },
    {
      "epoch": 2.6009479810403793,
      "grad_norm": 0.7919825315475464,
      "learning_rate": 2.1582988559959773e-06,
      "loss": 0.4435,
      "num_input_tokens_seen": 60879048,
      "step": 5420,
      "train_runtime": 9346.1879,
      "train_tokens_per_second": 6513.784
    },
    {
      "epoch": 2.603347933041339,
      "grad_norm": 1.047285556793213,
      "learning_rate": 2.132840436765568e-06,
      "loss": 0.4641,
      "num_input_tokens_seen": 60927720,
      "step": 5425,
      "train_runtime": 9355.613,
      "train_tokens_per_second": 6512.424
    },
    {
      "epoch": 2.605747885042299,
      "grad_norm": 0.9616097211837769,
      "learning_rate": 2.1075263665449737e-06,
      "loss": 0.4677,
      "num_input_tokens_seen": 60981576,
      "step": 5430,
      "train_runtime": 9365.6809,
      "train_tokens_per_second": 6511.174
    },
    {
      "epoch": 2.6081478370432594,
      "grad_norm": 0.9964049458503723,
      "learning_rate": 2.082356805129332e-06,
      "loss": 0.4929,
      "num_input_tokens_seen": 61039448,
      "step": 5435,
      "train_runtime": 9376.1343,
      "train_tokens_per_second": 6510.087
    },
    {
      "epoch": 2.6105477890442192,
      "grad_norm": 0.8985645174980164,
      "learning_rate": 2.0573319114015775e-06,
      "loss": 0.4886,
      "num_input_tokens_seen": 61093640,
      "step": 5440,
      "train_runtime": 9386.3154,
      "train_tokens_per_second": 6508.799
    },
    {
      "epoch": 2.612947741045179,
      "grad_norm": 0.7488046884536743,
      "learning_rate": 2.0324518433314206e-06,
      "loss": 0.4697,
      "num_input_tokens_seen": 61149808,
      "step": 5445,
      "train_runtime": 9396.5128,
      "train_tokens_per_second": 6507.713
    },
    {
      "epoch": 2.615347693046139,
      "grad_norm": 0.7769824862480164,
      "learning_rate": 2.0077167579743593e-06,
      "loss": 0.4645,
      "num_input_tokens_seen": 61206176,
      "step": 5450,
      "train_runtime": 9406.5758,
      "train_tokens_per_second": 6506.743
    },
    {
      "epoch": 2.617747645047099,
      "grad_norm": 0.7720673084259033,
      "learning_rate": 1.9831268114706925e-06,
      "loss": 0.4667,
      "num_input_tokens_seen": 61266712,
      "step": 5455,
      "train_runtime": 9417.2442,
      "train_tokens_per_second": 6505.8
    },
    {
      "epoch": 2.620147597048059,
      "grad_norm": 0.7182523012161255,
      "learning_rate": 1.958682159044531e-06,
      "loss": 0.4644,
      "num_input_tokens_seen": 61319856,
      "step": 5460,
      "train_runtime": 9426.6437,
      "train_tokens_per_second": 6504.951
    },
    {
      "epoch": 2.622547549049019,
      "grad_norm": 0.8977944850921631,
      "learning_rate": 1.934382955002803e-06,
      "loss": 0.5007,
      "num_input_tokens_seen": 61377048,
      "step": 5465,
      "train_runtime": 9437.2729,
      "train_tokens_per_second": 6503.685
    },
    {
      "epoch": 2.624947501049979,
      "grad_norm": 0.7803311347961426,
      "learning_rate": 1.9102293527343163e-06,
      "loss": 0.4658,
      "num_input_tokens_seen": 61434248,
      "step": 5470,
      "train_runtime": 9448.0138,
      "train_tokens_per_second": 6502.345
    },
    {
      "epoch": 2.627347453050939,
      "grad_norm": 0.72231125831604,
      "learning_rate": 1.886221504708746e-06,
      "loss": 0.4968,
      "num_input_tokens_seen": 61494600,
      "step": 5475,
      "train_runtime": 9459.0534,
      "train_tokens_per_second": 6501.137
    },
    {
      "epoch": 2.6297474050518987,
      "grad_norm": 0.5621334314346313,
      "learning_rate": 1.8623595624757045e-06,
      "loss": 0.4606,
      "num_input_tokens_seen": 61555232,
      "step": 5480,
      "train_runtime": 9469.3682,
      "train_tokens_per_second": 6500.458
    },
    {
      "epoch": 2.632147357052859,
      "grad_norm": 0.6386857628822327,
      "learning_rate": 1.8386436766637593e-06,
      "loss": 0.4647,
      "num_input_tokens_seen": 61610480,
      "step": 5485,
      "train_runtime": 9479.3329,
      "train_tokens_per_second": 6499.453
    },
    {
      "epoch": 2.634547309053819,
      "grad_norm": 0.6079943776130676,
      "learning_rate": 1.8150739969795245e-06,
      "loss": 0.4742,
      "num_input_tokens_seen": 61666936,
      "step": 5490,
      "train_runtime": 9489.1199,
      "train_tokens_per_second": 6498.699
    },
    {
      "epoch": 2.636947261054779,
      "grad_norm": 0.6471970677375793,
      "learning_rate": 1.7916506722066573e-06,
      "loss": 0.5121,
      "num_input_tokens_seen": 61723152,
      "step": 5495,
      "train_runtime": 9498.3327,
      "train_tokens_per_second": 6498.314
    },
    {
      "epoch": 2.639347213055739,
      "grad_norm": 0.8927129507064819,
      "learning_rate": 1.7683738502049658e-06,
      "loss": 0.5282,
      "num_input_tokens_seen": 61779792,
      "step": 5500,
      "train_runtime": 9508.4194,
      "train_tokens_per_second": 6497.378
    },
    {
      "epoch": 2.6417471650566986,
      "grad_norm": 0.9175587296485901,
      "learning_rate": 1.7452436779094527e-06,
      "loss": 0.5226,
      "num_input_tokens_seen": 61837696,
      "step": 5505,
      "train_runtime": 9518.2144,
      "train_tokens_per_second": 6496.775
    },
    {
      "epoch": 2.644147117057659,
      "grad_norm": 0.6489665508270264,
      "learning_rate": 1.7222603013294036e-06,
      "loss": 0.4645,
      "num_input_tokens_seen": 61896032,
      "step": 5510,
      "train_runtime": 9528.6748,
      "train_tokens_per_second": 6495.765
    },
    {
      "epoch": 2.646547069058619,
      "grad_norm": 0.8270627856254578,
      "learning_rate": 1.6994238655474394e-06,
      "loss": 0.4943,
      "num_input_tokens_seen": 61949384,
      "step": 5515,
      "train_runtime": 9538.4414,
      "train_tokens_per_second": 6494.707
    },
    {
      "epoch": 2.6489470210595787,
      "grad_norm": 0.7798356413841248,
      "learning_rate": 1.6767345147186336e-06,
      "loss": 0.5109,
      "num_input_tokens_seen": 62002592,
      "step": 5520,
      "train_runtime": 9548.0079,
      "train_tokens_per_second": 6493.773
    },
    {
      "epoch": 2.651346973060539,
      "grad_norm": 0.8514456748962402,
      "learning_rate": 1.6541923920695756e-06,
      "loss": 0.4477,
      "num_input_tokens_seen": 62055040,
      "step": 5525,
      "train_runtime": 9558.322,
      "train_tokens_per_second": 6492.253
    },
    {
      "epoch": 2.653746925061499,
      "grad_norm": 1.0111453533172607,
      "learning_rate": 1.6317976398974782e-06,
      "loss": 0.5174,
      "num_input_tokens_seen": 62109976,
      "step": 5530,
      "train_runtime": 9567.8838,
      "train_tokens_per_second": 6491.506
    },
    {
      "epoch": 2.6561468770624588,
      "grad_norm": 0.702575147151947,
      "learning_rate": 1.6095503995692762e-06,
      "loss": 0.4668,
      "num_input_tokens_seen": 62167376,
      "step": 5535,
      "train_runtime": 9577.5036,
      "train_tokens_per_second": 6490.979
    },
    {
      "epoch": 2.6585468290634187,
      "grad_norm": 0.8962842226028442,
      "learning_rate": 1.5874508115207408e-06,
      "loss": 0.4676,
      "num_input_tokens_seen": 62221488,
      "step": 5540,
      "train_runtime": 9587.9271,
      "train_tokens_per_second": 6489.566
    },
    {
      "epoch": 2.6609467810643785,
      "grad_norm": 0.7158124446868896,
      "learning_rate": 1.5654990152555837e-06,
      "loss": 0.4947,
      "num_input_tokens_seen": 62277176,
      "step": 5545,
      "train_runtime": 9597.969,
      "train_tokens_per_second": 6488.579
    },
    {
      "epoch": 2.663346733065339,
      "grad_norm": 1.1132010221481323,
      "learning_rate": 1.5436951493445762e-06,
      "loss": 0.4875,
      "num_input_tokens_seen": 62330544,
      "step": 5550,
      "train_runtime": 9607.4993,
      "train_tokens_per_second": 6487.697
    },
    {
      "epoch": 2.6657466850662987,
      "grad_norm": 0.8258331418037415,
      "learning_rate": 1.5220393514246895e-06,
      "loss": 0.5035,
      "num_input_tokens_seen": 62381768,
      "step": 5555,
      "train_runtime": 9616.8354,
      "train_tokens_per_second": 6486.725
    },
    {
      "epoch": 2.6681466370672586,
      "grad_norm": 0.8152797818183899,
      "learning_rate": 1.5005317581982092e-06,
      "loss": 0.4839,
      "num_input_tokens_seen": 62436944,
      "step": 5560,
      "train_runtime": 9626.6187,
      "train_tokens_per_second": 6485.864
    },
    {
      "epoch": 2.6705465890682185,
      "grad_norm": 0.8248258233070374,
      "learning_rate": 1.479172505431875e-06,
      "loss": 0.4973,
      "num_input_tokens_seen": 62491352,
      "step": 5565,
      "train_runtime": 9636.4281,
      "train_tokens_per_second": 6484.908
    },
    {
      "epoch": 2.6729465410691784,
      "grad_norm": 1.0632202625274658,
      "learning_rate": 1.4579617279560393e-06,
      "loss": 0.486,
      "num_input_tokens_seen": 62546464,
      "step": 5570,
      "train_runtime": 9646.0848,
      "train_tokens_per_second": 6484.13
    },
    {
      "epoch": 2.6753464930701387,
      "grad_norm": 1.1524382829666138,
      "learning_rate": 1.4368995596637902e-06,
      "loss": 0.4729,
      "num_input_tokens_seen": 62602496,
      "step": 5575,
      "train_runtime": 9656.9657,
      "train_tokens_per_second": 6482.626
    },
    {
      "epoch": 2.6777464450710986,
      "grad_norm": 0.66849684715271,
      "learning_rate": 1.415986133510122e-06,
      "loss": 0.4894,
      "num_input_tokens_seen": 62664360,
      "step": 5580,
      "train_runtime": 9668.3929,
      "train_tokens_per_second": 6481.363
    },
    {
      "epoch": 2.6801463970720585,
      "grad_norm": 0.7072093486785889,
      "learning_rate": 1.395221581511097e-06,
      "loss": 0.4524,
      "num_input_tokens_seen": 62721848,
      "step": 5585,
      "train_runtime": 9678.2677,
      "train_tokens_per_second": 6480.69
    },
    {
      "epoch": 2.682546349073019,
      "grad_norm": 0.8476486802101135,
      "learning_rate": 1.3746060347430118e-06,
      "loss": 0.4765,
      "num_input_tokens_seen": 62776544,
      "step": 5590,
      "train_runtime": 9687.8596,
      "train_tokens_per_second": 6479.919
    },
    {
      "epoch": 2.6849463010739782,
      "grad_norm": 0.807366132736206,
      "learning_rate": 1.354139623341566e-06,
      "loss": 0.4656,
      "num_input_tokens_seen": 62834048,
      "step": 5595,
      "train_runtime": 9698.4717,
      "train_tokens_per_second": 6478.758
    },
    {
      "epoch": 2.6873462530749386,
      "grad_norm": 0.6468657851219177,
      "learning_rate": 1.3338224765010315e-06,
      "loss": 0.4573,
      "num_input_tokens_seen": 62894360,
      "step": 5600,
      "train_runtime": 9709.7847,
      "train_tokens_per_second": 6477.421
    },
    {
      "epoch": 2.6897462050758985,
      "grad_norm": 0.9837515354156494,
      "learning_rate": 1.3136547224734646e-06,
      "loss": 0.4944,
      "num_input_tokens_seen": 62952560,
      "step": 5605,
      "train_runtime": 9720.79,
      "train_tokens_per_second": 6476.074
    },
    {
      "epoch": 2.6921461570768583,
      "grad_norm": 0.7956768274307251,
      "learning_rate": 1.2936364885678676e-06,
      "loss": 0.4829,
      "num_input_tokens_seen": 63006360,
      "step": 5610,
      "train_runtime": 9729.8891,
      "train_tokens_per_second": 6475.548
    },
    {
      "epoch": 2.6945461090778187,
      "grad_norm": 0.7825217247009277,
      "learning_rate": 1.2737679011493947e-06,
      "loss": 0.4819,
      "num_input_tokens_seen": 63065920,
      "step": 5615,
      "train_runtime": 9740.3812,
      "train_tokens_per_second": 6474.687
    },
    {
      "epoch": 2.6969460610787785,
      "grad_norm": 0.8457074761390686,
      "learning_rate": 1.2540490856385672e-06,
      "loss": 0.4717,
      "num_input_tokens_seen": 63121320,
      "step": 5620,
      "train_runtime": 9751.1742,
      "train_tokens_per_second": 6473.202
    },
    {
      "epoch": 2.6993460130797384,
      "grad_norm": 0.8086642026901245,
      "learning_rate": 1.23448016651046e-06,
      "loss": 0.462,
      "num_input_tokens_seen": 63176440,
      "step": 5625,
      "train_runtime": 9760.6545,
      "train_tokens_per_second": 6472.562
    },
    {
      "epoch": 2.7017459650806983,
      "grad_norm": 0.6313350796699524,
      "learning_rate": 1.215061267293932e-06,
      "loss": 0.4332,
      "num_input_tokens_seen": 63242712,
      "step": 5630,
      "train_runtime": 9772.2646,
      "train_tokens_per_second": 6471.654
    },
    {
      "epoch": 2.704145917081658,
      "grad_norm": 1.2930268049240112,
      "learning_rate": 1.195792510570834e-06,
      "loss": 0.4613,
      "num_input_tokens_seen": 63294640,
      "step": 5635,
      "train_runtime": 9782.3592,
      "train_tokens_per_second": 6470.284
    },
    {
      "epoch": 2.7065458690826185,
      "grad_norm": 0.6524819731712341,
      "learning_rate": 1.1766740179752572e-06,
      "loss": 0.4588,
      "num_input_tokens_seen": 63353040,
      "step": 5640,
      "train_runtime": 9793.201,
      "train_tokens_per_second": 6469.084
    },
    {
      "epoch": 2.7089458210835784,
      "grad_norm": 0.9691641330718994,
      "learning_rate": 1.1577059101927385e-06,
      "loss": 0.5275,
      "num_input_tokens_seen": 63408480,
      "step": 5645,
      "train_runtime": 9803.1346,
      "train_tokens_per_second": 6468.184
    },
    {
      "epoch": 2.7113457730845383,
      "grad_norm": 0.7839572429656982,
      "learning_rate": 1.138888306959504e-06,
      "loss": 0.4728,
      "num_input_tokens_seen": 63465824,
      "step": 5650,
      "train_runtime": 9814.8407,
      "train_tokens_per_second": 6466.312
    },
    {
      "epoch": 2.713745725085498,
      "grad_norm": 0.9171317219734192,
      "learning_rate": 1.1202213270617322e-06,
      "loss": 0.4897,
      "num_input_tokens_seen": 63518744,
      "step": 5655,
      "train_runtime": 9824.5678,
      "train_tokens_per_second": 6465.297
    },
    {
      "epoch": 2.716145677086458,
      "grad_norm": 1.0188878774642944,
      "learning_rate": 1.101705088334795e-06,
      "loss": 0.4849,
      "num_input_tokens_seen": 63573232,
      "step": 5660,
      "train_runtime": 9833.9406,
      "train_tokens_per_second": 6464.675
    },
    {
      "epoch": 2.7185456290874184,
      "grad_norm": 0.811906099319458,
      "learning_rate": 1.0833397076624897e-06,
      "loss": 0.4778,
      "num_input_tokens_seen": 63626872,
      "step": 5665,
      "train_runtime": 9843.8939,
      "train_tokens_per_second": 6463.588
    },
    {
      "epoch": 2.7209455810883783,
      "grad_norm": 0.9648638367652893,
      "learning_rate": 1.065125300976344e-06,
      "loss": 0.5255,
      "num_input_tokens_seen": 63680184,
      "step": 5670,
      "train_runtime": 9852.7656,
      "train_tokens_per_second": 6463.179
    },
    {
      "epoch": 2.723345533089338,
      "grad_norm": 0.8658723831176758,
      "learning_rate": 1.0470619832548461e-06,
      "loss": 0.5119,
      "num_input_tokens_seen": 63732752,
      "step": 5675,
      "train_runtime": 9861.8742,
      "train_tokens_per_second": 6462.54
    },
    {
      "epoch": 2.7257454850902985,
      "grad_norm": 0.6413763761520386,
      "learning_rate": 1.0291498685227441e-06,
      "loss": 0.4683,
      "num_input_tokens_seen": 63790384,
      "step": 5680,
      "train_runtime": 9873.128,
      "train_tokens_per_second": 6461.011
    },
    {
      "epoch": 2.7281454370912583,
      "grad_norm": 0.9176835417747498,
      "learning_rate": 1.0113890698503076e-06,
      "loss": 0.4943,
      "num_input_tokens_seen": 63845528,
      "step": 5685,
      "train_runtime": 9883.5777,
      "train_tokens_per_second": 6459.759
    },
    {
      "epoch": 2.7305453890922182,
      "grad_norm": 0.8102623224258423,
      "learning_rate": 9.937796993526343e-07,
      "loss": 0.4989,
      "num_input_tokens_seen": 63898616,
      "step": 5690,
      "train_runtime": 9893.716,
      "train_tokens_per_second": 6458.505
    },
    {
      "epoch": 2.732945341093178,
      "grad_norm": 0.7839487195014954,
      "learning_rate": 9.763218681889203e-07,
      "loss": 0.4506,
      "num_input_tokens_seen": 63953600,
      "step": 5695,
      "train_runtime": 9903.0294,
      "train_tokens_per_second": 6457.983
    },
    {
      "epoch": 2.735345293094138,
      "grad_norm": 0.8236997723579407,
      "learning_rate": 9.59015686561779e-07,
      "loss": 0.4606,
      "num_input_tokens_seen": 64012184,
      "step": 5700,
      "train_runtime": 9913.4852,
      "train_tokens_per_second": 6457.082
    },
    {
      "epoch": 2.7377452450950983,
      "grad_norm": 0.7789479494094849,
      "learning_rate": 9.418612637165286e-07,
      "loss": 0.4545,
      "num_input_tokens_seen": 64065248,
      "step": 5705,
      "train_runtime": 9924.2434,
      "train_tokens_per_second": 6455.429
    },
    {
      "epoch": 2.740145197096058,
      "grad_norm": 0.890102744102478,
      "learning_rate": 9.24858707940518e-07,
      "loss": 0.5299,
      "num_input_tokens_seen": 64120216,
      "step": 5710,
      "train_runtime": 9934.9595,
      "train_tokens_per_second": 6453.999
    },
    {
      "epoch": 2.742545149097018,
      "grad_norm": 0.9005339741706848,
      "learning_rate": 9.08008126562418e-07,
      "loss": 0.4609,
      "num_input_tokens_seen": 64181128,
      "step": 5715,
      "train_runtime": 9946.018,
      "train_tokens_per_second": 6452.947
    },
    {
      "epoch": 2.744945101097978,
      "grad_norm": 0.9289687275886536,
      "learning_rate": 8.913096259515835e-07,
      "loss": 0.464,
      "num_input_tokens_seen": 64234984,
      "step": 5720,
      "train_runtime": 9954.6483,
      "train_tokens_per_second": 6452.763
    },
    {
      "epoch": 2.747345053098938,
      "grad_norm": 1.0818783044815063,
      "learning_rate": 8.747633115173404e-07,
      "loss": 0.4932,
      "num_input_tokens_seen": 64290040,
      "step": 5725,
      "train_runtime": 9963.0154,
      "train_tokens_per_second": 6452.87
    },
    {
      "epoch": 2.749745005099898,
      "grad_norm": 0.7084750533103943,
      "learning_rate": 8.583692877083465e-07,
      "loss": 0.4344,
      "num_input_tokens_seen": 64347256,
      "step": 5730,
      "train_runtime": 9971.5711,
      "train_tokens_per_second": 6453.071
    },
    {
      "epoch": 2.752144957100858,
      "grad_norm": 0.8155821561813354,
      "learning_rate": 8.421276580119236e-07,
      "loss": 0.4921,
      "num_input_tokens_seen": 64401448,
      "step": 5735,
      "train_runtime": 9980.1585,
      "train_tokens_per_second": 6452.948
    },
    {
      "epoch": 2.754544909101818,
      "grad_norm": 0.7858007550239563,
      "learning_rate": 8.260385249534042e-07,
      "loss": 0.4953,
      "num_input_tokens_seen": 64457576,
      "step": 5740,
      "train_runtime": 9988.8703,
      "train_tokens_per_second": 6452.94
    },
    {
      "epoch": 2.756944861102778,
      "grad_norm": 0.8042717576026917,
      "learning_rate": 8.101019900954881e-07,
      "loss": 0.4595,
      "num_input_tokens_seen": 64515152,
      "step": 5745,
      "train_runtime": 9998.2113,
      "train_tokens_per_second": 6452.669
    },
    {
      "epoch": 2.7593448131037377,
      "grad_norm": 0.61765056848526,
      "learning_rate": 7.943181540375988e-07,
      "loss": 0.4843,
      "num_input_tokens_seen": 64573768,
      "step": 5750,
      "train_runtime": 10006.8604,
      "train_tokens_per_second": 6452.95
    },
    {
      "epoch": 2.761744765104698,
      "grad_norm": 0.8006062507629395,
      "learning_rate": 7.786871164152415e-07,
      "loss": 0.4595,
      "num_input_tokens_seen": 64626520,
      "step": 5755,
      "train_runtime": 10014.3267,
      "train_tokens_per_second": 6453.406
    },
    {
      "epoch": 2.764144717105658,
      "grad_norm": 0.7694302797317505,
      "learning_rate": 7.632089758993932e-07,
      "loss": 0.4565,
      "num_input_tokens_seen": 64683224,
      "step": 5760,
      "train_runtime": 10022.5457,
      "train_tokens_per_second": 6453.772
    },
    {
      "epoch": 2.766544669106618,
      "grad_norm": 0.7269204258918762,
      "learning_rate": 7.478838301958502e-07,
      "loss": 0.4728,
      "num_input_tokens_seen": 64738056,
      "step": 5765,
      "train_runtime": 10030.9759,
      "train_tokens_per_second": 6453.814
    },
    {
      "epoch": 2.768944621107578,
      "grad_norm": 0.8213253021240234,
      "learning_rate": 7.327117760446478e-07,
      "loss": 0.4835,
      "num_input_tokens_seen": 64790592,
      "step": 5770,
      "train_runtime": 10039.0056,
      "train_tokens_per_second": 6453.885
    },
    {
      "epoch": 2.771344573108538,
      "grad_norm": 0.6208813190460205,
      "learning_rate": 7.17692909219414e-07,
      "loss": 0.4922,
      "num_input_tokens_seen": 64844640,
      "step": 5775,
      "train_runtime": 10047.9962,
      "train_tokens_per_second": 6453.49
    },
    {
      "epoch": 2.773744525109498,
      "grad_norm": 0.7945714592933655,
      "learning_rate": 7.028273245267947e-07,
      "loss": 0.4473,
      "num_input_tokens_seen": 64903320,
      "step": 5780,
      "train_runtime": 10056.9037,
      "train_tokens_per_second": 6453.609
    },
    {
      "epoch": 2.7761444771104578,
      "grad_norm": 0.6964590549468994,
      "learning_rate": 6.881151158058263e-07,
      "loss": 0.5196,
      "num_input_tokens_seen": 64963432,
      "step": 5785,
      "train_runtime": 10066.3751,
      "train_tokens_per_second": 6453.508
    },
    {
      "epoch": 2.7785444291114176,
      "grad_norm": 0.7940050959587097,
      "learning_rate": 6.735563759273783e-07,
      "loss": 0.4862,
      "num_input_tokens_seen": 65020920,
      "step": 5790,
      "train_runtime": 10074.8972,
      "train_tokens_per_second": 6453.755
    },
    {
      "epoch": 2.780944381112378,
      "grad_norm": 0.7207697033882141,
      "learning_rate": 6.591511967935282e-07,
      "loss": 0.4557,
      "num_input_tokens_seen": 65077720,
      "step": 5795,
      "train_runtime": 10083.2022,
      "train_tokens_per_second": 6454.073
    },
    {
      "epoch": 2.783344333113338,
      "grad_norm": 0.9495781064033508,
      "learning_rate": 6.448996693370179e-07,
      "loss": 0.4682,
      "num_input_tokens_seen": 65133616,
      "step": 5800,
      "train_runtime": 10092.261,
      "train_tokens_per_second": 6453.818
    },
    {
      "epoch": 2.7857442851142977,
      "grad_norm": 0.8136801719665527,
      "learning_rate": 6.308018835206541e-07,
      "loss": 0.4646,
      "num_input_tokens_seen": 65187840,
      "step": 5805,
      "train_runtime": 10100.5435,
      "train_tokens_per_second": 6453.894
    },
    {
      "epoch": 2.7881442371152576,
      "grad_norm": 0.6333021521568298,
      "learning_rate": 6.168579283367476e-07,
      "loss": 0.472,
      "num_input_tokens_seen": 65240368,
      "step": 5810,
      "train_runtime": 10108.7592,
      "train_tokens_per_second": 6453.845
    },
    {
      "epoch": 2.7905441891162175,
      "grad_norm": 1.0317847728729248,
      "learning_rate": 6.030678918065552e-07,
      "loss": 0.4831,
      "num_input_tokens_seen": 65295184,
      "step": 5815,
      "train_runtime": 10117.6223,
      "train_tokens_per_second": 6453.61
    },
    {
      "epoch": 2.792944141117178,
      "grad_norm": 1.2926782369613647,
      "learning_rate": 5.894318609797222e-07,
      "loss": 0.4951,
      "num_input_tokens_seen": 65351248,
      "step": 5820,
      "train_runtime": 10125.5866,
      "train_tokens_per_second": 6454.07
    },
    {
      "epoch": 2.7953440931181377,
      "grad_norm": 0.8632203936576843,
      "learning_rate": 5.759499219337328e-07,
      "loss": 0.4852,
      "num_input_tokens_seen": 65405976,
      "step": 5825,
      "train_runtime": 10133.4185,
      "train_tokens_per_second": 6454.483
    },
    {
      "epoch": 2.7977440451190976,
      "grad_norm": 0.8666356801986694,
      "learning_rate": 5.626221597733655e-07,
      "loss": 0.4505,
      "num_input_tokens_seen": 65466136,
      "step": 5830,
      "train_runtime": 10141.883,
      "train_tokens_per_second": 6455.028
    },
    {
      "epoch": 2.8001439971200575,
      "grad_norm": 0.894623875617981,
      "learning_rate": 5.494486586301528e-07,
      "loss": 0.5448,
      "num_input_tokens_seen": 65518496,
      "step": 5835,
      "train_runtime": 10149.8014,
      "train_tokens_per_second": 6455.151
    },
    {
      "epoch": 2.8025439491210173,
      "grad_norm": 0.8759870529174805,
      "learning_rate": 5.364295016618643e-07,
      "loss": 0.4865,
      "num_input_tokens_seen": 65577616,
      "step": 5840,
      "train_runtime": 10157.9244,
      "train_tokens_per_second": 6455.809
    },
    {
      "epoch": 2.8049439011219777,
      "grad_norm": 0.7551533579826355,
      "learning_rate": 5.235647710519626e-07,
      "loss": 0.4664,
      "num_input_tokens_seen": 65634592,
      "step": 5845,
      "train_runtime": 10166.5957,
      "train_tokens_per_second": 6455.907
    },
    {
      "epoch": 2.8073438531229375,
      "grad_norm": 0.7756850719451904,
      "learning_rate": 5.108545480090931e-07,
      "loss": 0.4649,
      "num_input_tokens_seen": 65691480,
      "step": 5850,
      "train_runtime": 10174.9677,
      "train_tokens_per_second": 6456.186
    },
    {
      "epoch": 2.8097438051238974,
      "grad_norm": 0.6903165578842163,
      "learning_rate": 4.982989127665816e-07,
      "loss": 0.4969,
      "num_input_tokens_seen": 65745568,
      "step": 5855,
      "train_runtime": 10183.3283,
      "train_tokens_per_second": 6456.196
    },
    {
      "epoch": 2.8121437571248578,
      "grad_norm": 0.7350341081619263,
      "learning_rate": 4.858979445819089e-07,
      "loss": 0.4742,
      "num_input_tokens_seen": 65799784,
      "step": 5860,
      "train_runtime": 10190.9666,
      "train_tokens_per_second": 6456.677
    },
    {
      "epoch": 2.8145437091258176,
      "grad_norm": 0.7910242676734924,
      "learning_rate": 4.7365172173621796e-07,
      "loss": 0.4561,
      "num_input_tokens_seen": 65856528,
      "step": 5865,
      "train_runtime": 10199.5186,
      "train_tokens_per_second": 6456.827
    },
    {
      "epoch": 2.8169436611267775,
      "grad_norm": 0.8002808094024658,
      "learning_rate": 4.615603215338299e-07,
      "loss": 0.4425,
      "num_input_tokens_seen": 65911144,
      "step": 5870,
      "train_runtime": 10208.0985,
      "train_tokens_per_second": 6456.75
    },
    {
      "epoch": 2.8193436131277374,
      "grad_norm": 0.6876586079597473,
      "learning_rate": 4.496238203017422e-07,
      "loss": 0.4873,
      "num_input_tokens_seen": 65971080,
      "step": 5875,
      "train_runtime": 10216.3273,
      "train_tokens_per_second": 6457.416
    },
    {
      "epoch": 2.8217435651286973,
      "grad_norm": 0.65282142162323,
      "learning_rate": 4.3784229338915406e-07,
      "loss": 0.4867,
      "num_input_tokens_seen": 66026344,
      "step": 5880,
      "train_runtime": 10224.7475,
      "train_tokens_per_second": 6457.504
    },
    {
      "epoch": 2.8241435171296576,
      "grad_norm": 0.6614166498184204,
      "learning_rate": 4.262158151669804e-07,
      "loss": 0.4813,
      "num_input_tokens_seen": 66082360,
      "step": 5885,
      "train_runtime": 10233.2091,
      "train_tokens_per_second": 6457.638
    },
    {
      "epoch": 2.8265434691306175,
      "grad_norm": 0.7193440794944763,
      "learning_rate": 4.147444590274052e-07,
      "loss": 0.4968,
      "num_input_tokens_seen": 66134928,
      "step": 5890,
      "train_runtime": 10241.3234,
      "train_tokens_per_second": 6457.654
    },
    {
      "epoch": 2.8289434211315774,
      "grad_norm": 0.7374788522720337,
      "learning_rate": 4.0342829738339583e-07,
      "loss": 0.4744,
      "num_input_tokens_seen": 66190032,
      "step": 5895,
      "train_runtime": 10249.2265,
      "train_tokens_per_second": 6458.051
    },
    {
      "epoch": 2.8313433731325373,
      "grad_norm": 0.9320788979530334,
      "learning_rate": 3.922674016682504e-07,
      "loss": 0.4819,
      "num_input_tokens_seen": 66244312,
      "step": 5900,
      "train_runtime": 10256.9977,
      "train_tokens_per_second": 6458.45
    },
    {
      "epoch": 2.833743325133497,
      "grad_norm": 0.526983916759491,
      "learning_rate": 3.812618423351622e-07,
      "loss": 0.4424,
      "num_input_tokens_seen": 66305552,
      "step": 5905,
      "train_runtime": 10265.6243,
      "train_tokens_per_second": 6458.989
    },
    {
      "epoch": 2.8361432771344575,
      "grad_norm": 0.9565876722335815,
      "learning_rate": 3.704116888567505e-07,
      "loss": 0.4926,
      "num_input_tokens_seen": 66358648,
      "step": 5910,
      "train_runtime": 10273.7771,
      "train_tokens_per_second": 6459.031
    },
    {
      "epoch": 2.8385432291354173,
      "grad_norm": 0.9867433905601501,
      "learning_rate": 3.597170097246416e-07,
      "loss": 0.4706,
      "num_input_tokens_seen": 66417384,
      "step": 5915,
      "train_runtime": 10283.2277,
      "train_tokens_per_second": 6458.807
    },
    {
      "epoch": 2.8409431811363772,
      "grad_norm": 0.6663256883621216,
      "learning_rate": 3.4917787244902743e-07,
      "loss": 0.4945,
      "num_input_tokens_seen": 66477648,
      "step": 5920,
      "train_runtime": 10293.4798,
      "train_tokens_per_second": 6458.229
    },
    {
      "epoch": 2.843343133137337,
      "grad_norm": 0.621631920337677,
      "learning_rate": 3.387943435582436e-07,
      "loss": 0.495,
      "num_input_tokens_seen": 66532464,
      "step": 5925,
      "train_runtime": 10302.8802,
      "train_tokens_per_second": 6457.657
    },
    {
      "epoch": 2.845743085138297,
      "grad_norm": 0.638155460357666,
      "learning_rate": 3.285664885983447e-07,
      "loss": 0.4263,
      "num_input_tokens_seen": 66589296,
      "step": 5930,
      "train_runtime": 10312.6945,
      "train_tokens_per_second": 6457.022
    },
    {
      "epoch": 2.8481430371392573,
      "grad_norm": 0.7790648341178894,
      "learning_rate": 3.184943721326938e-07,
      "loss": 0.4473,
      "num_input_tokens_seen": 66648144,
      "step": 5935,
      "train_runtime": 10322.4204,
      "train_tokens_per_second": 6456.639
    },
    {
      "epoch": 2.850542989140217,
      "grad_norm": 0.9435281753540039,
      "learning_rate": 3.0857805774155423e-07,
      "loss": 0.4773,
      "num_input_tokens_seen": 66702560,
      "step": 5940,
      "train_runtime": 10331.5732,
      "train_tokens_per_second": 6456.186
    },
    {
      "epoch": 2.852942941141177,
      "grad_norm": 0.7527910470962524,
      "learning_rate": 2.988176080216898e-07,
      "loss": 0.5113,
      "num_input_tokens_seen": 66757360,
      "step": 5945,
      "train_runtime": 10341.338,
      "train_tokens_per_second": 6455.389
    },
    {
      "epoch": 2.8553428931421374,
      "grad_norm": 0.949381411075592,
      "learning_rate": 2.892130845859653e-07,
      "loss": 0.5225,
      "num_input_tokens_seen": 66813080,
      "step": 5950,
      "train_runtime": 10351.5482,
      "train_tokens_per_second": 6454.405
    },
    {
      "epoch": 2.8577428451430973,
      "grad_norm": 0.682515561580658,
      "learning_rate": 2.7976454806296906e-07,
      "loss": 0.4474,
      "num_input_tokens_seen": 66870744,
      "step": 5955,
      "train_runtime": 10361.7884,
      "train_tokens_per_second": 6453.591
    },
    {
      "epoch": 2.860142797144057,
      "grad_norm": 0.8949669599533081,
      "learning_rate": 2.7047205809660746e-07,
      "loss": 0.4552,
      "num_input_tokens_seen": 66926176,
      "step": 5960,
      "train_runtime": 10372.0384,
      "train_tokens_per_second": 6452.558
    },
    {
      "epoch": 2.862542749145017,
      "grad_norm": 0.672732949256897,
      "learning_rate": 2.6133567334575e-07,
      "loss": 0.461,
      "num_input_tokens_seen": 66982736,
      "step": 5965,
      "train_runtime": 10381.6755,
      "train_tokens_per_second": 6452.016
    },
    {
      "epoch": 2.864942701145977,
      "grad_norm": 0.7349382638931274,
      "learning_rate": 2.523554514838544e-07,
      "loss": 0.4649,
      "num_input_tokens_seen": 67040256,
      "step": 5970,
      "train_runtime": 10391.7883,
      "train_tokens_per_second": 6451.272
    },
    {
      "epoch": 2.8673426531469373,
      "grad_norm": 0.7584925293922424,
      "learning_rate": 2.435314491985974e-07,
      "loss": 0.5227,
      "num_input_tokens_seen": 67098776,
      "step": 5975,
      "train_runtime": 10401.6032,
      "train_tokens_per_second": 6450.811
    },
    {
      "epoch": 2.869742605147897,
      "grad_norm": 0.8414415717124939,
      "learning_rate": 2.3486372219151675e-07,
      "loss": 0.4989,
      "num_input_tokens_seen": 67151768,
      "step": 5980,
      "train_runtime": 10411.5952,
      "train_tokens_per_second": 6449.71
    },
    {
      "epoch": 2.872142557148857,
      "grad_norm": 0.6477630734443665,
      "learning_rate": 2.263523251776617e-07,
      "loss": 0.4962,
      "num_input_tokens_seen": 67210600,
      "step": 5985,
      "train_runtime": 10422.1011,
      "train_tokens_per_second": 6448.853
    },
    {
      "epoch": 2.874542509149817,
      "grad_norm": 1.1014198064804077,
      "learning_rate": 2.1799731188525407e-07,
      "loss": 0.5162,
      "num_input_tokens_seen": 67263744,
      "step": 5990,
      "train_runtime": 10431.8385,
      "train_tokens_per_second": 6447.928
    },
    {
      "epoch": 2.876942461150777,
      "grad_norm": 0.9391694664955139,
      "learning_rate": 2.0979873505533876e-07,
      "loss": 0.449,
      "num_input_tokens_seen": 67316560,
      "step": 5995,
      "train_runtime": 10441.9194,
      "train_tokens_per_second": 6446.761
    },
    {
      "epoch": 2.879342413151737,
      "grad_norm": 0.8007956147193909,
      "learning_rate": 2.0175664644145053e-07,
      "loss": 0.4849,
      "num_input_tokens_seen": 67373408,
      "step": 6000,
      "train_runtime": 10452.6728,
      "train_tokens_per_second": 6445.568
    },
    {
      "epoch": 2.881742365152697,
      "grad_norm": 0.7711721658706665,
      "learning_rate": 1.9387109680930327e-07,
      "loss": 0.4332,
      "num_input_tokens_seen": 67428800,
      "step": 6005,
      "train_runtime": 10463.242,
      "train_tokens_per_second": 6444.351
    },
    {
      "epoch": 2.884142317153657,
      "grad_norm": 0.8150792121887207,
      "learning_rate": 1.8614213593644846e-07,
      "loss": 0.4459,
      "num_input_tokens_seen": 67490440,
      "step": 6010,
      "train_runtime": 10473.7424,
      "train_tokens_per_second": 6443.775
    },
    {
      "epoch": 2.8865422691546168,
      "grad_norm": 0.7124377489089966,
      "learning_rate": 1.7856981261197002e-07,
      "loss": 0.4779,
      "num_input_tokens_seen": 67545608,
      "step": 6015,
      "train_runtime": 10483.2085,
      "train_tokens_per_second": 6443.219
    },
    {
      "epoch": 2.8889422211555766,
      "grad_norm": 0.8673171997070312,
      "learning_rate": 1.7115417463618722e-07,
      "loss": 0.4598,
      "num_input_tokens_seen": 67595400,
      "step": 6020,
      "train_runtime": 10492.2481,
      "train_tokens_per_second": 6442.413
    },
    {
      "epoch": 2.891342173156537,
      "grad_norm": 0.7837307453155518,
      "learning_rate": 1.638952688203327e-07,
      "loss": 0.4797,
      "num_input_tokens_seen": 67646720,
      "step": 6025,
      "train_runtime": 10501.2034,
      "train_tokens_per_second": 6441.806
    },
    {
      "epoch": 2.893742125157497,
      "grad_norm": 0.6940703392028809,
      "learning_rate": 1.567931409862694e-07,
      "loss": 0.4915,
      "num_input_tokens_seen": 67700752,
      "step": 6030,
      "train_runtime": 10511.0778,
      "train_tokens_per_second": 6440.895
    },
    {
      "epoch": 2.8961420771584567,
      "grad_norm": 0.8700549602508545,
      "learning_rate": 1.4984783596619922e-07,
      "loss": 0.4946,
      "num_input_tokens_seen": 67755144,
      "step": 6035,
      "train_runtime": 10520.7321,
      "train_tokens_per_second": 6440.155
    },
    {
      "epoch": 2.898542029159417,
      "grad_norm": 0.7011561989784241,
      "learning_rate": 1.430593976023825e-07,
      "loss": 0.4919,
      "num_input_tokens_seen": 67814680,
      "step": 6040,
      "train_runtime": 10531.5769,
      "train_tokens_per_second": 6439.176
    },
    {
      "epoch": 2.900941981160377,
      "grad_norm": 0.893417477607727,
      "learning_rate": 1.3642786874685233e-07,
      "loss": 0.5055,
      "num_input_tokens_seen": 67867648,
      "step": 6045,
      "train_runtime": 10541.6146,
      "train_tokens_per_second": 6438.07
    },
    {
      "epoch": 2.903341933161337,
      "grad_norm": 0.7926166653633118,
      "learning_rate": 1.299532912611534e-07,
      "loss": 0.459,
      "num_input_tokens_seen": 67922728,
      "step": 6050,
      "train_runtime": 10550.8628,
      "train_tokens_per_second": 6437.647
    },
    {
      "epoch": 2.9057418851622967,
      "grad_norm": 0.7883651852607727,
      "learning_rate": 1.2363570601608143e-07,
      "loss": 0.4636,
      "num_input_tokens_seen": 67975200,
      "step": 6055,
      "train_runtime": 10560.1447,
      "train_tokens_per_second": 6436.957
    },
    {
      "epoch": 2.9081418371632566,
      "grad_norm": 0.9356446266174316,
      "learning_rate": 1.1747515289140254e-07,
      "loss": 0.4612,
      "num_input_tokens_seen": 68029864,
      "step": 6060,
      "train_runtime": 10570.9284,
      "train_tokens_per_second": 6435.562
    },
    {
      "epoch": 2.910541789164217,
      "grad_norm": 1.2164058685302734,
      "learning_rate": 1.1147167077562859e-07,
      "loss": 0.5042,
      "num_input_tokens_seen": 68079824,
      "step": 6065,
      "train_runtime": 10580.6679,
      "train_tokens_per_second": 6434.36
    },
    {
      "epoch": 2.912941741165177,
      "grad_norm": 0.9457964301109314,
      "learning_rate": 1.0562529756576179e-07,
      "loss": 0.4287,
      "num_input_tokens_seen": 68136632,
      "step": 6070,
      "train_runtime": 10591.0019,
      "train_tokens_per_second": 6433.445
    },
    {
      "epoch": 2.9153416931661367,
      "grad_norm": 0.7782816290855408,
      "learning_rate": 9.993607016704209e-08,
      "loss": 0.4994,
      "num_input_tokens_seen": 68192816,
      "step": 6075,
      "train_runtime": 10601.2725,
      "train_tokens_per_second": 6432.512
    },
    {
      "epoch": 2.9177416451670966,
      "grad_norm": 0.7655016183853149,
      "learning_rate": 9.440402449274188e-08,
      "loss": 0.5164,
      "num_input_tokens_seen": 68244208,
      "step": 6080,
      "train_runtime": 10610.674,
      "train_tokens_per_second": 6431.656
    },
    {
      "epoch": 2.9201415971680564,
      "grad_norm": 0.8917096257209778,
      "learning_rate": 8.902919546390776e-08,
      "loss": 0.4609,
      "num_input_tokens_seen": 68300352,
      "step": 6085,
      "train_runtime": 10620.9066,
      "train_tokens_per_second": 6430.746
    },
    {
      "epoch": 2.9225415491690168,
      "grad_norm": 0.940250039100647,
      "learning_rate": 8.381161700916906e-08,
      "loss": 0.5296,
      "num_input_tokens_seen": 68350392,
      "step": 6090,
      "train_runtime": 10630.1557,
      "train_tokens_per_second": 6429.858
    },
    {
      "epoch": 2.9249415011699766,
      "grad_norm": 0.8829488158226013,
      "learning_rate": 7.87513220644992e-08,
      "loss": 0.5012,
      "num_input_tokens_seen": 68405152,
      "step": 6095,
      "train_runtime": 10639.9288,
      "train_tokens_per_second": 6429.099
    },
    {
      "epoch": 2.9273414531709365,
      "grad_norm": 0.9745586514472961,
      "learning_rate": 7.384834257302687e-08,
      "loss": 0.5022,
      "num_input_tokens_seen": 68461336,
      "step": 6100,
      "train_runtime": 10650.3632,
      "train_tokens_per_second": 6428.075
    },
    {
      "epoch": 2.9297414051718964,
      "grad_norm": 0.9082819819450378,
      "learning_rate": 6.910270948482789e-08,
      "loss": 0.477,
      "num_input_tokens_seen": 68512936,
      "step": 6105,
      "train_runtime": 10660.0699,
      "train_tokens_per_second": 6427.063
    },
    {
      "epoch": 2.9321413571728563,
      "grad_norm": 0.831038773059845,
      "learning_rate": 6.451445275671986e-08,
      "loss": 0.4894,
      "num_input_tokens_seen": 68569728,
      "step": 6110,
      "train_runtime": 10670.2152,
      "train_tokens_per_second": 6426.274
    },
    {
      "epoch": 2.9345413091738166,
      "grad_norm": 0.7757657170295715,
      "learning_rate": 6.008360135208724e-08,
      "loss": 0.4685,
      "num_input_tokens_seen": 68623976,
      "step": 6115,
      "train_runtime": 10680.1954,
      "train_tokens_per_second": 6425.348
    },
    {
      "epoch": 2.9369412611747765,
      "grad_norm": 0.8630353212356567,
      "learning_rate": 5.581018324069543e-08,
      "loss": 0.4904,
      "num_input_tokens_seen": 68679096,
      "step": 6120,
      "train_runtime": 10691.1399,
      "train_tokens_per_second": 6423.926
    },
    {
      "epoch": 2.9393412131757364,
      "grad_norm": 0.881776750087738,
      "learning_rate": 5.169422539850477e-08,
      "loss": 0.4671,
      "num_input_tokens_seen": 68734576,
      "step": 6125,
      "train_runtime": 10700.7437,
      "train_tokens_per_second": 6423.346
    },
    {
      "epoch": 2.9417411651766967,
      "grad_norm": 0.8964380025863647,
      "learning_rate": 4.773575380750961e-08,
      "loss": 0.469,
      "num_input_tokens_seen": 68793128,
      "step": 6130,
      "train_runtime": 10711.0036,
      "train_tokens_per_second": 6422.659
    },
    {
      "epoch": 2.9441411171776566,
      "grad_norm": 0.8133379220962524,
      "learning_rate": 4.393479345557727e-08,
      "loss": 0.5031,
      "num_input_tokens_seen": 68847592,
      "step": 6135,
      "train_runtime": 10721.1224,
      "train_tokens_per_second": 6421.678
    },
    {
      "epoch": 2.9465410691786165,
      "grad_norm": 0.6794693470001221,
      "learning_rate": 4.0291368336276e-08,
      "loss": 0.4709,
      "num_input_tokens_seen": 68905096,
      "step": 6140,
      "train_runtime": 10731.8838,
      "train_tokens_per_second": 6420.597
    },
    {
      "epoch": 2.9489410211795763,
      "grad_norm": 0.8234326839447021,
      "learning_rate": 3.6805501448744505e-08,
      "loss": 0.4638,
      "num_input_tokens_seen": 68960224,
      "step": 6145,
      "train_runtime": 10741.5942,
      "train_tokens_per_second": 6419.924
    },
    {
      "epoch": 2.9513409731805362,
      "grad_norm": 0.8420405387878418,
      "learning_rate": 3.347721479751986e-08,
      "loss": 0.5143,
      "num_input_tokens_seen": 69014200,
      "step": 6150,
      "train_runtime": 10751.3552,
      "train_tokens_per_second": 6419.116
    },
    {
      "epoch": 2.9537409251814966,
      "grad_norm": 0.876466691493988,
      "learning_rate": 3.0306529392426507e-08,
      "loss": 0.4258,
      "num_input_tokens_seen": 69071584,
      "step": 6155,
      "train_runtime": 10761.6029,
      "train_tokens_per_second": 6418.336
    },
    {
      "epoch": 2.9561408771824564,
      "grad_norm": 0.8103510737419128,
      "learning_rate": 2.72934652484208e-08,
      "loss": 0.4785,
      "num_input_tokens_seen": 69125824,
      "step": 6160,
      "train_runtime": 10771.3537,
      "train_tokens_per_second": 6417.561
    },
    {
      "epoch": 2.9585408291834163,
      "grad_norm": 0.9023430347442627,
      "learning_rate": 2.4438041385480003e-08,
      "loss": 0.5019,
      "num_input_tokens_seen": 69183992,
      "step": 6165,
      "train_runtime": 10782.2651,
      "train_tokens_per_second": 6416.462
    },
    {
      "epoch": 2.960940781184376,
      "grad_norm": 0.9007648825645447,
      "learning_rate": 2.174027582848015e-08,
      "loss": 0.4764,
      "num_input_tokens_seen": 69243264,
      "step": 6170,
      "train_runtime": 10792.8565,
      "train_tokens_per_second": 6415.657
    },
    {
      "epoch": 2.963340733185336,
      "grad_norm": 0.9024353623390198,
      "learning_rate": 1.92001856070656e-08,
      "loss": 0.499,
      "num_input_tokens_seen": 69299200,
      "step": 6175,
      "train_runtime": 10803.5555,
      "train_tokens_per_second": 6414.481
    },
    {
      "epoch": 2.9657406851862964,
      "grad_norm": 0.7554855942726135,
      "learning_rate": 1.6817786755568553e-08,
      "loss": 0.4397,
      "num_input_tokens_seen": 69352824,
      "step": 6180,
      "train_runtime": 10812.9366,
      "train_tokens_per_second": 6413.875
    },
    {
      "epoch": 2.9681406371872563,
      "grad_norm": 0.7788093686103821,
      "learning_rate": 1.4593094312889688e-08,
      "loss": 0.452,
      "num_input_tokens_seen": 69415024,
      "step": 6185,
      "train_runtime": 10823.0536,
      "train_tokens_per_second": 6413.627
    },
    {
      "epoch": 2.970540589188216,
      "grad_norm": 0.7968340516090393,
      "learning_rate": 1.2526122322401024e-08,
      "loss": 0.4915,
      "num_input_tokens_seen": 69471512,
      "step": 6190,
      "train_runtime": 10832.747,
      "train_tokens_per_second": 6413.102
    },
    {
      "epoch": 2.972940541189176,
      "grad_norm": 0.7601198554039001,
      "learning_rate": 1.0616883831873758e-08,
      "loss": 0.4443,
      "num_input_tokens_seen": 69527768,
      "step": 6195,
      "train_runtime": 10842.6627,
      "train_tokens_per_second": 6412.426
    },
    {
      "epoch": 2.975340493190136,
      "grad_norm": 0.8078719973564148,
      "learning_rate": 8.86539089338112e-09,
      "loss": 0.4387,
      "num_input_tokens_seen": 69583024,
      "step": 6200,
      "train_runtime": 10852.4744,
      "train_tokens_per_second": 6411.72
    },
    {
      "epoch": 2.9777404451910963,
      "grad_norm": 1.0166022777557373,
      "learning_rate": 7.271654563223429e-09,
      "loss": 0.4519,
      "num_input_tokens_seen": 69639080,
      "step": 6205,
      "train_runtime": 10863.2159,
      "train_tokens_per_second": 6410.54
    },
    {
      "epoch": 2.980140397192056,
      "grad_norm": 1.051282286643982,
      "learning_rate": 5.835684901869809e-09,
      "loss": 0.5355,
      "num_input_tokens_seen": 69695440,
      "step": 6210,
      "train_runtime": 10873.6609,
      "train_tokens_per_second": 6409.565
    },
    {
      "epoch": 2.982540349193016,
      "grad_norm": 0.9155645966529846,
      "learning_rate": 4.5574909738804735e-09,
      "loss": 0.4775,
      "num_input_tokens_seen": 69752488,
      "step": 6215,
      "train_runtime": 10884.1415,
      "train_tokens_per_second": 6408.635
    },
    {
      "epoch": 2.9849403011939764,
      "grad_norm": 0.8648121356964111,
      "learning_rate": 3.4370808478595417e-09,
      "loss": 0.4861,
      "num_input_tokens_seen": 69804712,
      "step": 6220,
      "train_runtime": 10894.0291,
      "train_tokens_per_second": 6407.612
    },
    {
      "epoch": 2.9873402531949362,
      "grad_norm": 0.9490159153938293,
      "learning_rate": 2.474461596396749e-09,
      "loss": 0.4641,
      "num_input_tokens_seen": 69863384,
      "step": 6225,
      "train_runtime": 10903.095,
      "train_tokens_per_second": 6407.665
    },
    {
      "epoch": 2.989740205195896,
      "grad_norm": 0.823014497756958,
      "learning_rate": 1.6696392960341423e-09,
      "loss": 0.4785,
      "num_input_tokens_seen": 69920712,
      "step": 6230,
      "train_runtime": 10911.9258,
      "train_tokens_per_second": 6407.733
    },
    {
      "epoch": 2.992140157196856,
      "grad_norm": 0.9870671629905701,
      "learning_rate": 1.022619027207794e-09,
      "loss": 0.4529,
      "num_input_tokens_seen": 69978976,
      "step": 6235,
      "train_runtime": 10920.4005,
      "train_tokens_per_second": 6408.096
    },
    {
      "epoch": 2.994540109197816,
      "grad_norm": 0.8132453560829163,
      "learning_rate": 5.334048742394737e-10,
      "loss": 0.4621,
      "num_input_tokens_seen": 70037816,
      "step": 6240,
      "train_runtime": 10929.3119,
      "train_tokens_per_second": 6408.255
    },
    {
      "epoch": 2.996940061198776,
      "grad_norm": 0.9090087413787842,
      "learning_rate": 2.0199992529501554e-10,
      "loss": 0.4757,
      "num_input_tokens_seen": 70098000,
      "step": 6245,
      "train_runtime": 10938.0514,
      "train_tokens_per_second": 6408.637
    },
    {
      "epoch": 2.999340013199736,
      "grad_norm": 0.8769118189811707,
      "learning_rate": 2.8406272370440357e-11,
      "loss": 0.463,
      "num_input_tokens_seen": 70153968,
      "step": 6250,
      "train_runtime": 10946.6798,
      "train_tokens_per_second": 6408.698
    },
    {
      "epoch": 3.0,
      "num_input_tokens_seen": 70167528,
      "step": 6252,
      "total_flos": 3.161046812140241e+18,
      "train_loss": 0.5038315440246255,
      "train_runtime": 10949.1572,
      "train_samples_per_second": 27.399,
      "train_steps_per_second": 0.571
    }
  ],
  "logging_steps": 5,
  "max_steps": 6252,
  "num_input_tokens_seen": 70167528,
  "num_train_epochs": 3,
  "save_steps": 1500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.161046812140241e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}