{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 180,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 4.307253357056896,
      "learning_rate": 0.0,
      "loss": 1.3486,
      "num_tokens": 386694.0,
      "step": 1
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 4.360320258925879,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 1.355,
      "num_tokens": 763332.0,
      "step": 2
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.345332014222828,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 1.3444,
      "num_tokens": 1139716.0,
      "step": 3
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 3.628391365691474,
      "learning_rate": 5e-06,
      "loss": 1.2589,
      "num_tokens": 1538652.0,
      "step": 4
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 2.803675884185387,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.1789,
      "num_tokens": 1906687.0,
      "step": 5
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6755164899194928,
      "learning_rate": 8.333333333333334e-06,
      "loss": 0.9559,
      "num_tokens": 2291916.0,
      "step": 6
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 1.6023439747170054,
      "learning_rate": 1e-05,
      "loss": 0.9039,
      "num_tokens": 2681760.0,
      "step": 7
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 2.621524079150046,
      "learning_rate": 9.999266547540887e-06,
      "loss": 0.7046,
      "num_tokens": 3083275.0,
      "step": 8
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.8310985368282848,
      "learning_rate": 9.997066429253546e-06,
      "loss": 0.67,
      "num_tokens": 3492333.0,
      "step": 9
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 1.588733471297654,
      "learning_rate": 9.993400362330058e-06,
      "loss": 0.5748,
      "num_tokens": 3874036.0,
      "step": 10
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 0.8180449520265045,
      "learning_rate": 9.988269541830775e-06,
      "loss": 0.4871,
      "num_tokens": 4288115.0,
      "step": 11
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.752923941500878,
      "learning_rate": 9.98167564029477e-06,
      "loss": 0.4292,
      "num_tokens": 4688262.0,
      "step": 12
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 0.372241919164793,
      "learning_rate": 9.97362080719462e-06,
      "loss": 0.4056,
      "num_tokens": 5091722.0,
      "step": 13
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 0.33142327142903066,
      "learning_rate": 9.96410766823572e-06,
      "loss": 0.3793,
      "num_tokens": 5471288.0,
      "step": 14
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.333034056817446,
      "learning_rate": 9.95313932450037e-06,
      "loss": 0.3692,
      "num_tokens": 5889666.0,
      "step": 15
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.27138429604415093,
      "learning_rate": 9.94071935143687e-06,
      "loss": 0.3756,
      "num_tokens": 6300311.0,
      "step": 16
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 0.25396556914093327,
      "learning_rate": 9.926851797694012e-06,
      "loss": 0.3632,
      "num_tokens": 6715155.0,
      "step": 17
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.2500253644023207,
      "learning_rate": 9.911541183801312e-06,
      "loss": 0.3374,
      "num_tokens": 7135255.0,
      "step": 18
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 0.25089233453514137,
      "learning_rate": 9.89479250069539e-06,
      "loss": 0.321,
      "num_tokens": 7508317.0,
      "step": 19
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.2482917013855084,
      "learning_rate": 9.876611208093055e-06,
      "loss": 0.3146,
      "num_tokens": 7875185.0,
      "step": 20
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.2170036674475473,
      "learning_rate": 9.857003232711535e-06,
      "loss": 0.3257,
      "num_tokens": 8278743.0,
      "step": 21
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 0.21290870255144237,
      "learning_rate": 9.835974966336504e-06,
      "loss": 0.3043,
      "num_tokens": 8653905.0,
      "step": 22
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 0.20612281123293255,
      "learning_rate": 9.813533263738486e-06,
      "loss": 0.3085,
      "num_tokens": 9043909.0,
      "step": 23
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.21450894869657447,
      "learning_rate": 9.789685440438353e-06,
      "loss": 0.3072,
      "num_tokens": 9435837.0,
      "step": 24
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.20171788675549032,
      "learning_rate": 9.764439270322612e-06,
      "loss": 0.3075,
      "num_tokens": 9830459.0,
      "step": 25
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 0.19965322014196185,
      "learning_rate": 9.737802983109287e-06,
      "loss": 0.307,
      "num_tokens": 10213657.0,
      "step": 26
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.1851962358951018,
      "learning_rate": 9.709785261665205e-06,
      "loss": 0.3011,
      "num_tokens": 10635429.0,
      "step": 27
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 0.18835954292626045,
      "learning_rate": 9.680395239175563e-06,
      "loss": 0.2958,
      "num_tokens": 11041197.0,
      "step": 28
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 0.1810203496485964,
      "learning_rate": 9.6496424961667e-06,
      "loss": 0.289,
      "num_tokens": 11456416.0,
      "step": 29
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.18244709386338018,
      "learning_rate": 9.617537057383055e-06,
      "loss": 0.2676,
      "num_tokens": 11819187.0,
      "step": 30
    },
    {
      "epoch": 0.5166666666666667,
      "grad_norm": 0.17564449531170986,
      "learning_rate": 9.584089388519307e-06,
      "loss": 0.2939,
      "num_tokens": 12245580.0,
      "step": 31
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.17602330940765054,
      "learning_rate": 9.549310392808782e-06,
      "loss": 0.2908,
      "num_tokens": 12656812.0,
      "step": 32
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.17341734231138603,
      "learning_rate": 9.51321140746922e-06,
      "loss": 0.2693,
      "num_tokens": 13051662.0,
      "step": 33
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 0.17642947100637568,
      "learning_rate": 9.475804200007104e-06,
      "loss": 0.2844,
      "num_tokens": 13460138.0,
      "step": 34
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 0.18195529537136276,
      "learning_rate": 9.437100964381674e-06,
      "loss": 0.2562,
      "num_tokens": 13839611.0,
      "step": 35
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.17156360193212303,
      "learning_rate": 9.397114317029975e-06,
      "loss": 0.2791,
      "num_tokens": 14235849.0,
      "step": 36
    },
    {
      "epoch": 0.6166666666666667,
      "grad_norm": 0.16517378951073838,
      "learning_rate": 9.355857292754152e-06,
      "loss": 0.2574,
      "num_tokens": 14628658.0,
      "step": 37
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 0.16623649868248883,
      "learning_rate": 9.31334334047239e-06,
      "loss": 0.258,
      "num_tokens": 15022722.0,
      "step": 38
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.16536066104473388,
      "learning_rate": 9.269586318834841e-06,
      "loss": 0.2621,
      "num_tokens": 15412919.0,
      "step": 39
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.16136165971570182,
      "learning_rate": 9.224600491706009e-06,
      "loss": 0.2578,
      "num_tokens": 15808067.0,
      "step": 40
    },
    {
      "epoch": 0.6833333333333333,
      "grad_norm": 0.16817050304190198,
      "learning_rate": 9.178400523515013e-06,
      "loss": 0.2551,
      "num_tokens": 16216305.0,
      "step": 41
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.16231582842289252,
      "learning_rate": 9.131001474475318e-06,
      "loss": 0.2522,
      "num_tokens": 16614956.0,
      "step": 42
    },
    {
      "epoch": 0.7166666666666667,
      "grad_norm": 0.16568222727770732,
      "learning_rate": 9.082418795675397e-06,
      "loss": 0.2712,
      "num_tokens": 17017704.0,
      "step": 43
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 0.1655911348621601,
      "learning_rate": 9.032668324042027e-06,
      "loss": 0.251,
      "num_tokens": 17417441.0,
      "step": 44
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.1709011568135344,
      "learning_rate": 8.981766277177764e-06,
      "loss": 0.2613,
      "num_tokens": 17836960.0,
      "step": 45
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 0.15724793095686002,
      "learning_rate": 8.929729248074364e-06,
      "loss": 0.2515,
      "num_tokens": 18229148.0,
      "step": 46
    },
    {
      "epoch": 0.7833333333333333,
      "grad_norm": 0.1566336577784553,
      "learning_rate": 8.87657419970381e-06,
      "loss": 0.2386,
      "num_tokens": 18629493.0,
      "step": 47
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.156545141537549,
      "learning_rate": 8.822318459488744e-06,
      "loss": 0.2417,
      "num_tokens": 19016532.0,
      "step": 48
    },
    {
      "epoch": 0.8166666666666667,
      "grad_norm": 0.1682876261976619,
      "learning_rate": 8.76697971365409e-06,
      "loss": 0.25,
      "num_tokens": 19420153.0,
      "step": 49
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.15625972879253544,
      "learning_rate": 8.71057600146172e-06,
      "loss": 0.2477,
      "num_tokens": 19799943.0,
      "step": 50
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.15865902000624793,
      "learning_rate": 8.65312570933004e-06,
      "loss": 0.2535,
      "num_tokens": 20211312.0,
      "step": 51
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 0.16243250536538423,
      "learning_rate": 8.594647564840407e-06,
      "loss": 0.2408,
      "num_tokens": 20601752.0,
      "step": 52
    },
    {
      "epoch": 0.8833333333333333,
      "grad_norm": 0.16344681631488067,
      "learning_rate": 8.535160630632312e-06,
      "loss": 0.2571,
      "num_tokens": 21018915.0,
      "step": 53
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.15878464256544747,
      "learning_rate": 8.474684298189402e-06,
      "loss": 0.2391,
      "num_tokens": 21431176.0,
      "step": 54
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 0.16166754521090773,
      "learning_rate": 8.413238281518225e-06,
      "loss": 0.2349,
      "num_tokens": 21813557.0,
      "step": 55
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.1580424426734478,
      "learning_rate": 8.350842610721908e-06,
      "loss": 0.2374,
      "num_tokens": 22194786.0,
      "step": 56
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.16231313908249073,
      "learning_rate": 8.287517625470754e-06,
      "loss": 0.2255,
      "num_tokens": 22567671.0,
      "step": 57
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 0.1557048649324866,
      "learning_rate": 8.223283968371945e-06,
      "loss": 0.2285,
      "num_tokens": 22950599.0,
      "step": 58
    },
    {
      "epoch": 0.9833333333333333,
      "grad_norm": 0.1575134308288616,
      "learning_rate": 8.158162578240479e-06,
      "loss": 0.2322,
      "num_tokens": 23343994.0,
      "step": 59
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.1589382777080593,
      "learning_rate": 8.09217468327358e-06,
      "loss": 0.2304,
      "num_tokens": 23741790.0,
      "step": 60
    },
    {
      "epoch": 1.0166666666666666,
      "grad_norm": 0.17102027510972934,
      "learning_rate": 8.025341794130722e-06,
      "loss": 0.2214,
      "num_tokens": 24119088.0,
      "step": 61
    },
    {
      "epoch": 1.0333333333333334,
      "grad_norm": 0.15752410988362262,
      "learning_rate": 7.957685696921637e-06,
      "loss": 0.2346,
      "num_tokens": 24525980.0,
      "step": 62
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.16659406480726785,
      "learning_rate": 7.889228446104492e-06,
      "loss": 0.2215,
      "num_tokens": 24923505.0,
      "step": 63
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.17116959316903918,
      "learning_rate": 7.8199923572966e-06,
      "loss": 0.2417,
      "num_tokens": 25357629.0,
      "step": 64
    },
    {
      "epoch": 1.0833333333333333,
      "grad_norm": 0.16260107516719483,
      "learning_rate": 7.75e-06,
      "loss": 0.2188,
      "num_tokens": 25764560.0,
      "step": 65
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.16804687462761858,
      "learning_rate": 7.679274190244288e-06,
      "loss": 0.2275,
      "num_tokens": 26191304.0,
      "step": 66
    },
    {
      "epoch": 1.1166666666666667,
      "grad_norm": 0.16375887203042463,
      "learning_rate": 7.607837983149057e-06,
      "loss": 0.2138,
      "num_tokens": 26571577.0,
      "step": 67
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 0.16023540725876087,
      "learning_rate": 7.535714665408422e-06,
      "loss": 0.2189,
      "num_tokens": 26977355.0,
      "step": 68
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.16856459027615175,
      "learning_rate": 7.462927747700054e-06,
      "loss": 0.2238,
      "num_tokens": 27386485.0,
      "step": 69
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 0.15852201765248605,
      "learning_rate": 7.389500957021192e-06,
      "loss": 0.2232,
      "num_tokens": 27796862.0,
      "step": 70
    },
    {
      "epoch": 1.1833333333333333,
      "grad_norm": 0.1562037699869291,
      "learning_rate": 7.31545822895414e-06,
      "loss": 0.2062,
      "num_tokens": 28173474.0,
      "step": 71
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.16665718486974085,
      "learning_rate": 7.240823699863777e-06,
      "loss": 0.2063,
      "num_tokens": 28525368.0,
      "step": 72
    },
    {
      "epoch": 1.2166666666666668,
      "grad_norm": 0.1583738566323773,
      "learning_rate": 7.165621699029615e-06,
      "loss": 0.2169,
      "num_tokens": 28932221.0,
      "step": 73
    },
    {
      "epoch": 1.2333333333333334,
      "grad_norm": 0.15796778000095918,
      "learning_rate": 7.0898767407149614e-06,
      "loss": 0.2044,
      "num_tokens": 29318980.0,
      "step": 74
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.1536497599528125,
      "learning_rate": 7.013613516175788e-06,
      "loss": 0.1993,
      "num_tokens": 29692583.0,
      "step": 75
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 0.1546218055415269,
      "learning_rate": 6.93685688561191e-06,
      "loss": 0.2051,
      "num_tokens": 30070786.0,
      "step": 76
    },
    {
      "epoch": 1.2833333333333332,
      "grad_norm": 0.14705152616718795,
      "learning_rate": 6.859631870063077e-06,
      "loss": 0.2164,
      "num_tokens": 30493521.0,
      "step": 77
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.16343647621353785,
      "learning_rate": 6.781963643252651e-06,
      "loss": 0.2057,
      "num_tokens": 30867731.0,
      "step": 78
    },
    {
      "epoch": 1.3166666666666667,
      "grad_norm": 0.16180013718977998,
      "learning_rate": 6.703877523381495e-06,
      "loss": 0.2151,
      "num_tokens": 31278707.0,
      "step": 79
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.1554345859591716,
      "learning_rate": 6.6253989648747845e-06,
      "loss": 0.2204,
      "num_tokens": 31686041.0,
      "step": 80
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.158796010961646,
      "learning_rate": 6.546553550084398e-06,
      "loss": 0.2124,
      "num_tokens": 32077613.0,
      "step": 81
    },
    {
      "epoch": 1.3666666666666667,
      "grad_norm": 0.15701623463042624,
      "learning_rate": 6.46736698094961e-06,
      "loss": 0.1948,
      "num_tokens": 32436972.0,
      "step": 82
    },
    {
      "epoch": 1.3833333333333333,
      "grad_norm": 0.17232253970403388,
      "learning_rate": 6.387865070618801e-06,
      "loss": 0.2102,
      "num_tokens": 32820896.0,
      "step": 83
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.15205370063709056,
      "learning_rate": 6.308073735034923e-06,
      "loss": 0.2145,
      "num_tokens": 33232148.0,
      "step": 84
    },
    {
      "epoch": 1.4166666666666667,
      "grad_norm": 0.16615604361419675,
      "learning_rate": 6.228018984487443e-06,
      "loss": 0.2097,
      "num_tokens": 33617847.0,
      "step": 85
    },
    {
      "epoch": 1.4333333333333333,
      "grad_norm": 0.15608157931237884,
      "learning_rate": 6.147726915133536e-06,
      "loss": 0.2079,
      "num_tokens": 34013743.0,
      "step": 86
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.1533815994944839,
      "learning_rate": 6.067223700491303e-06,
      "loss": 0.2234,
      "num_tokens": 34426281.0,
      "step": 87
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 0.16341622285747343,
      "learning_rate": 5.986535582907739e-06,
      "loss": 0.2082,
      "num_tokens": 34820833.0,
      "step": 88
    },
    {
      "epoch": 1.4833333333333334,
      "grad_norm": 0.1501827141164398,
      "learning_rate": 5.905688865004295e-06,
      "loss": 0.2047,
      "num_tokens": 35204582.0,
      "step": 89
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.17073241665358838,
      "learning_rate": 5.8247099011027745e-06,
      "loss": 0.1981,
      "num_tokens": 35593390.0,
      "step": 90
    },
    {
      "epoch": 1.5166666666666666,
      "grad_norm": 0.155687295095261,
      "learning_rate": 5.74362508863438e-06,
      "loss": 0.2198,
      "num_tokens": 36016331.0,
      "step": 91
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 0.16109998374651785,
      "learning_rate": 5.662460859534714e-06,
      "loss": 0.2023,
      "num_tokens": 36413156.0,
      "step": 92
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.16131117005573636,
      "learning_rate": 5.581243671627522e-06,
      "loss": 0.2171,
      "num_tokens": 36798646.0,
      "step": 93
    },
    {
      "epoch": 1.5666666666666667,
      "grad_norm": 0.15364974978248802,
      "learning_rate": 5.500000000000001e-06,
      "loss": 0.2015,
      "num_tokens": 37163989.0,
      "step": 94
    },
    {
      "epoch": 1.5833333333333335,
      "grad_norm": 0.15965272681106013,
      "learning_rate": 5.418756328372477e-06,
      "loss": 0.203,
      "num_tokens": 37561194.0,
      "step": 95
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.16238266195932857,
      "learning_rate": 5.337539140465287e-06,
      "loss": 0.2065,
      "num_tokens": 37949527.0,
      "step": 96
    },
    {
      "epoch": 1.6166666666666667,
      "grad_norm": 0.15421187662404837,
      "learning_rate": 5.256374911365621e-06,
      "loss": 0.2006,
      "num_tokens": 38339423.0,
      "step": 97
    },
    {
      "epoch": 1.6333333333333333,
      "grad_norm": 0.1425557076209861,
      "learning_rate": 5.175290098897229e-06,
      "loss": 0.2201,
      "num_tokens": 38766377.0,
      "step": 98
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.16173575303325918,
      "learning_rate": 5.094311134995707e-06,
      "loss": 0.2063,
      "num_tokens": 39147856.0,
      "step": 99
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.15671341837921993,
      "learning_rate": 5.013464417092263e-06,
      "loss": 0.2123,
      "num_tokens": 39566905.0,
      "step": 100
    },
    {
      "epoch": 1.6833333333333333,
      "grad_norm": 0.1466722022344314,
      "learning_rate": 4.932776299508699e-06,
      "loss": 0.2131,
      "num_tokens": 39958103.0,
      "step": 101
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.15459226194943745,
      "learning_rate": 4.852273084866464e-06,
      "loss": 0.2056,
      "num_tokens": 40340633.0,
      "step": 102
    },
    {
      "epoch": 1.7166666666666668,
      "grad_norm": 0.15024633207597848,
      "learning_rate": 4.771981015512559e-06,
      "loss": 0.2032,
      "num_tokens": 40751526.0,
      "step": 103
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 0.15035138034173598,
      "learning_rate": 4.6919262649650775e-06,
      "loss": 0.2089,
      "num_tokens": 41164499.0,
      "step": 104
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.15651786731510953,
      "learning_rate": 4.6121349293812015e-06,
      "loss": 0.1995,
      "num_tokens": 41570804.0,
      "step": 105
    },
    {
      "epoch": 1.7666666666666666,
      "grad_norm": 0.15052460060489134,
      "learning_rate": 4.532633019050392e-06,
      "loss": 0.2014,
      "num_tokens": 41958143.0,
      "step": 106
    },
    {
      "epoch": 1.7833333333333332,
      "grad_norm": 0.15701741784933038,
      "learning_rate": 4.453446449915605e-06,
      "loss": 0.1956,
      "num_tokens": 42328835.0,
      "step": 107
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.14940995875441748,
      "learning_rate": 4.374601035125218e-06,
      "loss": 0.2013,
      "num_tokens": 42695932.0,
      "step": 108
    },
    {
      "epoch": 1.8166666666666667,
      "grad_norm": 0.14921621072385988,
      "learning_rate": 4.296122476618507e-06,
      "loss": 0.2106,
      "num_tokens": 43099402.0,
      "step": 109
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 0.15120472210694338,
      "learning_rate": 4.21803635674735e-06,
      "loss": 0.2046,
      "num_tokens": 43497618.0,
      "step": 110
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.1537232334909544,
      "learning_rate": 4.140368129936923e-06,
      "loss": 0.2125,
      "num_tokens": 43910914.0,
      "step": 111
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 0.14899934511970375,
      "learning_rate": 4.0631431143880915e-06,
      "loss": 0.2161,
      "num_tokens": 44306362.0,
      "step": 112
    },
    {
      "epoch": 1.8833333333333333,
      "grad_norm": 0.14352426818162795,
      "learning_rate": 3.986386483824212e-06,
      "loss": 0.1881,
      "num_tokens": 44690072.0,
      "step": 113
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.14966797180869215,
      "learning_rate": 3.91012325928504e-06,
      "loss": 0.2139,
      "num_tokens": 45097796.0,
      "step": 114
    },
    {
      "epoch": 1.9166666666666665,
      "grad_norm": 0.15059855985104126,
      "learning_rate": 3.834378300970385e-06,
      "loss": 0.2104,
      "num_tokens": 45507999.0,
      "step": 115
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 0.145399379241378,
      "learning_rate": 3.759176300136225e-06,
      "loss": 0.206,
      "num_tokens": 45893001.0,
      "step": 116
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.15686955708392808,
      "learning_rate": 3.684541771045862e-06,
      "loss": 0.1925,
      "num_tokens": 46266011.0,
      "step": 117
    },
    {
      "epoch": 1.9666666666666668,
      "grad_norm": 0.15173053989396762,
      "learning_rate": 3.6104990429788102e-06,
      "loss": 0.2025,
      "num_tokens": 46654457.0,
      "step": 118
    },
    {
      "epoch": 1.9833333333333334,
      "grad_norm": 0.1437181537184728,
      "learning_rate": 3.5370722522999468e-06,
      "loss": 0.2052,
      "num_tokens": 47068222.0,
      "step": 119
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.15409940511826736,
      "learning_rate": 3.4642853345915796e-06,
      "loss": 0.2105,
      "num_tokens": 47486208.0,
      "step": 120
    },
    {
      "epoch": 2.0166666666666666,
      "grad_norm": 0.15402414642751905,
      "learning_rate": 3.392162016850945e-06,
      "loss": 0.1735,
      "num_tokens": 47861567.0,
      "step": 121
    },
    {
      "epoch": 2.033333333333333,
      "grad_norm": 0.15373305435044163,
      "learning_rate": 3.3207258097557136e-06,
      "loss": 0.196,
      "num_tokens": 48258885.0,
      "step": 122
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.14676915170123003,
      "learning_rate": 3.2500000000000015e-06,
      "loss": 0.1907,
      "num_tokens": 48642658.0,
      "step": 123
    },
    {
      "epoch": 2.066666666666667,
      "grad_norm": 0.1440659388733191,
      "learning_rate": 3.180007642703402e-06,
      "loss": 0.187,
      "num_tokens": 49052624.0,
      "step": 124
    },
    {
      "epoch": 2.0833333333333335,
      "grad_norm": 0.14784811155267652,
      "learning_rate": 3.1107715538955107e-06,
      "loss": 0.1811,
      "num_tokens": 49459791.0,
      "step": 125
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.1539105789783882,
      "learning_rate": 3.042314303078364e-06,
      "loss": 0.1765,
      "num_tokens": 49827854.0,
      "step": 126
    },
    {
      "epoch": 2.1166666666666667,
      "grad_norm": 0.1552411260071569,
      "learning_rate": 2.9746582058692803e-06,
      "loss": 0.2016,
      "num_tokens": 50245908.0,
      "step": 127
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 0.15614255642839991,
      "learning_rate": 2.9078253167264225e-06,
      "loss": 0.1899,
      "num_tokens": 50630892.0,
      "step": 128
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.14811369323743206,
      "learning_rate": 2.841837421759521e-06,
      "loss": 0.1914,
      "num_tokens": 51034329.0,
      "step": 129
    },
    {
      "epoch": 2.1666666666666665,
      "grad_norm": 0.1975445469271066,
      "learning_rate": 2.7767160316280583e-06,
      "loss": 0.1808,
      "num_tokens": 51424755.0,
      "step": 130
    },
    {
      "epoch": 2.183333333333333,
      "grad_norm": 0.1451760497316787,
      "learning_rate": 2.712482374529247e-06,
      "loss": 0.2008,
      "num_tokens": 51824755.0,
      "step": 131
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.14733003430195793,
      "learning_rate": 2.6491573892780944e-06,
      "loss": 0.1949,
      "num_tokens": 52216263.0,
      "step": 132
    },
    {
      "epoch": 2.216666666666667,
      "grad_norm": 0.14534251232717119,
      "learning_rate": 2.586761718481776e-06,
      "loss": 0.1834,
      "num_tokens": 52598901.0,
      "step": 133
    },
    {
      "epoch": 2.2333333333333334,
      "grad_norm": 0.1496275777226439,
      "learning_rate": 2.5253157018105994e-06,
      "loss": 0.1905,
      "num_tokens": 52970634.0,
      "step": 134
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.14905373345924058,
      "learning_rate": 2.464839369367688e-06,
      "loss": 0.1911,
      "num_tokens": 53361046.0,
      "step": 135
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 0.15115547136539223,
      "learning_rate": 2.405352435159595e-06,
      "loss": 0.1998,
      "num_tokens": 53778131.0,
      "step": 136
    },
    {
      "epoch": 2.283333333333333,
      "grad_norm": 0.14476235639341437,
      "learning_rate": 2.34687429066996e-06,
      "loss": 0.1817,
      "num_tokens": 54168768.0,
      "step": 137
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.14725798416601737,
      "learning_rate": 2.28942399853828e-06,
      "loss": 0.1782,
      "num_tokens": 54548763.0,
      "step": 138
    },
    {
      "epoch": 2.3166666666666664,
      "grad_norm": 0.14942987448940256,
      "learning_rate": 2.2330202863459123e-06,
      "loss": 0.1936,
      "num_tokens": 54983583.0,
      "step": 139
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.15129686936588405,
      "learning_rate": 2.1776815405112567e-06,
      "loss": 0.1894,
      "num_tokens": 55390401.0,
      "step": 140
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.1451441459771395,
      "learning_rate": 2.12342580029619e-06,
      "loss": 0.1876,
      "num_tokens": 55790352.0,
      "step": 141
    },
    {
      "epoch": 2.3666666666666667,
      "grad_norm": 0.1504932193926155,
      "learning_rate": 2.0702707519256365e-06,
      "loss": 0.1927,
      "num_tokens": 56198140.0,
      "step": 142
    },
    {
      "epoch": 2.3833333333333333,
      "grad_norm": 0.1425074357758425,
      "learning_rate": 2.0182337228222366e-06,
      "loss": 0.1901,
      "num_tokens": 56586902.0,
      "step": 143
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.1523349986800055,
      "learning_rate": 1.9673316759579752e-06,
      "loss": 0.1901,
      "num_tokens": 56980540.0,
      "step": 144
    },
    {
      "epoch": 2.4166666666666665,
      "grad_norm": 0.148279722484878,
      "learning_rate": 1.9175812043246034e-06,
      "loss": 0.1937,
      "num_tokens": 57379690.0,
      "step": 145
    },
    {
      "epoch": 2.4333333333333336,
      "grad_norm": 0.14683043295079268,
      "learning_rate": 1.8689985255246834e-06,
      "loss": 0.1801,
      "num_tokens": 57759503.0,
      "step": 146
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.14410047957451386,
      "learning_rate": 1.821599476484987e-06,
      "loss": 0.1759,
      "num_tokens": 58137010.0,
      "step": 147
    },
    {
      "epoch": 2.466666666666667,
      "grad_norm": 0.14626131914056648,
      "learning_rate": 1.7753995082939932e-06,
      "loss": 0.1996,
      "num_tokens": 58540304.0,
      "step": 148
    },
    {
      "epoch": 2.4833333333333334,
      "grad_norm": 0.14663671779264556,
      "learning_rate": 1.7304136811651595e-06,
      "loss": 0.183,
      "num_tokens": 58940195.0,
      "step": 149
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.14829884847473565,
      "learning_rate": 1.6866566595276108e-06,
      "loss": 0.1909,
      "num_tokens": 59334134.0,
      "step": 150
    },
    {
      "epoch": 2.5166666666666666,
      "grad_norm": 0.14666192308168516,
      "learning_rate": 1.6441427072458493e-06,
      "loss": 0.184,
      "num_tokens": 59715949.0,
      "step": 151
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 0.1481572245355778,
      "learning_rate": 1.602885682970026e-06,
      "loss": 0.1855,
      "num_tokens": 60116409.0,
      "step": 152
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.14392865327162538,
      "learning_rate": 1.5628990356183267e-06,
      "loss": 0.1866,
      "num_tokens": 60525002.0,
      "step": 153
    },
    {
      "epoch": 2.5666666666666664,
      "grad_norm": 0.1461373431520025,
      "learning_rate": 1.5241957999928974e-06,
      "loss": 0.1878,
      "num_tokens": 60932270.0,
      "step": 154
    },
    {
      "epoch": 2.5833333333333335,
      "grad_norm": 0.14672445166075807,
      "learning_rate": 1.48678859253078e-06,
      "loss": 0.1958,
      "num_tokens": 61334649.0,
      "step": 155
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.1520933383157152,
      "learning_rate": 1.4506896071912207e-06,
      "loss": 0.189,
      "num_tokens": 61734959.0,
      "step": 156
    },
    {
      "epoch": 2.6166666666666667,
      "grad_norm": 0.1428209521559839,
      "learning_rate": 1.4159106114806943e-06,
      "loss": 0.184,
      "num_tokens": 62136249.0,
      "step": 157
    },
    {
      "epoch": 2.6333333333333333,
      "grad_norm": 0.14550810004810277,
      "learning_rate": 1.3824629426169453e-06,
      "loss": 0.1955,
      "num_tokens": 62547232.0,
      "step": 158
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.1471795467648584,
      "learning_rate": 1.3503575038333012e-06,
      "loss": 0.1865,
      "num_tokens": 62925792.0,
      "step": 159
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.14338365279795576,
      "learning_rate": 1.319604760824439e-06,
      "loss": 0.1934,
      "num_tokens": 63307635.0,
      "step": 160
    },
    {
      "epoch": 2.6833333333333336,
      "grad_norm": 0.14628389297503275,
      "learning_rate": 1.290214738334796e-06,
      "loss": 0.1845,
      "num_tokens": 63682238.0,
      "step": 161
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.14038687556129809,
      "learning_rate": 1.2621970168907142e-06,
      "loss": 0.1817,
      "num_tokens": 64080742.0,
      "step": 162
    },
    {
      "epoch": 2.716666666666667,
      "grad_norm": 0.1488881989185735,
      "learning_rate": 1.2355607296773896e-06,
      "loss": 0.1873,
      "num_tokens": 64470953.0,
      "step": 163
    },
    {
      "epoch": 2.7333333333333334,
      "grad_norm": 0.14877894347532283,
      "learning_rate": 1.2103145595616483e-06,
      "loss": 0.1775,
      "num_tokens": 64841108.0,
      "step": 164
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.14123105169145264,
      "learning_rate": 1.1864667362615143e-06,
      "loss": 0.1873,
      "num_tokens": 65231331.0,
      "step": 165
    },
    {
      "epoch": 2.7666666666666666,
      "grad_norm": 0.1450707618403656,
      "learning_rate": 1.164025033663497e-06,
      "loss": 0.1955,
      "num_tokens": 65618779.0,
      "step": 166
    },
    {
      "epoch": 2.783333333333333,
      "grad_norm": 0.14187799392326958,
      "learning_rate": 1.1429967672884653e-06,
      "loss": 0.1739,
      "num_tokens": 65984834.0,
      "step": 167
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.14056724875916252,
      "learning_rate": 1.1233887919069461e-06,
      "loss": 0.1933,
      "num_tokens": 66393854.0,
      "step": 168
    },
    {
      "epoch": 2.8166666666666664,
      "grad_norm": 0.14962757784279573,
      "learning_rate": 1.1052074993046102e-06,
      "loss": 0.1921,
      "num_tokens": 66790920.0,
      "step": 169
    },
    {
      "epoch": 2.8333333333333335,
      "grad_norm": 0.14231360939136606,
      "learning_rate": 1.0884588161986893e-06,
      "loss": 0.1977,
      "num_tokens": 67209770.0,
      "step": 170
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.14850621871295716,
      "learning_rate": 1.073148202305988e-06,
      "loss": 0.1843,
      "num_tokens": 67598233.0,
      "step": 171
    },
    {
      "epoch": 2.8666666666666667,
      "grad_norm": 0.14009685911878283,
      "learning_rate": 1.0592806485631326e-06,
      "loss": 0.1844,
      "num_tokens": 68012178.0,
      "step": 172
    },
    {
      "epoch": 2.8833333333333333,
      "grad_norm": 0.14434460171184124,
      "learning_rate": 1.0468606754996326e-06,
      "loss": 0.1938,
      "num_tokens": 68425764.0,
      "step": 173
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.15620525484508824,
      "learning_rate": 1.0358923317642807e-06,
      "loss": 0.1945,
      "num_tokens": 68839975.0,
      "step": 174
    },
    {
      "epoch": 2.9166666666666665,
      "grad_norm": 0.14119966117512753,
      "learning_rate": 1.026379192805382e-06,
      "loss": 0.1936,
      "num_tokens": 69246450.0,
      "step": 175
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 0.14254063884129384,
      "learning_rate": 1.0183243597052312e-06,
      "loss": 0.1935,
      "num_tokens": 69641779.0,
      "step": 176
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.14492800400381445,
      "learning_rate": 1.0117304581692261e-06,
      "loss": 0.1826,
      "num_tokens": 70032641.0,
      "step": 177
    },
    {
      "epoch": 2.966666666666667,
      "grad_norm": 0.13925574665371473,
      "learning_rate": 1.006599637669943e-06,
      "loss": 0.182,
      "num_tokens": 70438823.0,
      "step": 178
    },
    {
      "epoch": 2.9833333333333334,
      "grad_norm": 0.1437065239067374,
      "learning_rate": 1.002933570746454e-06,
      "loss": 0.1843,
      "num_tokens": 70827059.0,
      "step": 179
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.14387233022808313,
      "learning_rate": 1.0007334524591145e-06,
      "loss": 0.1878,
      "num_tokens": 71219748.0,
      "step": 180
    },
    {
      "epoch": 3.0,
      "step": 180,
      "total_flos": 2.097365527654564e+17,
      "train_loss": 0.2700612629453341,
      "train_runtime": 2536.3753,
      "train_samples_per_second": 9.041,
      "train_steps_per_second": 0.071
    }
  ],
  "logging_steps": 1,
  "max_steps": 180,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.097365527654564e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}