{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.2814258911819887,
  "eval_steps": 800,
  "global_step": 30400,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004803001876172608,
      "grad_norm": 3.330345630645752,
      "learning_rate": 0.0001113525,
      "loss": 4.3152,
      "step": 64
    },
    {
      "epoch": 0.009606003752345216,
      "grad_norm": 2.5987207889556885,
      "learning_rate": 0.00022447249999999998,
      "loss": 3.5908,
      "step": 128
    },
    {
      "epoch": 0.014409005628517824,
      "grad_norm": 10.176867485046387,
      "learning_rate": 0.00033759249999999996,
      "loss": 3.3927,
      "step": 192
    },
    {
      "epoch": 0.01921200750469043,
      "grad_norm": 6.534875869750977,
      "learning_rate": 0.00045071249999999993,
      "loss": 3.3333,
      "step": 256
    },
    {
      "epoch": 0.02401500938086304,
      "grad_norm": 6.088456630706787,
      "learning_rate": 0.0005638325,
      "loss": 3.2928,
      "step": 320
    },
    {
      "epoch": 0.028818011257035647,
      "grad_norm": 6.937580108642578,
      "learning_rate": 0.0006769524999999999,
      "loss": 3.2901,
      "step": 384
    },
    {
      "epoch": 0.033621013133208255,
      "grad_norm": 6.744969844818115,
      "learning_rate": 0.0007900724999999999,
      "loss": 3.2589,
      "step": 448
    },
    {
      "epoch": 0.03842401500938086,
      "grad_norm": 2.2261719703674316,
      "learning_rate": 0.0009031925,
      "loss": 3.231,
      "step": 512
    },
    {
      "epoch": 0.04322701688555347,
      "grad_norm": 1.030404806137085,
      "learning_rate": 0.0010163124999999999,
      "loss": 3.2278,
      "step": 576
    },
    {
      "epoch": 0.04803001876172608,
      "grad_norm": 1.036293387413025,
      "learning_rate": 0.0011294324999999998,
      "loss": 3.272,
      "step": 640
    },
    {
      "epoch": 0.05283302063789869,
      "grad_norm": 1.1835274696350098,
      "learning_rate": 0.0012425525,
      "loss": 3.256,
      "step": 704
    },
    {
      "epoch": 0.057636022514071295,
      "grad_norm": 0.8378634452819824,
      "learning_rate": 0.0013556724999999998,
      "loss": 3.27,
      "step": 768
    },
    {
      "epoch": 0.0624390243902439,
      "grad_norm": 0.7602612972259521,
      "learning_rate": 0.0014687925,
      "loss": 3.2261,
      "step": 832
    },
    {
      "epoch": 0.06724202626641651,
      "grad_norm": 0.6387987732887268,
      "learning_rate": 0.0015819124999999997,
      "loss": 3.2153,
      "step": 896
    },
    {
      "epoch": 0.07204502814258912,
      "grad_norm": 0.4422095715999603,
      "learning_rate": 0.0016950325,
      "loss": 3.1975,
      "step": 960
    },
    {
      "epoch": 0.07684803001876173,
      "grad_norm": 0.39002183079719543,
      "learning_rate": 0.0018081524999999999,
      "loss": 3.1983,
      "step": 1024
    },
    {
      "epoch": 0.08165103189493433,
      "grad_norm": 5.926162242889404,
      "learning_rate": 0.0019212724999999996,
      "loss": 3.1763,
      "step": 1088
    },
    {
      "epoch": 0.08645403377110694,
      "grad_norm": 0.4173193871974945,
      "learning_rate": 0.0020343924999999996,
      "loss": 3.1833,
      "step": 1152
    },
    {
      "epoch": 0.09125703564727955,
      "grad_norm": 0.4136042594909668,
      "learning_rate": 0.0021475125,
      "loss": 3.1846,
      "step": 1216
    },
    {
      "epoch": 0.09606003752345216,
      "grad_norm": 0.39301183819770813,
      "learning_rate": 0.0022606324999999996,
      "loss": 3.1739,
      "step": 1280
    },
    {
      "epoch": 0.10086303939962477,
      "grad_norm": 0.4910842776298523,
      "learning_rate": 0.0023737525,
      "loss": 3.1614,
      "step": 1344
    },
    {
      "epoch": 0.10566604127579737,
      "grad_norm": 0.4039038121700287,
      "learning_rate": 0.0024868725,
      "loss": 3.1577,
      "step": 1408
    },
    {
      "epoch": 0.11046904315196998,
      "grad_norm": 0.3286585211753845,
      "learning_rate": 0.0025999925,
      "loss": 3.1458,
      "step": 1472
    },
    {
      "epoch": 0.11527204502814259,
      "grad_norm": 0.44095373153686523,
      "learning_rate": 0.0027131125,
      "loss": 3.155,
      "step": 1536
    },
    {
      "epoch": 0.1200750469043152,
      "grad_norm": 0.40613290667533875,
      "learning_rate": 0.0028262325,
      "loss": 3.1469,
      "step": 1600
    },
    {
      "epoch": 0.1248780487804878,
      "grad_norm": 0.4613141417503357,
      "learning_rate": 0.002828,
      "loss": 3.1392,
      "step": 1664
    },
    {
      "epoch": 0.1296810506566604,
      "grad_norm": 0.3758493661880493,
      "learning_rate": 0.002828,
      "loss": 3.1298,
      "step": 1728
    },
    {
      "epoch": 0.13448405253283302,
      "grad_norm": 0.32609787583351135,
      "learning_rate": 0.002828,
      "loss": 3.123,
      "step": 1792
    },
    {
      "epoch": 0.13928705440900563,
      "grad_norm": 0.4221761226654053,
      "learning_rate": 0.002828,
      "loss": 3.1076,
      "step": 1856
    },
    {
      "epoch": 0.14409005628517824,
      "grad_norm": 0.4372267425060272,
      "learning_rate": 0.002828,
      "loss": 3.098,
      "step": 1920
    },
    {
      "epoch": 0.14889305816135084,
      "grad_norm": 0.36804404854774475,
      "learning_rate": 0.002828,
      "loss": 3.0952,
      "step": 1984
    },
    {
      "epoch": 0.15369606003752345,
      "grad_norm": 0.314120888710022,
      "learning_rate": 0.002828,
      "loss": 3.0751,
      "step": 2048
    },
    {
      "epoch": 0.15849906191369606,
      "grad_norm": 0.3158409297466278,
      "learning_rate": 0.002828,
      "loss": 3.0574,
      "step": 2112
    },
    {
      "epoch": 0.16330206378986867,
      "grad_norm": 0.35668376088142395,
      "learning_rate": 0.002828,
      "loss": 3.0598,
      "step": 2176
    },
    {
      "epoch": 0.16810506566604128,
      "grad_norm": 0.3429064452648163,
      "learning_rate": 0.002828,
      "loss": 3.0554,
      "step": 2240
    },
    {
      "epoch": 0.17290806754221388,
      "grad_norm": 0.37981563806533813,
      "learning_rate": 0.002828,
      "loss": 3.0439,
      "step": 2304
    },
    {
      "epoch": 0.1777110694183865,
      "grad_norm": 0.45046043395996094,
      "learning_rate": 0.002828,
      "loss": 3.034,
      "step": 2368
    },
    {
      "epoch": 0.1825140712945591,
      "grad_norm": 0.30424681305885315,
      "learning_rate": 0.002828,
      "loss": 3.0408,
      "step": 2432
    },
    {
      "epoch": 0.1873170731707317,
      "grad_norm": 0.4374525845050812,
      "learning_rate": 0.002828,
      "loss": 3.0289,
      "step": 2496
    },
    {
      "epoch": 0.19212007504690432,
      "grad_norm": 0.4312361776828766,
      "learning_rate": 0.002828,
      "loss": 3.0252,
      "step": 2560
    },
    {
      "epoch": 0.19692307692307692,
      "grad_norm": 0.33109021186828613,
      "learning_rate": 0.002828,
      "loss": 3.0094,
      "step": 2624
    },
    {
      "epoch": 0.20172607879924953,
      "grad_norm": 0.4393901228904724,
      "learning_rate": 0.002828,
      "loss": 3.0021,
      "step": 2688
    },
    {
      "epoch": 0.20652908067542214,
      "grad_norm": 0.44241341948509216,
      "learning_rate": 0.002828,
      "loss": 3.0005,
      "step": 2752
    },
    {
      "epoch": 0.21133208255159475,
      "grad_norm": 0.36241745948791504,
      "learning_rate": 0.002828,
      "loss": 2.9939,
      "step": 2816
    },
    {
      "epoch": 0.21613508442776735,
      "grad_norm": 0.40780672430992126,
      "learning_rate": 0.002828,
      "loss": 2.9788,
      "step": 2880
    },
    {
      "epoch": 0.22093808630393996,
      "grad_norm": 0.3944590389728546,
      "learning_rate": 0.002828,
      "loss": 2.9854,
      "step": 2944
    },
    {
      "epoch": 0.22574108818011257,
      "grad_norm": 0.40449267625808716,
      "learning_rate": 0.002828,
      "loss": 2.9819,
      "step": 3008
    },
    {
      "epoch": 0.23054409005628518,
      "grad_norm": 0.37247487902641296,
      "learning_rate": 0.002828,
      "loss": 2.9827,
      "step": 3072
    },
    {
      "epoch": 0.23534709193245779,
      "grad_norm": 0.3732891082763672,
      "learning_rate": 0.002828,
      "loss": 2.9714,
      "step": 3136
    },
    {
      "epoch": 0.2401500938086304,
      "grad_norm": 0.3168690800666809,
      "learning_rate": 0.002828,
      "loss": 2.9649,
      "step": 3200
    },
    {
      "epoch": 0.244953095684803,
      "grad_norm": 0.32185083627700806,
      "learning_rate": 0.002828,
      "loss": 2.9607,
      "step": 3264
    },
    {
      "epoch": 0.2497560975609756,
      "grad_norm": 0.3293335437774658,
      "learning_rate": 0.002828,
      "loss": 2.9464,
      "step": 3328
    },
    {
      "epoch": 0.2545590994371482,
      "grad_norm": 0.39153945446014404,
      "learning_rate": 0.002828,
      "loss": 2.9513,
      "step": 3392
    },
    {
      "epoch": 0.2593621013133208,
      "grad_norm": 0.36884990334510803,
      "learning_rate": 0.002828,
      "loss": 2.9418,
      "step": 3456
    },
    {
      "epoch": 0.26416510318949343,
      "grad_norm": 0.39196011424064636,
      "learning_rate": 0.002828,
      "loss": 2.9407,
      "step": 3520
    },
    {
      "epoch": 0.26896810506566604,
      "grad_norm": 0.36011603474617004,
      "learning_rate": 0.002828,
      "loss": 2.9461,
      "step": 3584
    },
    {
      "epoch": 0.27377110694183865,
      "grad_norm": 0.3608081638813019,
      "learning_rate": 0.002828,
      "loss": 2.937,
      "step": 3648
    },
    {
      "epoch": 0.27857410881801126,
      "grad_norm": 0.3833774924278259,
      "learning_rate": 0.002828,
      "loss": 2.9254,
      "step": 3712
    },
    {
      "epoch": 0.28337711069418386,
      "grad_norm": 0.35225459933280945,
      "learning_rate": 0.002828,
      "loss": 2.9165,
      "step": 3776
    },
    {
      "epoch": 0.2881801125703565,
      "grad_norm": 0.39832860231399536,
      "learning_rate": 0.002828,
      "loss": 2.9259,
      "step": 3840
    },
    {
      "epoch": 0.2929831144465291,
      "grad_norm": 0.36834558844566345,
      "learning_rate": 0.002828,
      "loss": 2.9186,
      "step": 3904
    },
    {
      "epoch": 0.2977861163227017,
      "grad_norm": 0.3877101540565491,
      "learning_rate": 0.002828,
      "loss": 2.9107,
      "step": 3968
    },
    {
      "epoch": 0.3025891181988743,
      "grad_norm": 0.40037983655929565,
      "learning_rate": 0.002828,
      "loss": 2.9086,
      "step": 4032
    },
    {
      "epoch": 0.3073921200750469,
      "grad_norm": 0.35432353615760803,
      "learning_rate": 0.002828,
      "loss": 2.9039,
      "step": 4096
    },
    {
      "epoch": 0.3121951219512195,
      "grad_norm": 0.3740752935409546,
      "learning_rate": 0.002828,
      "loss": 2.8973,
      "step": 4160
    },
    {
      "epoch": 0.3169981238273921,
      "grad_norm": 0.3972289264202118,
      "learning_rate": 0.002828,
      "loss": 2.8868,
      "step": 4224
    },
    {
      "epoch": 0.3218011257035647,
      "grad_norm": 0.3818065822124481,
      "learning_rate": 0.002828,
      "loss": 2.8916,
      "step": 4288
    },
    {
      "epoch": 0.32660412757973734,
      "grad_norm": 0.31802886724472046,
      "learning_rate": 0.002828,
      "loss": 2.895,
      "step": 4352
    },
    {
      "epoch": 0.33140712945590994,
      "grad_norm": 0.3920498192310333,
      "learning_rate": 0.002828,
      "loss": 2.896,
      "step": 4416
    },
    {
      "epoch": 0.33621013133208255,
      "grad_norm": 0.42001602053642273,
      "learning_rate": 0.002828,
      "loss": 2.8757,
      "step": 4480
    },
    {
      "epoch": 0.34101313320825516,
      "grad_norm": 0.38037222623825073,
      "learning_rate": 0.002828,
      "loss": 2.8812,
      "step": 4544
    },
    {
      "epoch": 0.34581613508442777,
      "grad_norm": 0.6402748823165894,
      "learning_rate": 0.002828,
      "loss": 2.8741,
      "step": 4608
    },
    {
      "epoch": 0.3506191369606004,
      "grad_norm": 0.3265625536441803,
      "learning_rate": 0.002828,
      "loss": 2.8659,
      "step": 4672
    },
    {
      "epoch": 0.355422138836773,
      "grad_norm": 0.3389698565006256,
      "learning_rate": 0.002828,
      "loss": 2.863,
      "step": 4736
    },
    {
      "epoch": 0.3602251407129456,
      "grad_norm": 0.34922096133232117,
      "learning_rate": 0.002828,
      "loss": 2.8555,
      "step": 4800
    },
    {
      "epoch": 0.3650281425891182,
      "grad_norm": 0.370980441570282,
      "learning_rate": 0.002828,
      "loss": 2.8624,
      "step": 4864
    },
    {
      "epoch": 0.3698311444652908,
      "grad_norm": 0.3553221821784973,
      "learning_rate": 0.002828,
      "loss": 2.8573,
      "step": 4928
    },
    {
      "epoch": 0.3746341463414634,
      "grad_norm": 0.36796537041664124,
      "learning_rate": 0.002828,
      "loss": 2.8567,
      "step": 4992
    },
    {
      "epoch": 0.379437148217636,
      "grad_norm": 0.3615240752696991,
      "learning_rate": 0.002828,
      "loss": 2.8444,
      "step": 5056
    },
    {
      "epoch": 0.38424015009380863,
      "grad_norm": 0.4196101427078247,
      "learning_rate": 0.002828,
      "loss": 2.845,
      "step": 5120
    },
    {
      "epoch": 0.38904315196998124,
      "grad_norm": 0.334185928106308,
      "learning_rate": 0.002828,
      "loss": 2.8376,
      "step": 5184
    },
    {
      "epoch": 0.39384615384615385,
      "grad_norm": 0.30093756318092346,
      "learning_rate": 0.002828,
      "loss": 2.8302,
      "step": 5248
    },
    {
      "epoch": 0.39864915572232645,
      "grad_norm": 0.41615140438079834,
      "learning_rate": 0.002828,
      "loss": 2.8365,
      "step": 5312
    },
    {
      "epoch": 0.40345215759849906,
      "grad_norm": 0.38547712564468384,
      "learning_rate": 0.002828,
      "loss": 2.833,
      "step": 5376
    },
    {
      "epoch": 0.40825515947467167,
      "grad_norm": 0.336453378200531,
      "learning_rate": 0.002828,
      "loss": 2.8289,
      "step": 5440
    },
    {
      "epoch": 0.4130581613508443,
      "grad_norm": 0.33043336868286133,
      "learning_rate": 0.002828,
      "loss": 2.8154,
      "step": 5504
    },
    {
      "epoch": 0.4178611632270169,
      "grad_norm": 0.33151519298553467,
      "learning_rate": 0.002828,
      "loss": 2.8267,
      "step": 5568
    },
    {
      "epoch": 0.4226641651031895,
      "grad_norm": 0.29418498277664185,
      "learning_rate": 0.002828,
      "loss": 2.8167,
      "step": 5632
    },
    {
      "epoch": 0.4274671669793621,
      "grad_norm": 0.3507523536682129,
      "learning_rate": 0.002828,
      "loss": 2.8227,
      "step": 5696
    },
    {
      "epoch": 0.4322701688555347,
      "grad_norm": 0.36976736783981323,
      "learning_rate": 0.002828,
      "loss": 2.8087,
      "step": 5760
    },
    {
      "epoch": 0.4370731707317073,
      "grad_norm": 0.4142448604106903,
      "learning_rate": 0.002828,
      "loss": 2.8191,
      "step": 5824
    },
    {
      "epoch": 0.4418761726078799,
      "grad_norm": 0.3893688917160034,
      "learning_rate": 0.002828,
      "loss": 2.8032,
      "step": 5888
    },
    {
      "epoch": 0.44667917448405253,
      "grad_norm": 0.3025995194911957,
      "learning_rate": 0.002828,
      "loss": 2.8049,
      "step": 5952
    },
    {
      "epoch": 0.45148217636022514,
      "grad_norm": 0.3676198422908783,
      "learning_rate": 0.002828,
      "loss": 2.7976,
      "step": 6016
    },
    {
      "epoch": 0.45628517823639775,
      "grad_norm": 0.39022454619407654,
      "learning_rate": 0.002828,
      "loss": 2.796,
      "step": 6080
    },
    {
      "epoch": 0.46108818011257036,
      "grad_norm": 0.38986560702323914,
      "learning_rate": 0.002828,
      "loss": 2.791,
      "step": 6144
    },
    {
      "epoch": 0.46589118198874296,
      "grad_norm": 0.35879769921302795,
      "learning_rate": 0.002828,
      "loss": 2.7949,
      "step": 6208
    },
    {
      "epoch": 0.47069418386491557,
      "grad_norm": 0.44419315457344055,
      "learning_rate": 0.002828,
      "loss": 2.7862,
      "step": 6272
    },
    {
      "epoch": 0.4754971857410882,
      "grad_norm": 0.30884304642677307,
      "learning_rate": 0.002828,
      "loss": 2.7864,
      "step": 6336
    },
    {
      "epoch": 0.4803001876172608,
      "grad_norm": 0.542960524559021,
      "learning_rate": 0.002828,
      "loss": 2.7842,
      "step": 6400
    },
    {
      "epoch": 0.4851031894934334,
      "grad_norm": 0.39032405614852905,
      "learning_rate": 0.002828,
      "loss": 2.7798,
      "step": 6464
    },
    {
      "epoch": 0.489906191369606,
      "grad_norm": 0.3760650157928467,
      "learning_rate": 0.002828,
      "loss": 2.78,
      "step": 6528
    },
    {
      "epoch": 0.4947091932457786,
      "grad_norm": 0.33309632539749146,
      "learning_rate": 0.002828,
      "loss": 2.7741,
      "step": 6592
    },
    {
      "epoch": 0.4995121951219512,
      "grad_norm": 0.37640711665153503,
      "learning_rate": 0.002828,
      "loss": 2.7795,
      "step": 6656
    },
    {
      "epoch": 0.5043151969981239,
      "grad_norm": 0.36830273270606995,
      "learning_rate": 0.002828,
      "loss": 2.7596,
      "step": 6720
    },
    {
      "epoch": 0.5091181988742964,
      "grad_norm": 0.3751394748687744,
      "learning_rate": 0.002828,
      "loss": 2.761,
      "step": 6784
    },
    {
      "epoch": 0.5139212007504691,
      "grad_norm": 0.3472868800163269,
      "learning_rate": 0.002828,
      "loss": 2.7567,
      "step": 6848
    },
    {
      "epoch": 0.5187242026266417,
      "grad_norm": 0.3749905526638031,
      "learning_rate": 0.002828,
      "loss": 2.7654,
      "step": 6912
    },
    {
      "epoch": 0.5235272045028143,
      "grad_norm": 0.4672335982322693,
      "learning_rate": 0.002828,
      "loss": 2.7467,
      "step": 6976
    },
    {
      "epoch": 0.5283302063789869,
      "grad_norm": 0.30083194375038147,
      "learning_rate": 0.002828,
      "loss": 2.7596,
      "step": 7040
    },
    {
      "epoch": 0.5331332082551595,
      "grad_norm": 0.34232673048973083,
      "learning_rate": 0.002828,
      "loss": 2.7425,
      "step": 7104
    },
    {
      "epoch": 0.5379362101313321,
      "grad_norm": 0.42222973704338074,
      "learning_rate": 0.002828,
      "loss": 2.7486,
      "step": 7168
    },
    {
      "epoch": 0.5427392120075047,
      "grad_norm": 0.36008650064468384,
      "learning_rate": 0.002828,
      "loss": 2.7451,
      "step": 7232
    },
    {
      "epoch": 0.5475422138836773,
      "grad_norm": 0.34359127283096313,
      "learning_rate": 0.002828,
      "loss": 2.734,
      "step": 7296
    },
    {
      "epoch": 0.55234521575985,
      "grad_norm": 0.3953745663166046,
      "learning_rate": 0.002828,
      "loss": 2.7397,
      "step": 7360
    },
    {
      "epoch": 0.5571482176360225,
      "grad_norm": 0.36703094840049744,
      "learning_rate": 0.002828,
      "loss": 2.7313,
      "step": 7424
    },
    {
      "epoch": 0.5619512195121952,
      "grad_norm": 0.31787919998168945,
      "learning_rate": 0.002828,
      "loss": 2.7363,
      "step": 7488
    },
    {
      "epoch": 0.5667542213883677,
      "grad_norm": 0.31179967522621155,
      "learning_rate": 0.002828,
      "loss": 2.7236,
      "step": 7552
    },
    {
      "epoch": 0.5715572232645404,
      "grad_norm": 0.3990299105644226,
      "learning_rate": 0.002828,
      "loss": 2.7191,
      "step": 7616
    },
    {
      "epoch": 0.576360225140713,
      "grad_norm": 0.3776848018169403,
      "learning_rate": 0.002828,
      "loss": 2.7244,
      "step": 7680
    },
    {
      "epoch": 0.5811632270168856,
      "grad_norm": 0.36117562651634216,
      "learning_rate": 0.002828,
      "loss": 2.7131,
      "step": 7744
    },
    {
      "epoch": 0.5859662288930582,
      "grad_norm": 0.3219313323497772,
      "learning_rate": 0.002828,
      "loss": 2.7202,
      "step": 7808
    },
    {
      "epoch": 0.5907692307692308,
      "grad_norm": 0.4501495957374573,
      "learning_rate": 0.002828,
      "loss": 2.7115,
      "step": 7872
    },
    {
      "epoch": 0.5955722326454034,
      "grad_norm": 0.3939913809299469,
      "learning_rate": 0.002828,
      "loss": 2.7076,
      "step": 7936
    },
    {
      "epoch": 0.600375234521576,
      "grad_norm": 0.3244933485984802,
      "learning_rate": 0.002828,
      "loss": 2.7047,
      "step": 8000
    },
    {
      "epoch": 0.6051782363977486,
      "grad_norm": 0.3094891607761383,
      "learning_rate": 0.002828,
      "loss": 2.698,
      "step": 8064
    },
    {
      "epoch": 0.6099812382739213,
      "grad_norm": 0.3525580167770386,
      "learning_rate": 0.002828,
      "loss": 2.7056,
      "step": 8128
    },
    {
      "epoch": 0.6147842401500938,
      "grad_norm": 0.3058718144893646,
      "learning_rate": 0.002828,
      "loss": 2.6937,
      "step": 8192
    },
    {
      "epoch": 0.6195872420262665,
      "grad_norm": 0.31864726543426514,
      "learning_rate": 0.002828,
      "loss": 2.6935,
      "step": 8256
    },
    {
      "epoch": 0.624390243902439,
      "grad_norm": 0.3197256028652191,
      "learning_rate": 0.002828,
      "loss": 2.6981,
      "step": 8320
    },
    {
      "epoch": 0.6291932457786117,
      "grad_norm": 0.30954182147979736,
      "learning_rate": 0.002828,
      "loss": 2.705,
      "step": 8384
    },
    {
      "epoch": 0.6339962476547842,
      "grad_norm": 0.4144911468029022,
      "learning_rate": 0.002828,
      "loss": 2.6832,
      "step": 8448
    },
    {
      "epoch": 0.6387992495309569,
      "grad_norm": 0.34720951318740845,
      "learning_rate": 0.002828,
      "loss": 2.6858,
      "step": 8512
    },
    {
      "epoch": 0.6436022514071295,
      "grad_norm": 0.30545172095298767,
      "learning_rate": 0.002828,
      "loss": 2.6758,
      "step": 8576
    },
    {
      "epoch": 0.6484052532833021,
      "grad_norm": 0.3341416120529175,
      "learning_rate": 0.002828,
      "loss": 2.6673,
      "step": 8640
    },
    {
      "epoch": 0.6532082551594747,
      "grad_norm": 0.5191973447799683,
      "learning_rate": 0.002828,
      "loss": 2.6798,
      "step": 8704
    },
    {
      "epoch": 0.6580112570356473,
      "grad_norm": 0.44382575154304504,
      "learning_rate": 0.002828,
      "loss": 2.683,
      "step": 8768
    },
    {
      "epoch": 0.6628142589118199,
      "grad_norm": 0.45676809549331665,
      "learning_rate": 0.002828,
      "loss": 2.6731,
      "step": 8832
    },
    {
      "epoch": 0.6676172607879926,
      "grad_norm": 0.3542475700378418,
      "learning_rate": 0.002828,
      "loss": 2.6813,
      "step": 8896
    },
    {
      "epoch": 0.6724202626641651,
      "grad_norm": 0.3976110517978668,
      "learning_rate": 0.002828,
      "loss": 2.6714,
      "step": 8960
    },
    {
      "epoch": 0.6772232645403378,
      "grad_norm": 0.37194061279296875,
      "learning_rate": 0.002828,
      "loss": 2.6646,
      "step": 9024
    },
    {
      "epoch": 0.6820262664165103,
      "grad_norm": 0.4080849289894104,
      "learning_rate": 0.002828,
      "loss": 2.6638,
      "step": 9088
    },
    {
      "epoch": 0.686829268292683,
      "grad_norm": 0.3275296986103058,
      "learning_rate": 0.002828,
      "loss": 2.6643,
      "step": 9152
    },
    {
      "epoch": 0.6916322701688555,
      "grad_norm": 0.4300732910633087,
      "learning_rate": 0.002828,
      "loss": 2.6545,
      "step": 9216
    },
    {
      "epoch": 0.6964352720450282,
      "grad_norm": 0.528816282749176,
      "learning_rate": 0.002828,
      "loss": 2.6639,
      "step": 9280
    },
    {
      "epoch": 0.7012382739212007,
      "grad_norm": 0.39729437232017517,
      "learning_rate": 0.002828,
      "loss": 2.6669,
      "step": 9344
    },
    {
      "epoch": 0.7060412757973734,
      "grad_norm": 0.36177024245262146,
      "learning_rate": 0.002828,
      "loss": 2.6429,
      "step": 9408
    },
    {
      "epoch": 0.710844277673546,
      "grad_norm": 0.3488599956035614,
      "learning_rate": 0.002828,
      "loss": 2.6409,
      "step": 9472
    },
    {
      "epoch": 0.7156472795497186,
      "grad_norm": 0.361208438873291,
      "learning_rate": 0.002828,
      "loss": 2.6354,
      "step": 9536
    },
    {
      "epoch": 0.7204502814258912,
      "grad_norm": 0.3307696282863617,
      "learning_rate": 0.002828,
      "loss": 2.6398,
      "step": 9600
    },
    {
      "epoch": 0.7252532833020638,
      "grad_norm": 0.47409588098526,
      "learning_rate": 0.002828,
      "loss": 2.6899,
      "step": 9664
    },
    {
      "epoch": 0.7300562851782364,
      "grad_norm": 0.43482983112335205,
      "learning_rate": 0.002828,
      "loss": 2.6675,
      "step": 9728
    },
    {
      "epoch": 0.7348592870544091,
      "grad_norm": 0.43177512288093567,
      "learning_rate": 0.002828,
      "loss": 2.6703,
      "step": 9792
    },
    {
      "epoch": 0.7396622889305816,
      "grad_norm": 0.5830815434455872,
      "learning_rate": 0.002828,
      "loss": 2.6698,
      "step": 9856
    },
    {
      "epoch": 0.7444652908067543,
      "grad_norm": 0.42559024691581726,
      "learning_rate": 0.002828,
      "loss": 2.6687,
      "step": 9920
    },
    {
      "epoch": 0.7492682926829268,
      "grad_norm": 0.36572182178497314,
      "learning_rate": 0.002828,
      "loss": 2.6602,
      "step": 9984
    },
    {
      "epoch": 0.7540712945590995,
      "grad_norm": 0.42863738536834717,
      "learning_rate": 0.002828,
      "loss": 2.6684,
      "step": 10048
    },
    {
      "epoch": 0.758874296435272,
      "grad_norm": 0.34681934118270874,
      "learning_rate": 0.002828,
      "loss": 2.6618,
      "step": 10112
    },
    {
      "epoch": 0.7636772983114447,
      "grad_norm": 0.40332967042922974,
      "learning_rate": 0.002828,
      "loss": 2.6523,
      "step": 10176
    },
    {
      "epoch": 0.7684803001876173,
      "grad_norm": 0.47137463092803955,
      "learning_rate": 0.002828,
      "loss": 2.6543,
      "step": 10240
    },
    {
      "epoch": 0.7732833020637899,
      "grad_norm": 0.3324384093284607,
      "learning_rate": 0.002828,
      "loss": 2.6444,
      "step": 10304
    },
    {
      "epoch": 0.7780863039399625,
      "grad_norm": 0.3714103698730469,
      "learning_rate": 0.002828,
      "loss": 2.6466,
      "step": 10368
    },
    {
      "epoch": 0.7828893058161351,
      "grad_norm": 0.3684547543525696,
      "learning_rate": 0.002828,
      "loss": 2.6497,
      "step": 10432
    },
    {
      "epoch": 0.7876923076923077,
      "grad_norm": 0.3580617606639862,
      "learning_rate": 0.002828,
      "loss": 2.6428,
      "step": 10496
    },
    {
      "epoch": 0.7924953095684804,
      "grad_norm": 0.4132176339626312,
      "learning_rate": 0.002828,
      "loss": 2.6407,
      "step": 10560
    },
    {
      "epoch": 0.7972983114446529,
      "grad_norm": 0.4079800546169281,
      "learning_rate": 0.002828,
      "loss": 2.6374,
      "step": 10624
    },
    {
      "epoch": 0.8021013133208256,
      "grad_norm": 0.40170854330062866,
      "learning_rate": 0.002828,
      "loss": 2.6319,
      "step": 10688
    },
    {
      "epoch": 0.8069043151969981,
      "grad_norm": 0.4748755097389221,
      "learning_rate": 0.002828,
      "loss": 2.6489,
      "step": 10752
    },
    {
      "epoch": 0.8117073170731708,
      "grad_norm": 0.3806183338165283,
      "learning_rate": 0.002828,
      "loss": 2.6363,
      "step": 10816
    },
    {
      "epoch": 0.8165103189493433,
      "grad_norm": 0.32777532935142517,
      "learning_rate": 0.002828,
      "loss": 2.6386,
      "step": 10880
    },
    {
      "epoch": 0.821313320825516,
      "grad_norm": 0.4884773790836334,
      "learning_rate": 0.002828,
      "loss": 2.6293,
      "step": 10944
    },
    {
      "epoch": 0.8261163227016886,
      "grad_norm": 0.43175649642944336,
      "learning_rate": 0.002828,
      "loss": 2.6351,
      "step": 11008
    },
    {
      "epoch": 0.8309193245778612,
      "grad_norm": 0.44375500082969666,
      "learning_rate": 0.002828,
      "loss": 2.6272,
      "step": 11072
    },
    {
      "epoch": 0.8357223264540338,
      "grad_norm": 0.36503469944000244,
      "learning_rate": 0.002828,
      "loss": 2.628,
      "step": 11136
    },
    {
      "epoch": 0.8405253283302064,
      "grad_norm": 0.3493196368217468,
      "learning_rate": 0.002828,
      "loss": 2.6238,
      "step": 11200
    },
    {
      "epoch": 0.845328330206379,
      "grad_norm": 0.3593812584877014,
      "learning_rate": 0.002828,
      "loss": 2.6161,
      "step": 11264
    },
    {
      "epoch": 0.8501313320825516,
      "grad_norm": 0.4043927788734436,
      "learning_rate": 0.002828,
      "loss": 2.6248,
      "step": 11328
    },
    {
      "epoch": 0.8549343339587242,
      "grad_norm": 0.3805730938911438,
      "learning_rate": 0.002828,
      "loss": 2.619,
      "step": 11392
    },
    {
      "epoch": 0.8597373358348969,
      "grad_norm": 0.40822461247444153,
      "learning_rate": 0.002828,
      "loss": 2.619,
      "step": 11456
    },
    {
      "epoch": 0.8645403377110694,
      "grad_norm": 0.3430253565311432,
      "learning_rate": 0.002828,
      "loss": 2.6162,
      "step": 11520
    },
    {
      "epoch": 0.8693433395872421,
      "grad_norm": 0.3665921688079834,
      "learning_rate": 0.002828,
      "loss": 2.6083,
      "step": 11584
    },
    {
      "epoch": 0.8741463414634146,
      "grad_norm": 0.3768637776374817,
      "learning_rate": 0.002828,
      "loss": 2.6085,
      "step": 11648
    },
    {
      "epoch": 0.8789493433395873,
      "grad_norm": 0.6709098219871521,
      "learning_rate": 0.002828,
      "loss": 2.6067,
      "step": 11712
    },
    {
      "epoch": 0.8837523452157598,
      "grad_norm": 0.37109729647636414,
      "learning_rate": 0.002828,
      "loss": 2.5975,
      "step": 11776
    },
    {
      "epoch": 0.8885553470919325,
      "grad_norm": 0.35545358061790466,
      "learning_rate": 0.002828,
      "loss": 2.6086,
      "step": 11840
    },
    {
      "epoch": 0.8933583489681051,
      "grad_norm": 0.34493309259414673,
      "learning_rate": 0.002828,
      "loss": 2.6009,
      "step": 11904
    },
    {
      "epoch": 0.8981613508442777,
      "grad_norm": 0.35226738452911377,
      "learning_rate": 0.002828,
      "loss": 2.5909,
      "step": 11968
    },
    {
      "epoch": 0.9029643527204503,
      "grad_norm": 0.3626823425292969,
      "learning_rate": 0.002828,
      "loss": 2.5954,
      "step": 12032
    },
    {
      "epoch": 0.9077673545966229,
      "grad_norm": 0.4639281630516052,
      "learning_rate": 0.002828,
      "loss": 2.5976,
      "step": 12096
    },
    {
      "epoch": 0.9125703564727955,
      "grad_norm": 0.425073504447937,
      "learning_rate": 0.002828,
      "loss": 2.5846,
      "step": 12160
    },
    {
      "epoch": 0.9173733583489682,
      "grad_norm": 0.4849206507205963,
      "learning_rate": 0.002828,
      "loss": 2.5851,
      "step": 12224
    },
    {
      "epoch": 0.9221763602251407,
      "grad_norm": 0.3517647385597229,
      "learning_rate": 0.002828,
      "loss": 2.5832,
      "step": 12288
    },
    {
      "epoch": 0.9269793621013134,
      "grad_norm": 0.4217440187931061,
      "learning_rate": 0.002828,
      "loss": 2.5777,
      "step": 12352
    },
    {
      "epoch": 0.9317823639774859,
      "grad_norm": 0.3862438499927521,
      "learning_rate": 0.002828,
      "loss": 2.5769,
      "step": 12416
    },
    {
      "epoch": 0.9365853658536586,
      "grad_norm": 0.4026007056236267,
      "learning_rate": 0.002828,
      "loss": 2.5802,
      "step": 12480
    },
    {
      "epoch": 0.9413883677298311,
      "grad_norm": 0.3353049159049988,
      "learning_rate": 0.002828,
      "loss": 2.5741,
      "step": 12544
    },
    {
      "epoch": 0.9461913696060038,
      "grad_norm": 0.35357797145843506,
      "learning_rate": 0.002828,
      "loss": 2.5723,
      "step": 12608
    },
    {
      "epoch": 0.9509943714821764,
      "grad_norm": 0.35685861110687256,
      "learning_rate": 0.002828,
      "loss": 2.5801,
      "step": 12672
    },
    {
      "epoch": 0.955797373358349,
      "grad_norm": 0.36265361309051514,
      "learning_rate": 0.002828,
      "loss": 2.5784,
      "step": 12736
    },
    {
      "epoch": 0.9606003752345216,
      "grad_norm": 0.4119773805141449,
      "learning_rate": 0.002828,
      "loss": 2.5646,
      "step": 12800
    },
    {
      "epoch": 0.9654033771106942,
      "grad_norm": 0.3662680387496948,
      "learning_rate": 0.002828,
      "loss": 2.5693,
      "step": 12864
    },
    {
      "epoch": 0.9702063789868668,
      "grad_norm": 0.3822716772556305,
      "learning_rate": 0.002828,
      "loss": 2.5643,
      "step": 12928
    },
    {
      "epoch": 0.9750093808630395,
      "grad_norm": 0.3412950038909912,
      "learning_rate": 0.002828,
      "loss": 2.5646,
      "step": 12992
    },
    {
      "epoch": 0.979812382739212,
      "grad_norm": 0.373353511095047,
      "learning_rate": 0.002828,
      "loss": 2.5614,
      "step": 13056
    },
    {
      "epoch": 0.9846153846153847,
      "grad_norm": 10.112526893615723,
      "learning_rate": 0.002828,
      "loss": 2.5578,
      "step": 13120
    },
    {
      "epoch": 0.9894183864915572,
      "grad_norm": 0.36393383145332336,
      "learning_rate": 0.002828,
      "loss": 2.5696,
      "step": 13184
    },
    {
      "epoch": 0.9942213883677299,
      "grad_norm": 0.4176023006439209,
      "learning_rate": 0.002828,
      "loss": 2.5533,
      "step": 13248
    },
    {
      "epoch": 0.9990243902439024,
      "grad_norm": 0.4248984456062317,
      "learning_rate": 0.002828,
      "loss": 2.5569,
      "step": 13312
    },
    {
      "epoch": 1.003827392120075,
      "grad_norm": 0.3931824564933777,
      "learning_rate": 0.002828,
      "loss": 2.5246,
      "step": 13376
    },
    {
      "epoch": 1.0086303939962478,
      "grad_norm": 0.3742982745170593,
      "learning_rate": 0.002828,
      "loss": 2.5104,
      "step": 13440
    },
    {
      "epoch": 1.0134333958724202,
      "grad_norm": 0.4388613998889923,
      "learning_rate": 0.002828,
      "loss": 2.519,
      "step": 13504
    },
    {
      "epoch": 1.0182363977485929,
      "grad_norm": 0.41458427906036377,
      "learning_rate": 0.002828,
      "loss": 2.5162,
      "step": 13568
    },
    {
      "epoch": 1.0230393996247655,
      "grad_norm": 0.3841855227947235,
      "learning_rate": 0.002828,
      "loss": 2.5129,
      "step": 13632
    },
    {
      "epoch": 1.027842401500938,
      "grad_norm": 0.43930500745773315,
      "learning_rate": 0.002828,
      "loss": 2.5179,
      "step": 13696
    },
    {
      "epoch": 1.0326454033771106,
      "grad_norm": 0.3687760531902313,
      "learning_rate": 0.002828,
      "loss": 2.5006,
      "step": 13760
    },
    {
      "epoch": 1.0374484052532833,
      "grad_norm": 0.3823833465576172,
      "learning_rate": 0.002828,
      "loss": 2.5039,
      "step": 13824
    },
    {
      "epoch": 1.042251407129456,
      "grad_norm": 0.40025222301483154,
      "learning_rate": 0.002828,
      "loss": 2.5155,
      "step": 13888
    },
    {
      "epoch": 1.0470544090056286,
      "grad_norm": 0.40790122747421265,
      "learning_rate": 0.002828,
      "loss": 2.5064,
      "step": 13952
    },
    {
      "epoch": 1.051857410881801,
      "grad_norm": 0.42718634009361267,
      "learning_rate": 0.002828,
      "loss": 2.5095,
      "step": 14016
    },
    {
      "epoch": 1.0566604127579737,
      "grad_norm": 0.3305782079696655,
      "learning_rate": 0.002828,
      "loss": 2.5,
      "step": 14080
    },
    {
      "epoch": 1.0614634146341464,
      "grad_norm": 0.37126559019088745,
      "learning_rate": 0.002828,
      "loss": 2.5099,
      "step": 14144
    },
    {
      "epoch": 1.0662664165103188,
      "grad_norm": 0.414987176656723,
      "learning_rate": 0.002828,
      "loss": 2.501,
      "step": 14208
    },
    {
      "epoch": 1.0710694183864915,
      "grad_norm": 0.45917075872421265,
      "learning_rate": 0.002828,
      "loss": 2.5062,
      "step": 14272
    },
    {
      "epoch": 1.0758724202626642,
      "grad_norm": 0.4362465739250183,
      "learning_rate": 0.002828,
      "loss": 2.4949,
      "step": 14336
    },
    {
      "epoch": 1.0806754221388368,
      "grad_norm": 0.40015289187431335,
      "learning_rate": 0.002828,
      "loss": 2.4957,
      "step": 14400
    },
    {
      "epoch": 1.0854784240150095,
      "grad_norm": 0.3781159818172455,
      "learning_rate": 0.002828,
      "loss": 2.4979,
      "step": 14464
    },
    {
      "epoch": 1.090281425891182,
      "grad_norm": 0.4165579676628113,
      "learning_rate": 0.002828,
      "loss": 2.4913,
      "step": 14528
    },
    {
      "epoch": 1.0950844277673546,
      "grad_norm": 0.4100767970085144,
      "learning_rate": 0.002828,
      "loss": 2.4978,
      "step": 14592
    },
    {
      "epoch": 1.0998874296435273,
      "grad_norm": 0.4211256504058838,
      "learning_rate": 0.002828,
      "loss": 2.4871,
      "step": 14656
    },
    {
      "epoch": 1.1046904315196997,
      "grad_norm": 0.390396386384964,
      "learning_rate": 0.002828,
      "loss": 2.4933,
      "step": 14720
    },
    {
      "epoch": 1.1094934333958724,
      "grad_norm": 0.3585355281829834,
      "learning_rate": 0.002828,
      "loss": 2.4811,
      "step": 14784
    },
    {
      "epoch": 1.114296435272045,
      "grad_norm": 0.5148431062698364,
      "learning_rate": 0.002828,
      "loss": 2.4888,
      "step": 14848
    },
    {
      "epoch": 1.1190994371482177,
      "grad_norm": 0.44254639744758606,
      "learning_rate": 0.002828,
      "loss": 2.4821,
      "step": 14912
    },
    {
      "epoch": 1.1239024390243904,
      "grad_norm": 0.3710468113422394,
      "learning_rate": 0.002828,
      "loss": 2.4819,
      "step": 14976
    },
    {
      "epoch": 1.1287054409005628,
      "grad_norm": 0.41197285056114197,
      "learning_rate": 0.002828,
      "loss": 2.4842,
      "step": 15040
    },
    {
      "epoch": 1.1335084427767355,
      "grad_norm": 0.37512508034706116,
      "learning_rate": 0.002828,
      "loss": 2.4776,
      "step": 15104
    },
    {
      "epoch": 1.1383114446529081,
      "grad_norm": 0.4286038279533386,
      "learning_rate": 0.002828,
      "loss": 2.4748,
      "step": 15168
    },
    {
      "epoch": 1.1431144465290806,
      "grad_norm": 0.37446776032447815,
      "learning_rate": 0.002828,
      "loss": 2.4727,
      "step": 15232
    },
    {
      "epoch": 1.1479174484052532,
      "grad_norm": 0.4537597894668579,
      "learning_rate": 0.002828,
      "loss": 2.4663,
      "step": 15296
    },
    {
      "epoch": 1.152720450281426,
      "grad_norm": 0.36247050762176514,
      "learning_rate": 0.002828,
      "loss": 2.4699,
      "step": 15360
    },
    {
      "epoch": 1.1575234521575986,
      "grad_norm": 0.3772297501564026,
      "learning_rate": 0.002828,
      "loss": 2.4734,
      "step": 15424
    },
    {
      "epoch": 1.1623264540337712,
      "grad_norm": 0.3789200186729431,
      "learning_rate": 0.002828,
      "loss": 2.4696,
      "step": 15488
    },
    {
      "epoch": 1.1671294559099437,
      "grad_norm": 0.36870113015174866,
      "learning_rate": 0.002828,
      "loss": 2.4671,
      "step": 15552
    },
    {
      "epoch": 1.1719324577861163,
      "grad_norm": 0.37448298931121826,
      "learning_rate": 0.002828,
      "loss": 2.462,
      "step": 15616
    },
    {
      "epoch": 1.176735459662289,
      "grad_norm": 0.4384878873825073,
      "learning_rate": 0.002828,
      "loss": 2.4648,
      "step": 15680
    },
    {
      "epoch": 1.1815384615384614,
      "grad_norm": 0.37811148166656494,
      "learning_rate": 0.002828,
      "loss": 2.4598,
      "step": 15744
    },
    {
      "epoch": 1.186341463414634,
      "grad_norm": 0.4190385341644287,
      "learning_rate": 0.002828,
      "loss": 2.4643,
      "step": 15808
    },
    {
      "epoch": 1.1911444652908068,
      "grad_norm": 0.48885485529899597,
      "learning_rate": 0.002828,
      "loss": 2.4564,
      "step": 15872
    },
    {
      "epoch": 1.1959474671669794,
      "grad_norm": 0.42267611622810364,
      "learning_rate": 0.002828,
      "loss": 2.4671,
      "step": 15936
    },
    {
      "epoch": 1.200750469043152,
      "grad_norm": 0.3886626064777374,
      "learning_rate": 0.002828,
      "loss": 2.4715,
      "step": 16000
    },
    {
      "epoch": 1.2055534709193245,
      "grad_norm": 0.40871456265449524,
      "learning_rate": 0.002828,
      "loss": 2.4558,
      "step": 16064
    },
    {
      "epoch": 1.2103564727954972,
      "grad_norm": 0.46952739357948303,
      "learning_rate": 0.002828,
      "loss": 2.4497,
      "step": 16128
    },
    {
      "epoch": 1.2151594746716698,
      "grad_norm": 0.41340023279190063,
      "learning_rate": 0.002828,
      "loss": 2.4402,
      "step": 16192
    },
    {
      "epoch": 1.2199624765478423,
      "grad_norm": 0.36176440119743347,
      "learning_rate": 0.002828,
      "loss": 2.4473,
      "step": 16256
    },
    {
      "epoch": 1.224765478424015,
      "grad_norm": 0.4117899239063263,
      "learning_rate": 0.002828,
      "loss": 2.443,
      "step": 16320
    },
    {
      "epoch": 1.2295684803001876,
      "grad_norm": 0.5039286613464355,
      "learning_rate": 0.002828,
      "loss": 2.4557,
      "step": 16384
    },
    {
      "epoch": 1.2343714821763603,
      "grad_norm": 0.3716677129268646,
      "learning_rate": 0.002828,
      "loss": 2.4522,
      "step": 16448
    },
    {
      "epoch": 1.239174484052533,
      "grad_norm": 0.42316168546676636,
      "learning_rate": 0.002828,
      "loss": 2.4424,
      "step": 16512
    },
    {
      "epoch": 1.2439774859287054,
      "grad_norm": 0.5081620216369629,
      "learning_rate": 0.002828,
      "loss": 2.4325,
      "step": 16576
    },
    {
      "epoch": 1.248780487804878,
      "grad_norm": 0.39409589767456055,
      "learning_rate": 0.002828,
      "loss": 2.435,
      "step": 16640
    },
    {
      "epoch": 1.2535834896810507,
      "grad_norm": 0.38638824224472046,
      "learning_rate": 0.002828,
      "loss": 2.4363,
      "step": 16704
    },
    {
      "epoch": 1.2583864915572232,
      "grad_norm": 0.41918718814849854,
      "learning_rate": 0.002828,
      "loss": 2.4404,
      "step": 16768
    },
    {
      "epoch": 1.2631894934333958,
      "grad_norm": 0.3932395279407501,
      "learning_rate": 0.002828,
      "loss": 2.4403,
      "step": 16832
    },
    {
      "epoch": 1.2679924953095685,
      "grad_norm": 0.3787371814250946,
      "learning_rate": 0.002828,
      "loss": 2.4386,
      "step": 16896
    },
    {
      "epoch": 1.2727954971857411,
      "grad_norm": 0.40612953901290894,
      "learning_rate": 0.002828,
      "loss": 2.4219,
      "step": 16960
    },
    {
      "epoch": 1.2775984990619138,
      "grad_norm": 0.4243071675300598,
      "learning_rate": 0.002828,
      "loss": 2.4261,
      "step": 17024
    },
    {
      "epoch": 1.2824015009380862,
      "grad_norm": 0.4240303039550781,
      "learning_rate": 0.002828,
      "loss": 2.444,
      "step": 17088
    },
    {
      "epoch": 1.287204502814259,
      "grad_norm": 0.4888259470462799,
      "learning_rate": 0.002828,
      "loss": 2.4344,
      "step": 17152
    },
    {
      "epoch": 1.2920075046904316,
      "grad_norm": 0.4678399860858917,
      "learning_rate": 0.002828,
      "loss": 2.4306,
      "step": 17216
    },
    {
      "epoch": 1.296810506566604,
      "grad_norm": 0.38733649253845215,
      "learning_rate": 0.002828,
      "loss": 2.431,
      "step": 17280
    },
    {
      "epoch": 1.3016135084427767,
      "grad_norm": 0.38587358593940735,
      "learning_rate": 0.002828,
      "loss": 2.4205,
      "step": 17344
    },
    {
      "epoch": 1.3064165103189493,
      "grad_norm": 0.39998751878738403,
      "learning_rate": 0.002828,
      "loss": 2.4336,
      "step": 17408
    },
    {
      "epoch": 1.311219512195122,
      "grad_norm": 0.36294978857040405,
      "learning_rate": 0.002828,
      "loss": 2.4238,
      "step": 17472
    },
    {
      "epoch": 1.3160225140712947,
      "grad_norm": 0.3924562633037567,
      "learning_rate": 0.002828,
      "loss": 2.4197,
      "step": 17536
    },
    {
      "epoch": 1.320825515947467,
      "grad_norm": 0.3837553560733795,
      "learning_rate": 0.002828,
      "loss": 2.4243,
      "step": 17600
    },
    {
      "epoch": 1.3256285178236398,
      "grad_norm": 0.38875913619995117,
      "learning_rate": 0.002828,
      "loss": 2.4172,
      "step": 17664
    },
    {
      "epoch": 1.3304315196998124,
      "grad_norm": 0.41738125681877136,
      "learning_rate": 0.002828,
      "loss": 2.4225,
      "step": 17728
    },
    {
      "epoch": 1.3352345215759849,
      "grad_norm": 0.3645491898059845,
      "learning_rate": 0.002828,
      "loss": 2.4151,
      "step": 17792
    },
    {
      "epoch": 1.3400375234521575,
      "grad_norm": 0.43829870223999023,
      "learning_rate": 0.002828,
      "loss": 2.4099,
      "step": 17856
    },
    {
      "epoch": 1.3448405253283302,
      "grad_norm": 0.3851640820503235,
      "learning_rate": 0.002828,
      "loss": 2.4168,
      "step": 17920
    },
    {
      "epoch": 1.3496435272045029,
      "grad_norm": 0.36147060990333557,
      "learning_rate": 0.002828,
      "loss": 2.4085,
      "step": 17984
    },
    {
      "epoch": 1.3544465290806755,
      "grad_norm": 0.42050638794898987,
      "learning_rate": 0.002828,
      "loss": 2.4121,
      "step": 18048
    },
    {
      "epoch": 1.359249530956848,
      "grad_norm": 0.3830699920654297,
      "learning_rate": 0.002828,
      "loss": 2.4095,
      "step": 18112
    },
    {
      "epoch": 1.3640525328330206,
      "grad_norm": 0.3830968737602234,
      "learning_rate": 0.002828,
      "loss": 2.4077,
      "step": 18176
    },
    {
      "epoch": 1.3688555347091933,
      "grad_norm": 0.3880060017108917,
      "learning_rate": 0.002828,
      "loss": 2.4124,
      "step": 18240
    },
    {
      "epoch": 1.3736585365853657,
      "grad_norm": 0.45445796847343445,
      "learning_rate": 0.002828,
      "loss": 2.4014,
      "step": 18304
    },
    {
      "epoch": 1.3784615384615384,
      "grad_norm": 0.3750540316104889,
      "learning_rate": 0.002828,
      "loss": 2.4003,
      "step": 18368
    },
    {
      "epoch": 1.383264540337711,
      "grad_norm": 0.3783455193042755,
      "learning_rate": 0.002828,
      "loss": 2.3983,
      "step": 18432
    },
    {
      "epoch": 1.3880675422138837,
      "grad_norm": 0.40336528420448303,
      "learning_rate": 0.002828,
      "loss": 2.4105,
      "step": 18496
    },
    {
      "epoch": 1.3928705440900564,
      "grad_norm": 0.43220385909080505,
      "learning_rate": 0.002828,
      "loss": 2.4018,
      "step": 18560
    },
    {
      "epoch": 1.3976735459662288,
      "grad_norm": 0.4069630205631256,
      "learning_rate": 0.002828,
      "loss": 2.4049,
      "step": 18624
    },
    {
      "epoch": 1.4024765478424015,
      "grad_norm": 0.3866819441318512,
      "learning_rate": 0.002828,
      "loss": 2.3917,
      "step": 18688
    },
    {
      "epoch": 1.4072795497185742,
      "grad_norm": 0.3699668347835541,
      "learning_rate": 0.002828,
      "loss": 2.3908,
      "step": 18752
    },
    {
      "epoch": 1.4120825515947466,
      "grad_norm": 0.377645879983902,
      "learning_rate": 0.002828,
      "loss": 2.3957,
      "step": 18816
    },
    {
      "epoch": 1.4168855534709193,
      "grad_norm": 0.36612892150878906,
      "learning_rate": 0.002828,
      "loss": 2.3973,
      "step": 18880
    },
    {
      "epoch": 1.421688555347092,
      "grad_norm": 0.385735422372818,
      "learning_rate": 0.002828,
      "loss": 2.3952,
      "step": 18944
    },
    {
      "epoch": 1.4264915572232646,
      "grad_norm": 0.4026818871498108,
      "learning_rate": 0.002828,
      "loss": 2.3908,
      "step": 19008
    },
    {
      "epoch": 1.4312945590994373,
      "grad_norm": 0.39212891459465027,
      "learning_rate": 0.002828,
      "loss": 2.3923,
      "step": 19072
    },
    {
      "epoch": 1.4360975609756097,
      "grad_norm": 0.43533411622047424,
      "learning_rate": 0.002828,
      "loss": 2.3918,
      "step": 19136
    },
    {
      "epoch": 1.4409005628517824,
      "grad_norm": 0.4136466383934021,
      "learning_rate": 0.002828,
      "loss": 2.3885,
      "step": 19200
    },
    {
      "epoch": 1.445703564727955,
      "grad_norm": 0.38349345326423645,
      "learning_rate": 0.002828,
      "loss": 2.3891,
      "step": 19264
    },
    {
      "epoch": 1.4505065666041275,
      "grad_norm": 0.42666760087013245,
      "learning_rate": 0.002828,
      "loss": 2.3725,
      "step": 19328
    },
    {
      "epoch": 1.4553095684803001,
      "grad_norm": 0.3926577866077423,
      "learning_rate": 0.002828,
      "loss": 2.3885,
      "step": 19392
    },
    {
      "epoch": 1.4601125703564728,
      "grad_norm": 0.3736414611339569,
      "learning_rate": 0.002828,
      "loss": 2.3855,
      "step": 19456
    },
    {
      "epoch": 1.4649155722326455,
      "grad_norm": 0.36343908309936523,
      "learning_rate": 0.002828,
      "loss": 2.3773,
      "step": 19520
    },
    {
      "epoch": 1.4697185741088181,
      "grad_norm": 0.380211740732193,
      "learning_rate": 0.002828,
      "loss": 2.3809,
      "step": 19584
    },
    {
      "epoch": 1.4745215759849906,
      "grad_norm": 0.40481454133987427,
      "learning_rate": 0.002828,
      "loss": 2.375,
      "step": 19648
    },
    {
      "epoch": 1.4793245778611632,
      "grad_norm": 0.45368635654449463,
      "learning_rate": 0.002828,
      "loss": 2.3707,
      "step": 19712
    },
    {
      "epoch": 1.484127579737336,
      "grad_norm": 0.4029395580291748,
      "learning_rate": 0.002828,
      "loss": 2.3733,
      "step": 19776
    },
    {
      "epoch": 1.4889305816135083,
      "grad_norm": 0.3748946785926819,
      "learning_rate": 0.002828,
      "loss": 2.3739,
      "step": 19840
    },
    {
      "epoch": 1.493733583489681,
      "grad_norm": 0.36640551686286926,
      "learning_rate": 0.002828,
      "loss": 2.3652,
      "step": 19904
    },
    {
      "epoch": 1.4985365853658537,
      "grad_norm": 0.4150533676147461,
      "learning_rate": 0.002828,
      "loss": 2.3709,
      "step": 19968
    },
    {
      "epoch": 1.5033395872420263,
      "grad_norm": 0.49730879068374634,
      "learning_rate": 0.002828,
      "loss": 2.3668,
      "step": 20032
    },
    {
      "epoch": 1.508142589118199,
      "grad_norm": 0.37675461173057556,
      "learning_rate": 0.002828,
      "loss": 2.3695,
      "step": 20096
    },
    {
      "epoch": 1.5129455909943714,
      "grad_norm": 0.3647516965866089,
      "learning_rate": 0.002828,
      "loss": 2.3733,
      "step": 20160
    },
    {
      "epoch": 1.517748592870544,
      "grad_norm": 1.2981253862380981,
      "learning_rate": 0.002828,
      "loss": 2.369,
      "step": 20224
    },
    {
      "epoch": 1.5225515947467168,
      "grad_norm": 0.5044511556625366,
      "learning_rate": 0.002828,
      "loss": 2.3578,
      "step": 20288
    },
    {
      "epoch": 1.5273545966228892,
      "grad_norm": 0.3651883006095886,
      "learning_rate": 0.002828,
      "loss": 2.3601,
      "step": 20352
    },
    {
      "epoch": 1.532157598499062,
      "grad_norm": 0.4419403076171875,
      "learning_rate": 0.002828,
      "loss": 2.3607,
      "step": 20416
    },
    {
      "epoch": 1.5369606003752345,
      "grad_norm": 0.38631224632263184,
      "learning_rate": 0.002828,
      "loss": 2.3619,
      "step": 20480
    },
    {
      "epoch": 1.5417636022514072,
      "grad_norm": 0.34725359082221985,
      "learning_rate": 0.002828,
      "loss": 2.3573,
      "step": 20544
    },
    {
      "epoch": 1.5465666041275798,
      "grad_norm": 0.3991786241531372,
      "learning_rate": 0.002828,
      "loss": 2.357,
      "step": 20608
    },
    {
      "epoch": 1.5513696060037523,
      "grad_norm": 0.3595084846019745,
      "learning_rate": 0.002828,
      "loss": 2.357,
      "step": 20672
    },
    {
      "epoch": 1.556172607879925,
      "grad_norm": 0.4021853804588318,
      "learning_rate": 0.002828,
      "loss": 2.3537,
      "step": 20736
    },
    {
      "epoch": 1.5609756097560976,
      "grad_norm": 0.3939075767993927,
      "learning_rate": 0.002828,
      "loss": 2.3594,
      "step": 20800
    },
    {
      "epoch": 1.56577861163227,
      "grad_norm": 0.3889540135860443,
      "learning_rate": 0.002828,
      "loss": 2.3573,
      "step": 20864
    },
    {
      "epoch": 1.570581613508443,
      "grad_norm": 0.41366517543792725,
      "learning_rate": 0.002828,
      "loss": 2.3442,
      "step": 20928
    },
    {
      "epoch": 1.5753846153846154,
      "grad_norm": 0.37127187848091125,
      "learning_rate": 0.002828,
      "loss": 2.3457,
      "step": 20992
    },
    {
      "epoch": 1.580187617260788,
      "grad_norm": 0.4014946520328522,
      "learning_rate": 0.002828,
      "loss": 2.3457,
      "step": 21056
    },
    {
      "epoch": 1.5849906191369607,
      "grad_norm": 0.35794708132743835,
      "learning_rate": 0.002828,
      "loss": 2.3508,
      "step": 21120
    },
    {
      "epoch": 1.5897936210131332,
      "grad_norm": 0.3924767076969147,
      "learning_rate": 0.002828,
      "loss": 2.3451,
      "step": 21184
    },
    {
      "epoch": 1.5945966228893058,
      "grad_norm": 0.34789031744003296,
      "learning_rate": 0.002828,
      "loss": 2.3444,
      "step": 21248
    },
    {
      "epoch": 1.5993996247654785,
      "grad_norm": 0.37461933493614197,
      "learning_rate": 0.002828,
      "loss": 2.3385,
      "step": 21312
    },
    {
      "epoch": 1.604202626641651,
      "grad_norm": 0.40146076679229736,
      "learning_rate": 0.002828,
      "loss": 2.3406,
      "step": 21376
    },
    {
      "epoch": 1.6090056285178238,
      "grad_norm": 0.4080921411514282,
      "learning_rate": 0.002828,
      "loss": 2.3423,
      "step": 21440
    },
    {
      "epoch": 1.6138086303939962,
      "grad_norm": 0.40802744030952454,
      "learning_rate": 0.002828,
      "loss": 2.3377,
      "step": 21504
    },
    {
      "epoch": 1.618611632270169,
      "grad_norm": 0.420188307762146,
      "learning_rate": 0.002828,
      "loss": 2.3399,
      "step": 21568
    },
    {
      "epoch": 1.6234146341463416,
      "grad_norm": 0.40739214420318604,
      "learning_rate": 0.002828,
      "loss": 2.34,
      "step": 21632
    },
    {
      "epoch": 1.628217636022514,
      "grad_norm": 0.41674676537513733,
      "learning_rate": 0.002828,
      "loss": 2.3326,
      "step": 21696
    },
    {
      "epoch": 1.6330206378986867,
      "grad_norm": 0.41856762766838074,
      "learning_rate": 0.002828,
      "loss": 2.3366,
      "step": 21760
    },
    {
      "epoch": 1.6378236397748593,
      "grad_norm": 0.39763346314430237,
      "learning_rate": 0.002828,
      "loss": 2.3339,
      "step": 21824
    },
    {
      "epoch": 1.6426266416510318,
      "grad_norm": 0.3777034282684326,
      "learning_rate": 0.002828,
      "loss": 2.343,
      "step": 21888
    },
    {
      "epoch": 1.6474296435272047,
      "grad_norm": 0.3617188036441803,
      "learning_rate": 0.002828,
      "loss": 2.3341,
      "step": 21952
    },
    {
      "epoch": 1.652232645403377,
      "grad_norm": 0.4504718482494354,
      "learning_rate": 0.002828,
      "loss": 2.3295,
      "step": 22016
    },
    {
      "epoch": 1.6570356472795498,
      "grad_norm": 0.37388357520103455,
      "learning_rate": 0.002828,
      "loss": 2.3408,
      "step": 22080
    },
    {
      "epoch": 1.6618386491557224,
      "grad_norm": 0.3807313144207001,
      "learning_rate": 0.002828,
      "loss": 2.3249,
      "step": 22144
    },
    {
      "epoch": 1.6666416510318949,
      "grad_norm": 0.4428509771823883,
      "learning_rate": 0.002828,
      "loss": 2.3347,
      "step": 22208
    },
    {
      "epoch": 1.6714446529080675,
      "grad_norm": 0.39028382301330566,
      "learning_rate": 0.002828,
      "loss": 2.336,
      "step": 22272
    },
    {
      "epoch": 1.6762476547842402,
      "grad_norm": 0.482424259185791,
      "learning_rate": 0.002828,
      "loss": 2.3212,
      "step": 22336
    },
    {
      "epoch": 1.6810506566604126,
      "grad_norm": 0.39801299571990967,
      "learning_rate": 0.002828,
      "loss": 2.314,
      "step": 22400
    },
    {
      "epoch": 1.6858536585365855,
      "grad_norm": 0.4351527988910675,
      "learning_rate": 0.002828,
      "loss": 2.3223,
      "step": 22464
    },
    {
      "epoch": 1.690656660412758,
      "grad_norm": 0.4509490430355072,
      "learning_rate": 0.002828,
      "loss": 2.3246,
      "step": 22528
    },
    {
      "epoch": 1.6954596622889306,
      "grad_norm": 0.35885152220726013,
      "learning_rate": 0.002828,
      "loss": 2.319,
      "step": 22592
    },
    {
      "epoch": 1.7002626641651033,
      "grad_norm": 0.4146900177001953,
      "learning_rate": 0.002828,
      "loss": 2.3214,
      "step": 22656
    },
    {
      "epoch": 1.7050656660412757,
      "grad_norm": 0.40194573998451233,
      "learning_rate": 0.002828,
      "loss": 2.322,
      "step": 22720
    },
    {
      "epoch": 1.7098686679174484,
      "grad_norm": 0.43570390343666077,
      "learning_rate": 0.002828,
      "loss": 2.3241,
      "step": 22784
    },
    {
      "epoch": 1.714671669793621,
      "grad_norm": 0.35558512806892395,
      "learning_rate": 0.002828,
      "loss": 2.3193,
      "step": 22848
    },
    {
      "epoch": 1.7194746716697935,
      "grad_norm": 0.3700902760028839,
      "learning_rate": 0.002828,
      "loss": 2.3219,
      "step": 22912
    },
    {
      "epoch": 1.7242776735459664,
      "grad_norm": 0.4287453591823578,
      "learning_rate": 0.002828,
      "loss": 2.3078,
      "step": 22976
    },
    {
      "epoch": 1.7290806754221388,
      "grad_norm": 0.41843536496162415,
      "learning_rate": 0.002828,
      "loss": 2.3103,
      "step": 23040
    },
    {
      "epoch": 1.7338836772983115,
      "grad_norm": 0.3938317596912384,
      "learning_rate": 0.002828,
      "loss": 2.3176,
      "step": 23104
    },
    {
      "epoch": 1.7386866791744842,
      "grad_norm": 0.44625958800315857,
      "learning_rate": 0.002828,
      "loss": 2.307,
      "step": 23168
    },
    {
      "epoch": 1.7434896810506566,
      "grad_norm": 0.4598078727722168,
      "learning_rate": 0.002828,
      "loss": 2.2958,
      "step": 23232
    },
    {
      "epoch": 1.7482926829268293,
      "grad_norm": 0.4126788377761841,
      "learning_rate": 0.002828,
      "loss": 2.3094,
      "step": 23296
    },
    {
      "epoch": 1.753095684803002,
      "grad_norm": 0.3801914155483246,
      "learning_rate": 0.002828,
      "loss": 2.3048,
      "step": 23360
    },
    {
      "epoch": 1.7578986866791744,
      "grad_norm": 0.4619985818862915,
      "learning_rate": 0.002828,
      "loss": 2.3069,
      "step": 23424
    },
    {
      "epoch": 1.7627016885553473,
      "grad_norm": 0.4068593680858612,
      "learning_rate": 0.002828,
      "loss": 2.299,
      "step": 23488
    },
    {
      "epoch": 1.7675046904315197,
      "grad_norm": 0.36146870255470276,
      "learning_rate": 0.002828,
      "loss": 2.3042,
      "step": 23552
    },
    {
      "epoch": 1.7723076923076924,
      "grad_norm": 0.3995908200740814,
      "learning_rate": 0.002828,
      "loss": 2.3006,
      "step": 23616
    },
    {
      "epoch": 1.777110694183865,
      "grad_norm": 0.3970596492290497,
      "learning_rate": 0.002828,
      "loss": 2.313,
      "step": 23680
    },
    {
      "epoch": 1.7819136960600375,
      "grad_norm": 0.4287073612213135,
      "learning_rate": 0.002828,
      "loss": 2.2974,
      "step": 23744
    },
    {
      "epoch": 1.7867166979362101,
      "grad_norm": 0.41250482201576233,
      "learning_rate": 0.002828,
      "loss": 2.2937,
      "step": 23808
    },
    {
      "epoch": 1.7915196998123828,
      "grad_norm": 0.411668062210083,
      "learning_rate": 0.002828,
      "loss": 2.2994,
      "step": 23872
    },
    {
      "epoch": 1.7963227016885552,
      "grad_norm": 0.4834740459918976,
      "learning_rate": 0.002828,
      "loss": 2.2895,
      "step": 23936
    },
    {
      "epoch": 1.8011257035647281,
      "grad_norm": 0.3624022603034973,
      "learning_rate": 0.002828,
      "loss": 2.2888,
      "step": 24000
    },
    {
      "epoch": 1.8059287054409006,
      "grad_norm": 0.36700454354286194,
      "learning_rate": 0.002828,
      "loss": 2.2917,
      "step": 24064
    },
    {
      "epoch": 1.8107317073170732,
      "grad_norm": 0.3666454255580902,
      "learning_rate": 0.002828,
      "loss": 2.2896,
      "step": 24128
    },
    {
      "epoch": 1.8155347091932459,
      "grad_norm": 0.4110506474971771,
      "learning_rate": 0.002828,
      "loss": 2.2947,
      "step": 24192
    },
    {
      "epoch": 1.8203377110694183,
      "grad_norm": 0.3604464530944824,
      "learning_rate": 0.002828,
      "loss": 2.289,
      "step": 24256
    },
    {
      "epoch": 1.825140712945591,
      "grad_norm": 0.40807706117630005,
      "learning_rate": 0.002828,
      "loss": 2.288,
      "step": 24320
    },
    {
      "epoch": 1.8299437148217637,
      "grad_norm": 0.3632533848285675,
      "learning_rate": 0.002828,
      "loss": 2.29,
      "step": 24384
    },
    {
      "epoch": 1.834746716697936,
      "grad_norm": 0.38520562648773193,
      "learning_rate": 0.002828,
      "loss": 2.2805,
      "step": 24448
    },
    {
      "epoch": 1.839549718574109,
      "grad_norm": 0.4228810966014862,
      "learning_rate": 0.002828,
      "loss": 2.2842,
      "step": 24512
    },
    {
      "epoch": 1.8443527204502814,
      "grad_norm": 0.4542325735092163,
      "learning_rate": 0.002828,
      "loss": 2.2781,
      "step": 24576
    },
    {
      "epoch": 1.849155722326454,
      "grad_norm": 0.37316882610321045,
      "learning_rate": 0.002828,
      "loss": 2.2829,
      "step": 24640
    },
    {
      "epoch": 1.8539587242026268,
      "grad_norm": 0.5505624413490295,
      "learning_rate": 0.002828,
      "loss": 2.2942,
      "step": 24704
    },
    {
      "epoch": 1.8587617260787992,
      "grad_norm": 0.4269484281539917,
      "learning_rate": 0.002828,
      "loss": 2.2793,
      "step": 24768
    },
    {
      "epoch": 1.8635647279549719,
      "grad_norm": 0.407760888338089,
      "learning_rate": 0.002828,
      "loss": 2.2803,
      "step": 24832
    },
    {
      "epoch": 1.8683677298311445,
      "grad_norm": 0.4192192554473877,
      "learning_rate": 0.002828,
      "loss": 2.2818,
      "step": 24896
    },
    {
      "epoch": 1.873170731707317,
      "grad_norm": 0.3924838602542877,
      "learning_rate": 0.002828,
      "loss": 2.2757,
      "step": 24960
    },
    {
      "epoch": 1.8779737335834898,
      "grad_norm": 0.3799656629562378,
      "learning_rate": 0.002828,
      "loss": 2.2695,
      "step": 25024
    },
    {
      "epoch": 1.8827767354596623,
      "grad_norm": 0.40570494532585144,
      "learning_rate": 0.002828,
      "loss": 2.2801,
      "step": 25088
    },
    {
      "epoch": 1.887579737335835,
      "grad_norm": 0.3898228704929352,
      "learning_rate": 0.002828,
      "loss": 2.2709,
      "step": 25152
    },
    {
      "epoch": 1.8923827392120076,
      "grad_norm": 0.393216073513031,
      "learning_rate": 0.002828,
      "loss": 2.282,
      "step": 25216
    },
    {
      "epoch": 1.89718574108818,
      "grad_norm": 0.4247749149799347,
      "learning_rate": 0.002828,
      "loss": 2.2776,
      "step": 25280
    },
    {
      "epoch": 1.9019887429643527,
      "grad_norm": 0.4670035243034363,
      "learning_rate": 0.002828,
      "loss": 2.2754,
      "step": 25344
    },
    {
      "epoch": 1.9067917448405254,
      "grad_norm": 0.40336644649505615,
      "learning_rate": 0.002828,
      "loss": 2.2768,
      "step": 25408
    },
    {
      "epoch": 1.9115947467166978,
      "grad_norm": 0.48462921380996704,
      "learning_rate": 0.002828,
      "loss": 2.2634,
      "step": 25472
    },
    {
      "epoch": 1.9163977485928707,
      "grad_norm": 0.44047805666923523,
      "learning_rate": 0.002828,
      "loss": 2.2674,
      "step": 25536
    },
    {
      "epoch": 1.9212007504690432,
      "grad_norm": 0.4221409261226654,
      "learning_rate": 0.002828,
      "loss": 2.2724,
      "step": 25600
    },
    {
      "epoch": 1.9260037523452158,
      "grad_norm": 0.4272362291812897,
      "learning_rate": 0.002828,
      "loss": 2.2683,
      "step": 25664
    },
    {
      "epoch": 1.9308067542213885,
      "grad_norm": 0.4309645891189575,
      "learning_rate": 0.002828,
      "loss": 2.2612,
      "step": 25728
    },
    {
      "epoch": 1.935609756097561,
      "grad_norm": 0.4220867156982422,
      "learning_rate": 0.002828,
      "loss": 2.2665,
      "step": 25792
    },
    {
      "epoch": 1.9404127579737336,
      "grad_norm": 0.3765920102596283,
      "learning_rate": 0.002828,
      "loss": 2.2652,
      "step": 25856
    },
    {
      "epoch": 1.9452157598499062,
      "grad_norm": 0.44643986225128174,
      "learning_rate": 0.002828,
      "loss": 2.2627,
      "step": 25920
    },
    {
      "epoch": 1.9500187617260787,
      "grad_norm": 0.4022061824798584,
      "learning_rate": 0.002828,
      "loss": 2.2665,
      "step": 25984
    },
    {
      "epoch": 1.9548217636022516,
      "grad_norm": 0.3935778737068176,
      "learning_rate": 0.002828,
      "loss": 2.2585,
      "step": 26048
    },
    {
      "epoch": 1.959624765478424,
      "grad_norm": 0.3877500295639038,
      "learning_rate": 0.002828,
      "loss": 2.2629,
      "step": 26112
    },
    {
      "epoch": 1.9644277673545967,
      "grad_norm": 0.3891729712486267,
      "learning_rate": 0.002828,
      "loss": 2.2594,
      "step": 26176
    },
    {
      "epoch": 1.9692307692307693,
      "grad_norm": 0.3616099953651428,
      "learning_rate": 0.002828,
      "loss": 2.2601,
      "step": 26240
    },
    {
      "epoch": 1.9740337711069418,
      "grad_norm": 0.3855280578136444,
      "learning_rate": 0.002828,
      "loss": 2.2677,
      "step": 26304
    },
    {
      "epoch": 1.9788367729831144,
      "grad_norm": 0.44039493799209595,
      "learning_rate": 0.002828,
      "loss": 2.2641,
      "step": 26368
    },
    {
      "epoch": 1.983639774859287,
      "grad_norm": 0.37217262387275696,
      "learning_rate": 0.002828,
      "loss": 2.2603,
      "step": 26432
    },
    {
      "epoch": 1.9884427767354595,
      "grad_norm": 0.3942553997039795,
      "learning_rate": 0.002828,
      "loss": 2.2508,
      "step": 26496
    },
    {
      "epoch": 1.9932457786116324,
      "grad_norm": 0.3975297808647156,
      "learning_rate": 0.002828,
      "loss": 2.2466,
      "step": 26560
    },
    {
      "epoch": 1.9980487804878049,
      "grad_norm": 0.39197394251823425,
      "learning_rate": 0.002828,
      "loss": 2.2515,
      "step": 26624
    },
    {
      "epoch": 2.0028517823639773,
      "grad_norm": 0.38722801208496094,
      "learning_rate": 0.002828,
      "loss": 2.2354,
      "step": 26688
    },
    {
      "epoch": 2.00765478424015,
      "grad_norm": 0.38619640469551086,
      "learning_rate": 0.002828,
      "loss": 2.2152,
      "step": 26752
    },
    {
      "epoch": 2.0124577861163226,
      "grad_norm": 0.49529945850372314,
      "learning_rate": 0.002828,
      "loss": 2.2167,
      "step": 26816
    },
    {
      "epoch": 2.0172607879924955,
      "grad_norm": 0.4199656844139099,
      "learning_rate": 0.002828,
      "loss": 2.2092,
      "step": 26880
    },
    {
      "epoch": 2.022063789868668,
      "grad_norm": 0.45820868015289307,
      "learning_rate": 0.002828,
      "loss": 2.2249,
      "step": 26944
    },
    {
      "epoch": 2.0268667917448404,
      "grad_norm": 0.4006725251674652,
      "learning_rate": 0.002828,
      "loss": 2.2165,
      "step": 27008
    },
    {
      "epoch": 2.0316697936210133,
      "grad_norm": 0.4596467614173889,
      "learning_rate": 0.002828,
      "loss": 2.2154,
      "step": 27072
    },
    {
      "epoch": 2.0364727954971857,
      "grad_norm": 0.38660213351249695,
      "learning_rate": 0.002828,
      "loss": 2.2062,
      "step": 27136
    },
    {
      "epoch": 2.041275797373358,
      "grad_norm": 0.44082361459732056,
      "learning_rate": 0.002828,
      "loss": 2.2124,
      "step": 27200
    },
    {
      "epoch": 2.046078799249531,
      "grad_norm": 0.3886605203151703,
      "learning_rate": 0.002828,
      "loss": 2.2182,
      "step": 27264
    },
    {
      "epoch": 2.0508818011257035,
      "grad_norm": 0.41386017203330994,
      "learning_rate": 0.002828,
      "loss": 2.2168,
      "step": 27328
    },
    {
      "epoch": 2.055684803001876,
      "grad_norm": 0.411478191614151,
      "learning_rate": 0.002828,
      "loss": 2.2092,
      "step": 27392
    },
    {
      "epoch": 2.060487804878049,
      "grad_norm": 0.47288912534713745,
      "learning_rate": 0.002828,
      "loss": 2.21,
      "step": 27456
    },
    {
      "epoch": 2.0652908067542213,
      "grad_norm": 0.36384883522987366,
      "learning_rate": 0.002828,
      "loss": 2.2095,
      "step": 27520
    },
    {
      "epoch": 2.070093808630394,
      "grad_norm": 0.40636852383613586,
      "learning_rate": 0.002828,
      "loss": 2.2092,
      "step": 27584
    },
    {
      "epoch": 2.0748968105065666,
      "grad_norm": 0.4425170421600342,
      "learning_rate": 0.002828,
      "loss": 2.212,
      "step": 27648
    },
    {
      "epoch": 2.079699812382739,
      "grad_norm": 0.48468896746635437,
      "learning_rate": 0.002828,
      "loss": 2.2078,
      "step": 27712
    },
    {
      "epoch": 2.084502814258912,
      "grad_norm": 0.40420570969581604,
      "learning_rate": 0.002828,
      "loss": 2.2158,
      "step": 27776
    },
    {
      "epoch": 2.0893058161350844,
      "grad_norm": 0.44314709305763245,
      "learning_rate": 0.002828,
      "loss": 2.2121,
      "step": 27840
    },
    {
      "epoch": 2.0941088180112573,
      "grad_norm": 0.5187743306159973,
      "learning_rate": 0.002828,
      "loss": 2.2138,
      "step": 27904
    },
    {
      "epoch": 2.0989118198874297,
      "grad_norm": 0.4796048104763031,
      "learning_rate": 0.002828,
      "loss": 2.2027,
      "step": 27968
    },
    {
      "epoch": 2.103714821763602,
      "grad_norm": 0.43605130910873413,
      "learning_rate": 0.002828,
      "loss": 2.2029,
      "step": 28032
    },
    {
      "epoch": 2.108517823639775,
      "grad_norm": 0.4523628056049347,
      "learning_rate": 0.002828,
      "loss": 2.2038,
      "step": 28096
    },
    {
      "epoch": 2.1133208255159475,
      "grad_norm": 0.4183247983455658,
      "learning_rate": 0.002828,
      "loss": 2.2026,
      "step": 28160
    },
    {
      "epoch": 2.11812382739212,
      "grad_norm": 0.5113268494606018,
      "learning_rate": 0.002828,
      "loss": 2.1998,
      "step": 28224
    },
    {
      "epoch": 2.122926829268293,
      "grad_norm": 0.40837016701698303,
      "learning_rate": 0.002828,
      "loss": 2.2054,
      "step": 28288
    },
    {
      "epoch": 2.1277298311444652,
      "grad_norm": 0.40093889832496643,
      "learning_rate": 0.002828,
      "loss": 2.208,
      "step": 28352
    },
    {
      "epoch": 2.1325328330206377,
      "grad_norm": 0.3988894820213318,
      "learning_rate": 0.002828,
      "loss": 2.2028,
      "step": 28416
    },
    {
      "epoch": 2.1373358348968106,
      "grad_norm": 0.42024731636047363,
      "learning_rate": 0.002828,
      "loss": 2.1952,
      "step": 28480
    },
    {
      "epoch": 2.142138836772983,
      "grad_norm": 0.38691264390945435,
      "learning_rate": 0.002828,
      "loss": 2.2035,
      "step": 28544
    },
    {
      "epoch": 2.146941838649156,
      "grad_norm": 0.41956332325935364,
      "learning_rate": 0.002828,
      "loss": 2.196,
      "step": 28608
    },
    {
      "epoch": 2.1517448405253283,
      "grad_norm": 0.4035188555717468,
      "learning_rate": 0.002828,
      "loss": 2.2038,
      "step": 28672
    },
    {
      "epoch": 2.1565478424015008,
      "grad_norm": 0.35282230377197266,
      "learning_rate": 0.002828,
      "loss": 2.1835,
      "step": 28736
    },
    {
      "epoch": 2.1613508442776737,
      "grad_norm": 0.43618568778038025,
      "learning_rate": 0.002828,
      "loss": 2.1946,
      "step": 28800
    },
    {
      "epoch": 2.166153846153846,
      "grad_norm": 0.4310976564884186,
      "learning_rate": 0.002828,
      "loss": 2.1873,
      "step": 28864
    },
    {
      "epoch": 2.170956848030019,
      "grad_norm": 0.4475420415401459,
      "learning_rate": 0.002828,
      "loss": 2.1946,
      "step": 28928
    },
    {
      "epoch": 2.1757598499061914,
      "grad_norm": 0.4384845197200775,
      "learning_rate": 0.002828,
      "loss": 2.1935,
      "step": 28992
    },
    {
      "epoch": 2.180562851782364,
      "grad_norm": 0.40141811966896057,
      "learning_rate": 0.002828,
      "loss": 2.1925,
      "step": 29056
    },
    {
      "epoch": 2.1853658536585368,
      "grad_norm": 0.3754780888557434,
      "learning_rate": 0.002828,
      "loss": 2.19,
      "step": 29120
    },
    {
      "epoch": 2.190168855534709,
      "grad_norm": 0.40471306443214417,
      "learning_rate": 0.002828,
      "loss": 2.1915,
      "step": 29184
    },
    {
      "epoch": 2.1949718574108816,
      "grad_norm": 1.464024543762207,
      "learning_rate": 0.002828,
      "loss": 2.1909,
      "step": 29248
    },
    {
      "epoch": 2.1997748592870545,
      "grad_norm": 0.3818819522857666,
      "learning_rate": 0.002828,
      "loss": 2.1915,
      "step": 29312
    },
    {
      "epoch": 2.204577861163227,
      "grad_norm": 0.3688436448574066,
      "learning_rate": 0.002828,
      "loss": 2.184,
      "step": 29376
    },
    {
      "epoch": 2.2093808630393994,
      "grad_norm": 0.4367921054363251,
      "learning_rate": 0.002828,
      "loss": 2.185,
      "step": 29440
    },
    {
      "epoch": 2.2141838649155723,
      "grad_norm": 0.3566763401031494,
      "learning_rate": 0.002828,
      "loss": 2.1871,
      "step": 29504
    },
    {
      "epoch": 2.2189868667917447,
      "grad_norm": 0.4481133222579956,
      "learning_rate": 0.002828,
      "loss": 2.1826,
      "step": 29568
    },
    {
      "epoch": 2.2237898686679176,
      "grad_norm": 0.44622039794921875,
      "learning_rate": 0.002828,
      "loss": 2.1885,
      "step": 29632
    },
    {
      "epoch": 2.22859287054409,
      "grad_norm": 0.4857657253742218,
      "learning_rate": 0.002828,
      "loss": 2.1784,
      "step": 29696
    },
    {
      "epoch": 2.2333958724202625,
      "grad_norm": 0.41923773288726807,
      "learning_rate": 0.002828,
      "loss": 2.1807,
      "step": 29760
    },
    {
      "epoch": 2.2381988742964354,
      "grad_norm": 0.4176802933216095,
      "learning_rate": 0.002828,
      "loss": 2.1798,
      "step": 29824
    },
    {
      "epoch": 2.243001876172608,
      "grad_norm": 0.4086935520172119,
      "learning_rate": 0.002828,
      "loss": 2.1739,
      "step": 29888
    },
    {
      "epoch": 2.2478048780487807,
      "grad_norm": 0.40138566493988037,
      "learning_rate": 0.002828,
      "loss": 2.1857,
      "step": 29952
    },
    {
      "epoch": 2.252607879924953,
      "grad_norm": 0.393996000289917,
      "learning_rate": 0.002828,
      "loss": 2.1818,
      "step": 30016
    },
    {
      "epoch": 2.2574108818011256,
      "grad_norm": 0.3962005078792572,
      "learning_rate": 0.002828,
      "loss": 2.1724,
      "step": 30080
    },
    {
      "epoch": 2.2622138836772985,
      "grad_norm": 0.41648438572883606,
      "learning_rate": 0.002828,
      "loss": 2.1835,
      "step": 30144
    },
    {
      "epoch": 2.267016885553471,
      "grad_norm": 0.3810112774372101,
      "learning_rate": 0.002828,
      "loss": 2.1736,
      "step": 30208
    },
    {
      "epoch": 2.2718198874296434,
      "grad_norm": 0.4520975649356842,
      "learning_rate": 0.002828,
      "loss": 2.1793,
      "step": 30272
    },
    {
      "epoch": 2.2766228893058162,
      "grad_norm": 0.4406943917274475,
      "learning_rate": 0.002828,
      "loss": 2.1732,
      "step": 30336
    },
    {
      "epoch": 2.2814258911819887,
      "grad_norm": 0.4186633825302124,
      "learning_rate": 0.002828,
      "loss": 2.1774,
      "step": 30400
    }
  ],
  "logging_steps": 64,
  "max_steps": 333125,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 25,
  "save_steps": 320,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 5.993193875177472e+17,
  "train_batch_size": 200,
  "trial_name": null,
  "trial_params": null
}