{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.9968,
  "eval_steps": 500,
  "global_step": 780,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00256,
      "grad_norm": 9.365875273875238,
      "learning_rate": 1.25e-06,
      "loss": 1.3849,
      "step": 1
    },
    {
      "epoch": 0.00512,
      "grad_norm": 10.543859791920642,
      "learning_rate": 2.5e-06,
      "loss": 1.4809,
      "step": 2
    },
    {
      "epoch": 0.00768,
      "grad_norm": 8.02060315144952,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 1.3488,
      "step": 3
    },
    {
      "epoch": 0.01024,
      "grad_norm": 6.20091121600503,
      "learning_rate": 5e-06,
      "loss": 1.1901,
      "step": 4
    },
    {
      "epoch": 0.0128,
      "grad_norm": 5.164630784639751,
      "learning_rate": 6.25e-06,
      "loss": 1.1539,
      "step": 5
    },
    {
      "epoch": 0.01536,
      "grad_norm": 4.321523771840541,
      "learning_rate": 7.500000000000001e-06,
      "loss": 1.0821,
      "step": 6
    },
    {
      "epoch": 0.01792,
      "grad_norm": 3.931935241507329,
      "learning_rate": 8.750000000000001e-06,
      "loss": 0.9753,
      "step": 7
    },
    {
      "epoch": 0.02048,
      "grad_norm": 3.5793289410771827,
      "learning_rate": 1e-05,
      "loss": 0.9717,
      "step": 8
    },
    {
      "epoch": 0.02304,
      "grad_norm": 4.256516218362947,
      "learning_rate": 1.125e-05,
      "loss": 0.9383,
      "step": 9
    },
    {
      "epoch": 0.0256,
      "grad_norm": 4.063010311058102,
      "learning_rate": 1.25e-05,
      "loss": 1.0224,
      "step": 10
    },
    {
      "epoch": 0.02816,
      "grad_norm": 4.272978299264522,
      "learning_rate": 1.375e-05,
      "loss": 0.8981,
      "step": 11
    },
    {
      "epoch": 0.03072,
      "grad_norm": 3.75622481926478,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.9254,
      "step": 12
    },
    {
      "epoch": 0.03328,
      "grad_norm": 3.103766157100673,
      "learning_rate": 1.6250000000000002e-05,
      "loss": 0.839,
      "step": 13
    },
    {
      "epoch": 0.03584,
      "grad_norm": 3.0001871471139943,
      "learning_rate": 1.7500000000000002e-05,
      "loss": 0.8211,
      "step": 14
    },
    {
      "epoch": 0.0384,
      "grad_norm": 2.9538431919045105,
      "learning_rate": 1.8750000000000002e-05,
      "loss": 0.7587,
      "step": 15
    },
    {
      "epoch": 0.04096,
      "grad_norm": 3.1375029063705995,
      "learning_rate": 2e-05,
      "loss": 0.8149,
      "step": 16
    },
    {
      "epoch": 0.04352,
      "grad_norm": 3.086989542887256,
      "learning_rate": 1.9999915456072218e-05,
      "loss": 0.7836,
      "step": 17
    },
    {
      "epoch": 0.04608,
      "grad_norm": 3.0607437954707812,
      "learning_rate": 1.9999661825718408e-05,
      "loss": 0.8128,
      "step": 18
    },
    {
      "epoch": 0.04864,
      "grad_norm": 3.0400418762467196,
      "learning_rate": 1.9999239113227146e-05,
      "loss": 0.7667,
      "step": 19
    },
    {
      "epoch": 0.0512,
      "grad_norm": 2.82664678787635,
      "learning_rate": 1.9998647325745995e-05,
      "loss": 0.7523,
      "step": 20
    },
    {
      "epoch": 0.05376,
      "grad_norm": 2.8593372729121036,
      "learning_rate": 1.9997886473281355e-05,
      "loss": 0.7988,
      "step": 21
    },
    {
      "epoch": 0.05632,
      "grad_norm": 2.923977789288882,
      "learning_rate": 1.9996956568698325e-05,
      "loss": 0.7527,
      "step": 22
    },
    {
      "epoch": 0.05888,
      "grad_norm": 2.6178941828631337,
      "learning_rate": 1.9995857627720456e-05,
      "loss": 0.7438,
      "step": 23
    },
    {
      "epoch": 0.06144,
      "grad_norm": 2.5820149137237345,
      "learning_rate": 1.99945896689295e-05,
      "loss": 0.7248,
      "step": 24
    },
    {
      "epoch": 0.064,
      "grad_norm": 2.7301648737950224,
      "learning_rate": 1.9993152713765116e-05,
      "loss": 0.6776,
      "step": 25
    },
    {
      "epoch": 0.06656,
      "grad_norm": 2.5608433077601775,
      "learning_rate": 1.999154678652446e-05,
      "loss": 0.8218,
      "step": 26
    },
    {
      "epoch": 0.06912,
      "grad_norm": 3.0122091067319623,
      "learning_rate": 1.998977191436181e-05,
      "loss": 0.7429,
      "step": 27
    },
    {
      "epoch": 0.07168,
      "grad_norm": 2.5954170063820654,
      "learning_rate": 1.9987828127288105e-05,
      "loss": 0.6964,
      "step": 28
    },
    {
      "epoch": 0.07424,
      "grad_norm": 2.7446609447785004,
      "learning_rate": 1.998571545817042e-05,
      "loss": 0.7901,
      "step": 29
    },
    {
      "epoch": 0.0768,
      "grad_norm": 2.6357015498254794,
      "learning_rate": 1.9983433942731427e-05,
      "loss": 0.6802,
      "step": 30
    },
    {
      "epoch": 0.07936,
      "grad_norm": 3.0253927729854966,
      "learning_rate": 1.998098361954878e-05,
      "loss": 0.7918,
      "step": 31
    },
    {
      "epoch": 0.08192,
      "grad_norm": 2.729017093894504,
      "learning_rate": 1.9978364530054465e-05,
      "loss": 0.7565,
      "step": 32
    },
    {
      "epoch": 0.08448,
      "grad_norm": 2.551676529089632,
      "learning_rate": 1.9975576718534105e-05,
      "loss": 0.6984,
      "step": 33
    },
    {
      "epoch": 0.08704,
      "grad_norm": 2.375670501782899,
      "learning_rate": 1.9972620232126215e-05,
      "loss": 0.711,
      "step": 34
    },
    {
      "epoch": 0.0896,
      "grad_norm": 2.532366615420919,
      "learning_rate": 1.996949512082138e-05,
      "loss": 0.7398,
      "step": 35
    },
    {
      "epoch": 0.09216,
      "grad_norm": 2.531683530333962,
      "learning_rate": 1.996620143746144e-05,
      "loss": 0.7466,
      "step": 36
    },
    {
      "epoch": 0.09472,
      "grad_norm": 2.4816273494459598,
      "learning_rate": 1.9962739237738585e-05,
      "loss": 0.7701,
      "step": 37
    },
    {
      "epoch": 0.09728,
      "grad_norm": 2.5153024518723006,
      "learning_rate": 1.9959108580194403e-05,
      "loss": 0.765,
      "step": 38
    },
    {
      "epoch": 0.09984,
      "grad_norm": 2.2940292462059735,
      "learning_rate": 1.9955309526218903e-05,
      "loss": 0.7029,
      "step": 39
    },
    {
      "epoch": 0.1024,
      "grad_norm": 2.438121400214285,
      "learning_rate": 1.9951342140049483e-05,
      "loss": 0.7248,
      "step": 40
    },
    {
      "epoch": 0.10496,
      "grad_norm": 2.645240477077927,
      "learning_rate": 1.9947206488769812e-05,
      "loss": 0.7326,
      "step": 41
    },
    {
      "epoch": 0.10752,
      "grad_norm": 2.4038499208315445,
      "learning_rate": 1.9942902642308737e-05,
      "loss": 0.6941,
      "step": 42
    },
    {
      "epoch": 0.11008,
      "grad_norm": 2.5452147223708486,
      "learning_rate": 1.9938430673439075e-05,
      "loss": 0.7328,
      "step": 43
    },
    {
      "epoch": 0.11264,
      "grad_norm": 2.1971161649405815,
      "learning_rate": 1.993379065777639e-05,
      "loss": 0.6695,
      "step": 44
    },
    {
      "epoch": 0.1152,
      "grad_norm": 2.3455095751305945,
      "learning_rate": 1.9928982673777707e-05,
      "loss": 0.6808,
      "step": 45
    },
    {
      "epoch": 0.11776,
      "grad_norm": 2.205715323577842,
      "learning_rate": 1.9924006802740203e-05,
      "loss": 0.692,
      "step": 46
    },
    {
      "epoch": 0.12032,
      "grad_norm": 2.879359922240759,
      "learning_rate": 1.9918863128799805e-05,
      "loss": 0.7251,
      "step": 47
    },
    {
      "epoch": 0.12288,
      "grad_norm": 2.306572227959017,
      "learning_rate": 1.9913551738929803e-05,
      "loss": 0.734,
      "step": 48
    },
    {
      "epoch": 0.12544,
      "grad_norm": 3.010751503600904,
      "learning_rate": 1.9908072722939344e-05,
      "loss": 0.6667,
      "step": 49
    },
    {
      "epoch": 0.128,
      "grad_norm": 2.500047773905711,
      "learning_rate": 1.9902426173471933e-05,
      "loss": 0.7766,
      "step": 50
    },
    {
      "epoch": 0.13056,
      "grad_norm": 2.3211836211522945,
      "learning_rate": 1.9896612186003866e-05,
      "loss": 0.7355,
      "step": 51
    },
    {
      "epoch": 0.13312,
      "grad_norm": 2.1700803300583553,
      "learning_rate": 1.9890630858842614e-05,
      "loss": 0.6743,
      "step": 52
    },
    {
      "epoch": 0.13568,
      "grad_norm": 2.4572092973317416,
      "learning_rate": 1.988448229312515e-05,
      "loss": 0.6261,
      "step": 53
    },
    {
      "epoch": 0.13824,
      "grad_norm": 2.6489718279675167,
      "learning_rate": 1.9878166592816255e-05,
      "loss": 0.7783,
      "step": 54
    },
    {
      "epoch": 0.1408,
      "grad_norm": 1.9656310646192854,
      "learning_rate": 1.9871683864706752e-05,
      "loss": 0.6444,
      "step": 55
    },
    {
      "epoch": 0.14336,
      "grad_norm": 2.8772548921197374,
      "learning_rate": 1.9865034218411698e-05,
      "loss": 0.6984,
      "step": 56
    },
    {
      "epoch": 0.14592,
      "grad_norm": 2.2991328693562183,
      "learning_rate": 1.9858217766368538e-05,
      "loss": 0.7365,
      "step": 57
    },
    {
      "epoch": 0.14848,
      "grad_norm": 2.744151628806484,
      "learning_rate": 1.98512346238352e-05,
      "loss": 0.7668,
      "step": 58
    },
    {
      "epoch": 0.15104,
      "grad_norm": 2.126168797905977,
      "learning_rate": 1.984408490888814e-05,
      "loss": 0.6806,
      "step": 59
    },
    {
      "epoch": 0.1536,
      "grad_norm": 2.179164947113899,
      "learning_rate": 1.9836768742420355e-05,
      "loss": 0.7316,
      "step": 60
    },
    {
      "epoch": 0.15616,
      "grad_norm": 2.471943900346479,
      "learning_rate": 1.9829286248139334e-05,
      "loss": 0.8413,
      "step": 61
    },
    {
      "epoch": 0.15872,
      "grad_norm": 2.1155043013923898,
      "learning_rate": 1.9821637552564973e-05,
      "loss": 0.7118,
      "step": 62
    },
    {
      "epoch": 0.16128,
      "grad_norm": 2.511969558064074,
      "learning_rate": 1.9813822785027422e-05,
      "loss": 0.8131,
      "step": 63
    },
    {
      "epoch": 0.16384,
      "grad_norm": 2.967819167847234,
      "learning_rate": 1.9805842077664913e-05,
      "loss": 0.7301,
      "step": 64
    },
    {
      "epoch": 0.1664,
      "grad_norm": 2.8259470035066485,
      "learning_rate": 1.9797695565421507e-05,
      "loss": 0.7323,
      "step": 65
    },
    {
      "epoch": 0.16896,
      "grad_norm": 2.302591195035351,
      "learning_rate": 1.978938338604484e-05,
      "loss": 0.6715,
      "step": 66
    },
    {
      "epoch": 0.17152,
      "grad_norm": 2.3196544383121958,
      "learning_rate": 1.978090568008377e-05,
      "loss": 0.685,
      "step": 67
    },
    {
      "epoch": 0.17408,
      "grad_norm": 2.624524610568192,
      "learning_rate": 1.9772262590886006e-05,
      "loss": 0.6869,
      "step": 68
    },
    {
      "epoch": 0.17664,
      "grad_norm": 2.6543764757775006,
      "learning_rate": 1.9763454264595694e-05,
      "loss": 0.8062,
      "step": 69
    },
    {
      "epoch": 0.1792,
      "grad_norm": 2.434462493719978,
      "learning_rate": 1.975448085015093e-05,
      "loss": 0.727,
      "step": 70
    },
    {
      "epoch": 0.18176,
      "grad_norm": 4.222411149653797,
      "learning_rate": 1.9745342499281254e-05,
      "loss": 0.7087,
      "step": 71
    },
    {
      "epoch": 0.18432,
      "grad_norm": 2.1852577874422963,
      "learning_rate": 1.9736039366505087e-05,
      "loss": 0.6602,
      "step": 72
    },
    {
      "epoch": 0.18688,
      "grad_norm": 2.366328418247487,
      "learning_rate": 1.9726571609127097e-05,
      "loss": 0.7275,
      "step": 73
    },
    {
      "epoch": 0.18944,
      "grad_norm": 2.4876758296788193,
      "learning_rate": 1.9716939387235573e-05,
      "loss": 0.6976,
      "step": 74
    },
    {
      "epoch": 0.192,
      "grad_norm": 2.4805839086487382,
      "learning_rate": 1.9707142863699687e-05,
      "loss": 0.6665,
      "step": 75
    },
    {
      "epoch": 0.19456,
      "grad_norm": 2.427841997203471,
      "learning_rate": 1.969718220416675e-05,
      "loss": 0.6817,
      "step": 76
    },
    {
      "epoch": 0.19712,
      "grad_norm": 2.386419228571022,
      "learning_rate": 1.9687057577059422e-05,
      "loss": 0.7231,
      "step": 77
    },
    {
      "epoch": 0.19968,
      "grad_norm": 2.1832161777994394,
      "learning_rate": 1.9676769153572853e-05,
      "loss": 0.6697,
      "step": 78
    },
    {
      "epoch": 0.20224,
      "grad_norm": 1.913933923954127,
      "learning_rate": 1.966631710767178e-05,
      "loss": 0.6854,
      "step": 79
    },
    {
      "epoch": 0.2048,
      "grad_norm": 2.2129580021231066,
      "learning_rate": 1.965570161608762e-05,
      "loss": 0.6902,
      "step": 80
    },
    {
      "epoch": 0.20736,
      "grad_norm": 2.3913638942796283,
      "learning_rate": 1.9644922858315432e-05,
      "loss": 0.6949,
      "step": 81
    },
    {
      "epoch": 0.20992,
      "grad_norm": 2.523715832051759,
      "learning_rate": 1.9633981016610926e-05,
      "loss": 0.6668,
      "step": 82
    },
    {
      "epoch": 0.21248,
      "grad_norm": 2.6639369089204794,
      "learning_rate": 1.9622876275987355e-05,
      "loss": 0.7303,
      "step": 83
    },
    {
      "epoch": 0.21504,
      "grad_norm": 2.3755204875190827,
      "learning_rate": 1.9611608824212395e-05,
      "loss": 0.7113,
      "step": 84
    },
    {
      "epoch": 0.2176,
      "grad_norm": 2.252602926327337,
      "learning_rate": 1.9600178851804977e-05,
      "loss": 0.7382,
      "step": 85
    },
    {
      "epoch": 0.22016,
      "grad_norm": 2.2611177708517363,
      "learning_rate": 1.958858655203205e-05,
      "loss": 0.6784,
      "step": 86
    },
    {
      "epoch": 0.22272,
      "grad_norm": 2.3668773245432537,
      "learning_rate": 1.9576832120905323e-05,
      "loss": 0.7523,
      "step": 87
    },
    {
      "epoch": 0.22528,
      "grad_norm": 2.0990171366400414,
      "learning_rate": 1.9564915757177955e-05,
      "loss": 0.6191,
      "step": 88
    },
    {
      "epoch": 0.22784,
      "grad_norm": 2.1035732112703722,
      "learning_rate": 1.9552837662341182e-05,
      "loss": 0.6708,
      "step": 89
    },
    {
      "epoch": 0.2304,
      "grad_norm": 2.333412145423922,
      "learning_rate": 1.954059804062092e-05,
      "loss": 0.677,
      "step": 90
    },
    {
      "epoch": 0.23296,
      "grad_norm": 2.1825211355833405,
      "learning_rate": 1.952819709897431e-05,
      "loss": 0.6866,
      "step": 91
    },
    {
      "epoch": 0.23552,
      "grad_norm": 2.2533551325921866,
      "learning_rate": 1.951563504708622e-05,
      "loss": 0.5733,
      "step": 92
    },
    {
      "epoch": 0.23808,
      "grad_norm": 2.4138760679849174,
      "learning_rate": 1.9502912097365677e-05,
      "loss": 0.6838,
      "step": 93
    },
    {
      "epoch": 0.24064,
      "grad_norm": 2.7111028570055598,
      "learning_rate": 1.9490028464942322e-05,
      "loss": 0.6759,
      "step": 94
    },
    {
      "epoch": 0.2432,
      "grad_norm": 2.303650092378439,
      "learning_rate": 1.9476984367662724e-05,
      "loss": 0.6187,
      "step": 95
    },
    {
      "epoch": 0.24576,
      "grad_norm": 2.36652208711437,
      "learning_rate": 1.9463780026086735e-05,
      "loss": 0.7569,
      "step": 96
    },
    {
      "epoch": 0.24832,
      "grad_norm": 1.957291438435352,
      "learning_rate": 1.9450415663483734e-05,
      "loss": 0.6306,
      "step": 97
    },
    {
      "epoch": 0.25088,
      "grad_norm": 2.5876692343060443,
      "learning_rate": 1.9436891505828854e-05,
      "loss": 0.743,
      "step": 98
    },
    {
      "epoch": 0.25344,
      "grad_norm": 2.4337909184554642,
      "learning_rate": 1.9423207781799186e-05,
      "loss": 0.6156,
      "step": 99
    },
    {
      "epoch": 0.256,
      "grad_norm": 2.1443313808235698,
      "learning_rate": 1.9409364722769882e-05,
      "loss": 0.6749,
      "step": 100
    },
    {
      "epoch": 0.25856,
      "grad_norm": 2.542769952057182,
      "learning_rate": 1.939536256281026e-05,
      "loss": 0.7428,
      "step": 101
    },
    {
      "epoch": 0.26112,
      "grad_norm": 2.3379731947006865,
      "learning_rate": 1.938120153867983e-05,
      "loss": 0.7159,
      "step": 102
    },
    {
      "epoch": 0.26368,
      "grad_norm": 2.1808691357013954,
      "learning_rate": 1.936688188982433e-05,
      "loss": 0.7103,
      "step": 103
    },
    {
      "epoch": 0.26624,
      "grad_norm": 1.916729367685334,
      "learning_rate": 1.9352403858371618e-05,
      "loss": 0.6595,
      "step": 104
    },
    {
      "epoch": 0.2688,
      "grad_norm": 2.014231671417234,
      "learning_rate": 1.9337767689127628e-05,
      "loss": 0.6411,
      "step": 105
    },
    {
      "epoch": 0.27136,
      "grad_norm": 1.9129910147877291,
      "learning_rate": 1.9322973629572207e-05,
      "loss": 0.6819,
      "step": 106
    },
    {
      "epoch": 0.27392,
      "grad_norm": 2.077225498483606,
      "learning_rate": 1.9308021929854934e-05,
      "loss": 0.6587,
      "step": 107
    },
    {
      "epoch": 0.27648,
      "grad_norm": 2.0796212070981865,
      "learning_rate": 1.9292912842790893e-05,
      "loss": 0.7157,
      "step": 108
    },
    {
      "epoch": 0.27904,
      "grad_norm": 2.2161612611915147,
      "learning_rate": 1.92776466238564e-05,
      "loss": 0.6943,
      "step": 109
    },
    {
      "epoch": 0.2816,
      "grad_norm": 2.1549077684507396,
      "learning_rate": 1.9262223531184678e-05,
      "loss": 0.6259,
      "step": 110
    },
    {
      "epoch": 0.28416,
      "grad_norm": 2.0654699290261647,
      "learning_rate": 1.924664382556149e-05,
      "loss": 0.6057,
      "step": 111
    },
    {
      "epoch": 0.28672,
      "grad_norm": 2.142110152136122,
      "learning_rate": 1.9230907770420737e-05,
      "loss": 0.6625,
      "step": 112
    },
    {
      "epoch": 0.28928,
      "grad_norm": 1.9897544774269862,
      "learning_rate": 1.9215015631840005e-05,
      "loss": 0.6164,
      "step": 113
    },
    {
      "epoch": 0.29184,
      "grad_norm": 2.2587245433808594,
      "learning_rate": 1.9198967678536054e-05,
      "loss": 0.6616,
      "step": 114
    },
    {
      "epoch": 0.2944,
      "grad_norm": 2.342586021827016,
      "learning_rate": 1.918276418186028e-05,
      "loss": 0.6494,
      "step": 115
    },
    {
      "epoch": 0.29696,
      "grad_norm": 1.9302093197641312,
      "learning_rate": 1.916640541579415e-05,
      "loss": 0.65,
      "step": 116
    },
    {
      "epoch": 0.29952,
      "grad_norm": 2.115112025916886,
      "learning_rate": 1.9149891656944513e-05,
      "loss": 0.6374,
      "step": 117
    },
    {
      "epoch": 0.30208,
      "grad_norm": 2.1565182972269032,
      "learning_rate": 1.913322318453899e-05,
      "loss": 0.699,
      "step": 118
    },
    {
      "epoch": 0.30464,
      "grad_norm": 2.11350736146981,
      "learning_rate": 1.9116400280421196e-05,
      "loss": 0.6088,
      "step": 119
    },
    {
      "epoch": 0.3072,
      "grad_norm": 2.344994034519172,
      "learning_rate": 1.9099423229046015e-05,
      "loss": 0.752,
      "step": 120
    },
    {
      "epoch": 0.30976,
      "grad_norm": 2.093068646948046,
      "learning_rate": 1.9082292317474766e-05,
      "loss": 0.6185,
      "step": 121
    },
    {
      "epoch": 0.31232,
      "grad_norm": 2.316319871123848,
      "learning_rate": 1.9065007835370358e-05,
      "loss": 0.7374,
      "step": 122
    },
    {
      "epoch": 0.31488,
      "grad_norm": 2.096344829293569,
      "learning_rate": 1.90475700749924e-05,
      "loss": 0.672,
      "step": 123
    },
    {
      "epoch": 0.31744,
      "grad_norm": 2.5526545007602235,
      "learning_rate": 1.902997933119223e-05,
      "loss": 0.7168,
      "step": 124
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.234512228398607,
      "learning_rate": 1.9012235901407976e-05,
      "loss": 0.6724,
      "step": 125
    },
    {
      "epoch": 0.32256,
      "grad_norm": 2.221990498534791,
      "learning_rate": 1.8994340085659474e-05,
      "loss": 0.6165,
      "step": 126
    },
    {
      "epoch": 0.32512,
      "grad_norm": 2.1511357630477526,
      "learning_rate": 1.897629218654325e-05,
      "loss": 0.6733,
      "step": 127
    },
    {
      "epoch": 0.32768,
      "grad_norm": 2.122487155014188,
      "learning_rate": 1.8958092509227347e-05,
      "loss": 0.6036,
      "step": 128
    },
    {
      "epoch": 0.33024,
      "grad_norm": 2.0229651456552924,
      "learning_rate": 1.8939741361446207e-05,
      "loss": 0.581,
      "step": 129
    },
    {
      "epoch": 0.3328,
      "grad_norm": 2.1911603701017226,
      "learning_rate": 1.8921239053495465e-05,
      "loss": 0.7016,
      "step": 130
    },
    {
      "epoch": 0.33536,
      "grad_norm": 2.0676857284142804,
      "learning_rate": 1.8902585898226663e-05,
      "loss": 0.6983,
      "step": 131
    },
    {
      "epoch": 0.33792,
      "grad_norm": 2.264571405087662,
      "learning_rate": 1.888378221104201e-05,
      "loss": 0.724,
      "step": 132
    },
    {
      "epoch": 0.34048,
      "grad_norm": 2.051720164060425,
      "learning_rate": 1.8864828309889022e-05,
      "loss": 0.6245,
      "step": 133
    },
    {
      "epoch": 0.34304,
      "grad_norm": 2.2288895604426116,
      "learning_rate": 1.8845724515255147e-05,
      "loss": 0.6611,
      "step": 134
    },
    {
      "epoch": 0.3456,
      "grad_norm": 2.008766119781776,
      "learning_rate": 1.8826471150162354e-05,
      "loss": 0.6202,
      "step": 135
    },
    {
      "epoch": 0.34816,
      "grad_norm": 2.4451017728151045,
      "learning_rate": 1.880706854016166e-05,
      "loss": 0.714,
      "step": 136
    },
    {
      "epoch": 0.35072,
      "grad_norm": 2.279883321646425,
      "learning_rate": 1.8787517013327642e-05,
      "loss": 0.6921,
      "step": 137
    },
    {
      "epoch": 0.35328,
      "grad_norm": 1.8819123586138218,
      "learning_rate": 1.876781690025287e-05,
      "loss": 0.6242,
      "step": 138
    },
    {
      "epoch": 0.35584,
      "grad_norm": 2.209480600689614,
      "learning_rate": 1.8747968534042333e-05,
      "loss": 0.685,
      "step": 139
    },
    {
      "epoch": 0.3584,
      "grad_norm": 2.25151039966994,
      "learning_rate": 1.87279722503078e-05,
      "loss": 0.6191,
      "step": 140
    },
    {
      "epoch": 0.36096,
      "grad_norm": 1.9964258482072739,
      "learning_rate": 1.8707828387162145e-05,
      "loss": 0.6209,
      "step": 141
    },
    {
      "epoch": 0.36352,
      "grad_norm": 2.06019337674458,
      "learning_rate": 1.8687537285213627e-05,
      "loss": 0.6007,
      "step": 142
    },
    {
      "epoch": 0.36608,
      "grad_norm": 2.2157618609318264,
      "learning_rate": 1.866709928756014e-05,
      "loss": 0.6939,
      "step": 143
    },
    {
      "epoch": 0.36864,
      "grad_norm": 2.0119018007709553,
      "learning_rate": 1.8646514739783404e-05,
      "loss": 0.6719,
      "step": 144
    },
    {
      "epoch": 0.3712,
      "grad_norm": 2.2377675426901287,
      "learning_rate": 1.8625783989943124e-05,
      "loss": 0.6735,
      "step": 145
    },
    {
      "epoch": 0.37376,
      "grad_norm": 1.8794121110318662,
      "learning_rate": 1.8604907388571097e-05,
      "loss": 0.6737,
      "step": 146
    },
    {
      "epoch": 0.37632,
      "grad_norm": 2.0370150523104704,
      "learning_rate": 1.8583885288665307e-05,
      "loss": 0.7013,
      "step": 147
    },
    {
      "epoch": 0.37888,
      "grad_norm": 2.0600475834352445,
      "learning_rate": 1.8562718045683933e-05,
      "loss": 0.6418,
      "step": 148
    },
    {
      "epoch": 0.38144,
      "grad_norm": 2.0885287172547096,
      "learning_rate": 1.854140601753934e-05,
      "loss": 0.6588,
      "step": 149
    },
    {
      "epoch": 0.384,
      "grad_norm": 2.1901572667391362,
      "learning_rate": 1.8519949564592047e-05,
      "loss": 0.6395,
      "step": 150
    },
    {
      "epoch": 0.38656,
      "grad_norm": 2.223773214792353,
      "learning_rate": 1.8498349049644614e-05,
      "loss": 0.7024,
      "step": 151
    },
    {
      "epoch": 0.38912,
      "grad_norm": 1.9602921943490395,
      "learning_rate": 1.8476604837935515e-05,
      "loss": 0.6104,
      "step": 152
    },
    {
      "epoch": 0.39168,
      "grad_norm": 1.7818478560580842,
      "learning_rate": 1.8454717297132966e-05,
      "loss": 0.6368,
      "step": 153
    },
    {
      "epoch": 0.39424,
      "grad_norm": 2.0816014287167466,
      "learning_rate": 1.8432686797328697e-05,
      "loss": 0.7267,
      "step": 154
    },
    {
      "epoch": 0.3968,
      "grad_norm": 2.0299850911079,
      "learning_rate": 1.8410513711031713e-05,
      "loss": 0.6158,
      "step": 155
    },
    {
      "epoch": 0.39936,
      "grad_norm": 1.7411644336765735,
      "learning_rate": 1.8388198413161962e-05,
      "loss": 0.5699,
      "step": 156
    },
    {
      "epoch": 0.40192,
      "grad_norm": 1.925361120184857,
      "learning_rate": 1.8365741281044046e-05,
      "loss": 0.6232,
      "step": 157
    },
    {
      "epoch": 0.40448,
      "grad_norm": 2.083962310552385,
      "learning_rate": 1.8343142694400784e-05,
      "loss": 0.6156,
      "step": 158
    },
    {
      "epoch": 0.40704,
      "grad_norm": 2.3609597131509945,
      "learning_rate": 1.8320403035346834e-05,
      "loss": 0.7054,
      "step": 159
    },
    {
      "epoch": 0.4096,
      "grad_norm": 2.060537565443389,
      "learning_rate": 1.829752268838222e-05,
      "loss": 0.6445,
      "step": 160
    },
    {
      "epoch": 0.41216,
      "grad_norm": 2.022152022387066,
      "learning_rate": 1.8274502040385814e-05,
      "loss": 0.5156,
      "step": 161
    },
    {
      "epoch": 0.41472,
      "grad_norm": 2.1533000714293022,
      "learning_rate": 1.8251341480608823e-05,
      "loss": 0.6786,
      "step": 162
    },
    {
      "epoch": 0.41728,
      "grad_norm": 2.221504339814079,
      "learning_rate": 1.8228041400668185e-05,
      "loss": 0.6856,
      "step": 163
    },
    {
      "epoch": 0.41984,
      "grad_norm": 2.123873387795693,
      "learning_rate": 1.8204602194539948e-05,
      "loss": 0.6883,
      "step": 164
    },
    {
      "epoch": 0.4224,
      "grad_norm": 1.9816040211257193,
      "learning_rate": 1.8181024258552633e-05,
      "loss": 0.651,
      "step": 165
    },
    {
      "epoch": 0.42496,
      "grad_norm": 1.9951719680446292,
      "learning_rate": 1.8157307991380496e-05,
      "loss": 0.63,
      "step": 166
    },
    {
      "epoch": 0.42752,
      "grad_norm": 1.8866496489390194,
      "learning_rate": 1.8133453794036816e-05,
      "loss": 0.5996,
      "step": 167
    },
    {
      "epoch": 0.43008,
      "grad_norm": 2.0782535399638924,
      "learning_rate": 1.81094620698671e-05,
      "loss": 0.68,
      "step": 168
    },
    {
      "epoch": 0.43264,
      "grad_norm": 2.015837845490803,
      "learning_rate": 1.8085333224542263e-05,
      "loss": 0.6587,
      "step": 169
    },
    {
      "epoch": 0.4352,
      "grad_norm": 1.9606661811078803,
      "learning_rate": 1.806106766605178e-05,
      "loss": 0.6543,
      "step": 170
    },
    {
      "epoch": 0.43776,
      "grad_norm": 2.0108460061760463,
      "learning_rate": 1.8036665804696777e-05,
      "loss": 0.7058,
      "step": 171
    },
    {
      "epoch": 0.44032,
      "grad_norm": 2.3760532048781773,
      "learning_rate": 1.8012128053083097e-05,
      "loss": 0.6896,
      "step": 172
    },
    {
      "epoch": 0.44288,
      "grad_norm": 2.068909616846273,
      "learning_rate": 1.798745482611431e-05,
      "loss": 0.6617,
      "step": 173
    },
    {
      "epoch": 0.44544,
      "grad_norm": 2.174520441881339,
      "learning_rate": 1.7962646540984733e-05,
      "loss": 0.6053,
      "step": 174
    },
    {
      "epoch": 0.448,
      "grad_norm": 1.8665524812908805,
      "learning_rate": 1.7937703617172326e-05,
      "loss": 0.5854,
      "step": 175
    },
    {
      "epoch": 0.45056,
      "grad_norm": 2.0307815923129144,
      "learning_rate": 1.7912626476431648e-05,
      "loss": 0.7031,
      "step": 176
    },
    {
      "epoch": 0.45312,
      "grad_norm": 2.3551765798842754,
      "learning_rate": 1.7887415542786694e-05,
      "loss": 0.6616,
      "step": 177
    },
    {
      "epoch": 0.45568,
      "grad_norm": 2.316754252058375,
      "learning_rate": 1.786207124252373e-05,
      "loss": 0.6539,
      "step": 178
    },
    {
      "epoch": 0.45824,
      "grad_norm": 1.8999783082061619,
      "learning_rate": 1.7836594004184097e-05,
      "loss": 0.6462,
      "step": 179
    },
    {
      "epoch": 0.4608,
      "grad_norm": 2.1452149051911142,
      "learning_rate": 1.7810984258556955e-05,
      "loss": 0.6678,
      "step": 180
    },
    {
      "epoch": 0.46336,
      "grad_norm": 1.8647430589477332,
      "learning_rate": 1.7785242438672002e-05,
      "loss": 0.654,
      "step": 181
    },
    {
      "epoch": 0.46592,
      "grad_norm": 2.1243120883953615,
      "learning_rate": 1.7759368979792145e-05,
      "loss": 0.6092,
      "step": 182
    },
    {
      "epoch": 0.46848,
      "grad_norm": 2.2473766249395015,
      "learning_rate": 1.773336431940616e-05,
      "loss": 0.6942,
      "step": 183
    },
    {
      "epoch": 0.47104,
      "grad_norm": 1.9868382907140005,
      "learning_rate": 1.770722889722126e-05,
      "loss": 0.6385,
      "step": 184
    },
    {
      "epoch": 0.4736,
      "grad_norm": 1.8495835605726167,
      "learning_rate": 1.7680963155155712e-05,
      "loss": 0.5967,
      "step": 185
    },
    {
      "epoch": 0.47616,
      "grad_norm": 2.012001328207229,
      "learning_rate": 1.76545675373313e-05,
      "loss": 0.5712,
      "step": 186
    },
    {
      "epoch": 0.47872,
      "grad_norm": 2.028400500138602,
      "learning_rate": 1.7628042490065877e-05,
      "loss": 0.6759,
      "step": 187
    },
    {
      "epoch": 0.48128,
      "grad_norm": 2.1686891556942474,
      "learning_rate": 1.760138846186577e-05,
      "loss": 0.6193,
      "step": 188
    },
    {
      "epoch": 0.48384,
      "grad_norm": 1.8958996376109047,
      "learning_rate": 1.7574605903418226e-05,
      "loss": 0.5843,
      "step": 189
    },
    {
      "epoch": 0.4864,
      "grad_norm": 1.8940614758684058,
      "learning_rate": 1.7547695267583794e-05,
      "loss": 0.5822,
      "step": 190
    },
    {
      "epoch": 0.48896,
      "grad_norm": 2.024651976413743,
      "learning_rate": 1.7520657009388634e-05,
      "loss": 0.6215,
      "step": 191
    },
    {
      "epoch": 0.49152,
      "grad_norm": 1.9418524552652976,
      "learning_rate": 1.749349158601686e-05,
      "loss": 0.5839,
      "step": 192
    },
    {
      "epoch": 0.49408,
      "grad_norm": 1.8295776930635907,
      "learning_rate": 1.7466199456802784e-05,
      "loss": 0.5904,
      "step": 193
    },
    {
      "epoch": 0.49664,
      "grad_norm": 1.797136193223393,
      "learning_rate": 1.743878108322318e-05,
      "loss": 0.526,
      "step": 194
    },
    {
      "epoch": 0.4992,
      "grad_norm": 2.2173879719468297,
      "learning_rate": 1.741123692888943e-05,
      "loss": 0.6384,
      "step": 195
    },
    {
      "epoch": 0.50176,
      "grad_norm": 1.9844216586253793,
      "learning_rate": 1.738356745953975e-05,
      "loss": 0.6999,
      "step": 196
    },
    {
      "epoch": 0.50432,
      "grad_norm": 2.0317553296200987,
      "learning_rate": 1.7355773143031247e-05,
      "loss": 0.6412,
      "step": 197
    },
    {
      "epoch": 0.50688,
      "grad_norm": 1.8020878757675494,
      "learning_rate": 1.7327854449332067e-05,
      "loss": 0.5577,
      "step": 198
    },
    {
      "epoch": 0.50944,
      "grad_norm": 2.1986751893306664,
      "learning_rate": 1.729981185051342e-05,
      "loss": 0.6713,
      "step": 199
    },
    {
      "epoch": 0.512,
      "grad_norm": 2.083058419584056,
      "learning_rate": 1.7271645820741586e-05,
      "loss": 0.6577,
      "step": 200
    },
    {
      "epoch": 0.51456,
      "grad_norm": 2.124603731918396,
      "learning_rate": 1.7243356836269928e-05,
      "loss": 0.6368,
      "step": 201
    },
    {
      "epoch": 0.51712,
      "grad_norm": 1.9258241573803725,
      "learning_rate": 1.7214945375430816e-05,
      "loss": 0.6209,
      "step": 202
    },
    {
      "epoch": 0.51968,
      "grad_norm": 2.005751012165097,
      "learning_rate": 1.718641191862755e-05,
      "loss": 0.6142,
      "step": 203
    },
    {
      "epoch": 0.52224,
      "grad_norm": 1.9212135746911165,
      "learning_rate": 1.715775694832623e-05,
      "loss": 0.5725,
      "step": 204
    },
    {
      "epoch": 0.5248,
      "grad_norm": 1.830132532496078,
      "learning_rate": 1.7128980949047607e-05,
      "loss": 0.5957,
      "step": 205
    },
    {
      "epoch": 0.52736,
      "grad_norm": 1.9564593565799755,
      "learning_rate": 1.7100084407358882e-05,
      "loss": 0.673,
      "step": 206
    },
    {
      "epoch": 0.52992,
      "grad_norm": 1.9307648613118853,
      "learning_rate": 1.7071067811865477e-05,
      "loss": 0.5983,
      "step": 207
    },
    {
      "epoch": 0.53248,
      "grad_norm": 2.2224928140736084,
      "learning_rate": 1.7041931653202788e-05,
      "loss": 0.6069,
      "step": 208
    },
    {
      "epoch": 0.53504,
      "grad_norm": 2.251661406658001,
      "learning_rate": 1.7012676424027873e-05,
      "loss": 0.6489,
      "step": 209
    },
    {
      "epoch": 0.5376,
      "grad_norm": 1.9038603600791324,
      "learning_rate": 1.6983302619011125e-05,
      "loss": 0.5801,
      "step": 210
    },
    {
      "epoch": 0.54016,
      "grad_norm": 1.8456987114605605,
      "learning_rate": 1.6953810734827917e-05,
      "loss": 0.5935,
      "step": 211
    },
    {
      "epoch": 0.54272,
      "grad_norm": 1.922915287325509,
      "learning_rate": 1.6924201270150194e-05,
      "loss": 0.5463,
      "step": 212
    },
    {
      "epoch": 0.54528,
      "grad_norm": 1.9097147283983678,
      "learning_rate": 1.6894474725638043e-05,
      "loss": 0.6044,
      "step": 213
    },
    {
      "epoch": 0.54784,
      "grad_norm": 2.102752688389468,
      "learning_rate": 1.686463160393123e-05,
      "loss": 0.67,
      "step": 214
    },
    {
      "epoch": 0.5504,
      "grad_norm": 1.9917213811536882,
      "learning_rate": 1.6834672409640705e-05,
      "loss": 0.6429,
      "step": 215
    },
    {
      "epoch": 0.55296,
      "grad_norm": 1.974969043991725,
      "learning_rate": 1.680459764934006e-05,
      "loss": 0.6335,
      "step": 216
    },
    {
      "epoch": 0.55552,
      "grad_norm": 2.196550392557438,
      "learning_rate": 1.677440783155696e-05,
      "loss": 0.6468,
      "step": 217
    },
    {
      "epoch": 0.55808,
      "grad_norm": 1.8154736707811576,
      "learning_rate": 1.6744103466764566e-05,
      "loss": 0.576,
      "step": 218
    },
    {
      "epoch": 0.56064,
      "grad_norm": 2.1050477732929633,
      "learning_rate": 1.671368506737288e-05,
      "loss": 0.6891,
      "step": 219
    },
    {
      "epoch": 0.5632,
      "grad_norm": 1.7992925292913355,
      "learning_rate": 1.6683153147720098e-05,
      "loss": 0.5747,
      "step": 220
    },
    {
      "epoch": 0.56576,
      "grad_norm": 1.8783520446755098,
      "learning_rate": 1.66525082240639e-05,
      "loss": 0.5986,
      "step": 221
    },
    {
      "epoch": 0.56832,
      "grad_norm": 1.9949767049473588,
      "learning_rate": 1.6621750814572728e-05,
      "loss": 0.5943,
      "step": 222
    },
    {
      "epoch": 0.57088,
      "grad_norm": 2.1034251822329537,
      "learning_rate": 1.6590881439317025e-05,
      "loss": 0.6973,
      "step": 223
    },
    {
      "epoch": 0.57344,
      "grad_norm": 1.9209578446003501,
      "learning_rate": 1.6559900620260435e-05,
      "loss": 0.6694,
      "step": 224
    },
    {
      "epoch": 0.576,
      "grad_norm": 1.9220786921566595,
      "learning_rate": 1.6528808881250986e-05,
      "loss": 0.6559,
      "step": 225
    },
    {
      "epoch": 0.57856,
      "grad_norm": 2.0292167831172225,
      "learning_rate": 1.6497606748012227e-05,
      "loss": 0.5997,
      "step": 226
    },
    {
      "epoch": 0.58112,
      "grad_norm": 2.113629211379267,
      "learning_rate": 1.646629474813433e-05,
      "loss": 0.6631,
      "step": 227
    },
    {
      "epoch": 0.58368,
      "grad_norm": 1.8495528915876476,
      "learning_rate": 1.64348734110652e-05,
      "loss": 0.6076,
      "step": 228
    },
    {
      "epoch": 0.58624,
      "grad_norm": 2.2273973566204304,
      "learning_rate": 1.6403343268101476e-05,
      "loss": 0.6892,
      "step": 229
    },
    {
      "epoch": 0.5888,
      "grad_norm": 2.18163885450235,
      "learning_rate": 1.6371704852379587e-05,
      "loss": 0.6187,
      "step": 230
    },
    {
      "epoch": 0.59136,
      "grad_norm": 1.7637267715802756,
      "learning_rate": 1.6339958698866716e-05,
      "loss": 0.5672,
      "step": 231
    },
    {
      "epoch": 0.59392,
      "grad_norm": 2.0590984564497234,
      "learning_rate": 1.6308105344351776e-05,
      "loss": 0.606,
      "step": 232
    },
    {
      "epoch": 0.59648,
      "grad_norm": 2.1250870681801692,
      "learning_rate": 1.6276145327436298e-05,
      "loss": 0.5996,
      "step": 233
    },
    {
      "epoch": 0.59904,
      "grad_norm": 1.8078047249763116,
      "learning_rate": 1.6244079188525358e-05,
      "loss": 0.5606,
      "step": 234
    },
    {
      "epoch": 0.6016,
      "grad_norm": 1.881044538945948,
      "learning_rate": 1.621190746981842e-05,
      "loss": 0.5877,
      "step": 235
    },
    {
      "epoch": 0.60416,
      "grad_norm": 1.92455732840866,
      "learning_rate": 1.617963071530018e-05,
      "loss": 0.5617,
      "step": 236
    },
    {
      "epoch": 0.60672,
      "grad_norm": 1.8832244455059177,
      "learning_rate": 1.6147249470731355e-05,
      "loss": 0.5666,
      "step": 237
    },
    {
      "epoch": 0.60928,
      "grad_norm": 2.082069857382887,
      "learning_rate": 1.6114764283639467e-05,
      "loss": 0.5915,
      "step": 238
    },
    {
      "epoch": 0.61184,
      "grad_norm": 2.001850994059788,
      "learning_rate": 1.608217570330958e-05,
      "loss": 0.6164,
      "step": 239
    },
    {
      "epoch": 0.6144,
      "grad_norm": 2.022238936162546,
      "learning_rate": 1.6049484280775012e-05,
      "loss": 0.5671,
      "step": 240
    },
    {
      "epoch": 0.61696,
      "grad_norm": 1.9972354860485817,
      "learning_rate": 1.601669056880801e-05,
      "loss": 0.5998,
      "step": 241
    },
    {
      "epoch": 0.61952,
      "grad_norm": 1.9148720082205921,
      "learning_rate": 1.598379512191042e-05,
      "loss": 0.5544,
      "step": 242
    },
    {
      "epoch": 0.62208,
      "grad_norm": 2.1123296116387644,
      "learning_rate": 1.5950798496304303e-05,
      "loss": 0.6324,
      "step": 243
    },
    {
      "epoch": 0.62464,
      "grad_norm": 2.093610037072655,
      "learning_rate": 1.591770124992252e-05,
      "loss": 0.6248,
      "step": 244
    },
    {
      "epoch": 0.6272,
      "grad_norm": 2.009063600874344,
      "learning_rate": 1.5884503942399314e-05,
      "loss": 0.537,
      "step": 245
    },
    {
      "epoch": 0.62976,
      "grad_norm": 2.0328862721575938,
      "learning_rate": 1.585120713506084e-05,
      "loss": 0.6311,
      "step": 246
    },
    {
      "epoch": 0.63232,
      "grad_norm": 1.797706266437,
      "learning_rate": 1.5817811390915676e-05,
      "loss": 0.6263,
      "step": 247
    },
    {
      "epoch": 0.63488,
      "grad_norm": 1.8701784871242504,
      "learning_rate": 1.5784317274645294e-05,
      "loss": 0.5819,
      "step": 248
    },
    {
      "epoch": 0.63744,
      "grad_norm": 1.8585542262348,
      "learning_rate": 1.575072535259452e-05,
      "loss": 0.5841,
      "step": 249
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.9058528200620377,
      "learning_rate": 1.571703619276197e-05,
      "loss": 0.5926,
      "step": 250
    },
    {
      "epoch": 0.64256,
      "grad_norm": 1.8283834697734105,
      "learning_rate": 1.5683250364790415e-05,
      "loss": 0.6193,
      "step": 251
    },
    {
      "epoch": 0.64512,
      "grad_norm": 2.0581163017398225,
      "learning_rate": 1.5649368439957182e-05,
      "loss": 0.6108,
      "step": 252
    },
    {
      "epoch": 0.64768,
      "grad_norm": 1.8346847863840565,
      "learning_rate": 1.5615390991164465e-05,
      "loss": 0.5812,
      "step": 253
    },
    {
      "epoch": 0.65024,
      "grad_norm": 1.9374483799503257,
      "learning_rate": 1.5581318592929665e-05,
      "loss": 0.5771,
      "step": 254
    },
    {
      "epoch": 0.6528,
      "grad_norm": 1.8804501132111215,
      "learning_rate": 1.5547151821375654e-05,
      "loss": 0.5901,
      "step": 255
    },
    {
      "epoch": 0.65536,
      "grad_norm": 1.6759367916217955,
      "learning_rate": 1.5512891254221046e-05,
      "loss": 0.5727,
      "step": 256
    },
    {
      "epoch": 0.65792,
      "grad_norm": 1.877781648410285,
      "learning_rate": 1.5478537470770425e-05,
      "loss": 0.5859,
      "step": 257
    },
    {
      "epoch": 0.66048,
      "grad_norm": 2.0006799639933384,
      "learning_rate": 1.5444091051904545e-05,
      "loss": 0.6468,
      "step": 258
    },
    {
      "epoch": 0.66304,
      "grad_norm": 1.8416628315812464,
      "learning_rate": 1.540955258007052e-05,
      "loss": 0.5418,
      "step": 259
    },
    {
      "epoch": 0.6656,
      "grad_norm": 1.8634187238978763,
      "learning_rate": 1.537492263927196e-05,
      "loss": 0.5494,
      "step": 260
    },
    {
      "epoch": 0.66816,
      "grad_norm": 1.9439207615090717,
      "learning_rate": 1.5340201815059116e-05,
      "loss": 0.5393,
      "step": 261
    },
    {
      "epoch": 0.67072,
      "grad_norm": 1.8477228376076562,
      "learning_rate": 1.5305390694518953e-05,
      "loss": 0.5406,
      "step": 262
    },
    {
      "epoch": 0.67328,
      "grad_norm": 2.071111010740906,
      "learning_rate": 1.5270489866265236e-05,
      "loss": 0.612,
      "step": 263
    },
    {
      "epoch": 0.67584,
      "grad_norm": 1.9934090221262504,
      "learning_rate": 1.52354999204286e-05,
      "loss": 0.5988,
      "step": 264
    },
    {
      "epoch": 0.6784,
      "grad_norm": 2.028728814629187,
      "learning_rate": 1.5200421448646525e-05,
      "loss": 0.5714,
      "step": 265
    },
    {
      "epoch": 0.68096,
      "grad_norm": 2.030984918895053,
      "learning_rate": 1.5165255044053373e-05,
      "loss": 0.5977,
      "step": 266
    },
    {
      "epoch": 0.68352,
      "grad_norm": 1.8548332091193185,
      "learning_rate": 1.5130001301270334e-05,
      "loss": 0.5617,
      "step": 267
    },
    {
      "epoch": 0.68608,
      "grad_norm": 1.8656760202026166,
      "learning_rate": 1.509466081639539e-05,
      "loss": 0.578,
      "step": 268
    },
    {
      "epoch": 0.68864,
      "grad_norm": 2.065217551069724,
      "learning_rate": 1.5059234186993217e-05,
      "loss": 0.6552,
      "step": 269
    },
    {
      "epoch": 0.6912,
      "grad_norm": 1.9936665359457852,
      "learning_rate": 1.5023722012085098e-05,
      "loss": 0.6026,
      "step": 270
    },
    {
      "epoch": 0.69376,
      "grad_norm": 1.7581904286308514,
      "learning_rate": 1.4988124892138782e-05,
      "loss": 0.5201,
      "step": 271
    },
    {
      "epoch": 0.69632,
      "grad_norm": 2.0162120027330284,
      "learning_rate": 1.4952443429058334e-05,
      "loss": 0.5915,
      "step": 272
    },
    {
      "epoch": 0.69888,
      "grad_norm": 2.0537671862981695,
      "learning_rate": 1.4916678226173966e-05,
      "loss": 0.5461,
      "step": 273
    },
    {
      "epoch": 0.70144,
      "grad_norm": 2.0260603366887295,
      "learning_rate": 1.4880829888231818e-05,
      "loss": 0.6289,
      "step": 274
    },
    {
      "epoch": 0.704,
      "grad_norm": 1.840168296016021,
      "learning_rate": 1.4844899021383756e-05,
      "loss": 0.5839,
      "step": 275
    },
    {
      "epoch": 0.70656,
      "grad_norm": 1.9912121443060273,
      "learning_rate": 1.4808886233177096e-05,
      "loss": 0.608,
      "step": 276
    },
    {
      "epoch": 0.70912,
      "grad_norm": 1.8192068126971754,
      "learning_rate": 1.4772792132544354e-05,
      "loss": 0.5602,
      "step": 277
    },
    {
      "epoch": 0.71168,
      "grad_norm": 1.8029322129897425,
      "learning_rate": 1.4736617329792942e-05,
      "loss": 0.604,
      "step": 278
    },
    {
      "epoch": 0.71424,
      "grad_norm": 1.9524417007781032,
      "learning_rate": 1.4700362436594834e-05,
      "loss": 0.5981,
      "step": 279
    },
    {
      "epoch": 0.7168,
      "grad_norm": 1.8084386702168436,
      "learning_rate": 1.4664028065976245e-05,
      "loss": 0.5817,
      "step": 280
    },
    {
      "epoch": 0.71936,
      "grad_norm": 2.1802877987514604,
      "learning_rate": 1.4627614832307261e-05,
      "loss": 0.6396,
      "step": 281
    },
    {
      "epoch": 0.72192,
      "grad_norm": 2.01749908189055,
      "learning_rate": 1.459112335129144e-05,
      "loss": 0.6185,
      "step": 282
    },
    {
      "epoch": 0.72448,
      "grad_norm": 2.038378021785889,
      "learning_rate": 1.4554554239955412e-05,
      "loss": 0.5979,
      "step": 283
    },
    {
      "epoch": 0.72704,
      "grad_norm": 1.9263728755541718,
      "learning_rate": 1.4517908116638433e-05,
      "loss": 0.5926,
      "step": 284
    },
    {
      "epoch": 0.7296,
      "grad_norm": 1.9574220263738664,
      "learning_rate": 1.4481185600981945e-05,
      "loss": 0.5807,
      "step": 285
    },
    {
      "epoch": 0.73216,
      "grad_norm": 1.9996955352260337,
      "learning_rate": 1.4444387313919092e-05,
      "loss": 0.603,
      "step": 286
    },
    {
      "epoch": 0.73472,
      "grad_norm": 1.9024141327391195,
      "learning_rate": 1.440751387766422e-05,
      "loss": 0.5523,
      "step": 287
    },
    {
      "epoch": 0.73728,
      "grad_norm": 1.793371820272698,
      "learning_rate": 1.437056591570235e-05,
      "loss": 0.5853,
      "step": 288
    },
    {
      "epoch": 0.73984,
      "grad_norm": 1.9581066893720518,
      "learning_rate": 1.4333544052778655e-05,
      "loss": 0.6131,
      "step": 289
    },
    {
      "epoch": 0.7424,
      "grad_norm": 1.8602904498846513,
      "learning_rate": 1.4296448914887866e-05,
      "loss": 0.5976,
      "step": 290
    },
    {
      "epoch": 0.74496,
      "grad_norm": 1.75407998573317,
      "learning_rate": 1.4259281129263727e-05,
      "loss": 0.527,
      "step": 291
    },
    {
      "epoch": 0.74752,
      "grad_norm": 1.9323066549675147,
      "learning_rate": 1.4222041324368347e-05,
      "loss": 0.6473,
      "step": 292
    },
    {
      "epoch": 0.75008,
      "grad_norm": 1.6313629921698742,
      "learning_rate": 1.4184730129881601e-05,
      "loss": 0.4679,
      "step": 293
    },
    {
      "epoch": 0.75264,
      "grad_norm": 1.8821039452506023,
      "learning_rate": 1.4147348176690479e-05,
      "loss": 0.596,
      "step": 294
    },
    {
      "epoch": 0.7552,
      "grad_norm": 2.0756598406983855,
      "learning_rate": 1.4109896096878408e-05,
      "loss": 0.6384,
      "step": 295
    },
    {
      "epoch": 0.75776,
      "grad_norm": 1.945088077779729,
      "learning_rate": 1.4072374523714577e-05,
      "loss": 0.5608,
      "step": 296
    },
    {
      "epoch": 0.76032,
      "grad_norm": 1.935435206680739,
      "learning_rate": 1.4034784091643218e-05,
      "loss": 0.5793,
      "step": 297
    },
    {
      "epoch": 0.76288,
      "grad_norm": 2.0773604638736485,
      "learning_rate": 1.399712543627289e-05,
      "loss": 0.6529,
      "step": 298
    },
    {
      "epoch": 0.76544,
      "grad_norm": 1.9163069194223226,
      "learning_rate": 1.3959399194365712e-05,
      "loss": 0.6056,
      "step": 299
    },
    {
      "epoch": 0.768,
      "grad_norm": 1.837037316584707,
      "learning_rate": 1.392160600382663e-05,
      "loss": 0.5853,
      "step": 300
    },
    {
      "epoch": 0.77056,
      "grad_norm": 2.0141541605155395,
      "learning_rate": 1.3883746503692587e-05,
      "loss": 0.5898,
      "step": 301
    },
    {
      "epoch": 0.77312,
      "grad_norm": 1.8576928552652707,
      "learning_rate": 1.3845821334121763e-05,
      "loss": 0.5624,
      "step": 302
    },
    {
      "epoch": 0.77568,
      "grad_norm": 1.9366964632674861,
      "learning_rate": 1.3807831136382706e-05,
      "loss": 0.6462,
      "step": 303
    },
    {
      "epoch": 0.77824,
      "grad_norm": 1.9953305945547755,
      "learning_rate": 1.3769776552843532e-05,
      "loss": 0.6181,
      "step": 304
    },
    {
      "epoch": 0.7808,
      "grad_norm": 1.9990027115873188,
      "learning_rate": 1.3731658226961031e-05,
      "loss": 0.6303,
      "step": 305
    },
    {
      "epoch": 0.78336,
      "grad_norm": 1.9858501691321515,
      "learning_rate": 1.3693476803269799e-05,
      "loss": 0.5916,
      "step": 306
    },
    {
      "epoch": 0.78592,
      "grad_norm": 1.9457879785437557,
      "learning_rate": 1.3655232927371342e-05,
      "loss": 0.5691,
      "step": 307
    },
    {
      "epoch": 0.78848,
      "grad_norm": 1.9025068512726264,
      "learning_rate": 1.3616927245923157e-05,
      "loss": 0.5378,
      "step": 308
    },
    {
      "epoch": 0.79104,
      "grad_norm": 1.9938161594081456,
      "learning_rate": 1.3578560406627798e-05,
      "loss": 0.6176,
      "step": 309
    },
    {
      "epoch": 0.7936,
      "grad_norm": 1.959851063997509,
      "learning_rate": 1.3540133058221927e-05,
      "loss": 0.6209,
      "step": 310
    },
    {
      "epoch": 0.79616,
      "grad_norm": 1.8935432838789927,
      "learning_rate": 1.3501645850465327e-05,
      "loss": 0.632,
      "step": 311
    },
    {
      "epoch": 0.79872,
      "grad_norm": 1.7611365587951862,
      "learning_rate": 1.346309943412995e-05,
      "loss": 0.5552,
      "step": 312
    },
    {
      "epoch": 0.80128,
      "grad_norm": 1.8949244476360045,
      "learning_rate": 1.342449446098888e-05,
      "loss": 0.6063,
      "step": 313
    },
    {
      "epoch": 0.80384,
      "grad_norm": 2.0195750845328395,
      "learning_rate": 1.3385831583805329e-05,
      "loss": 0.5886,
      "step": 314
    },
    {
      "epoch": 0.8064,
      "grad_norm": 1.8175701233229387,
      "learning_rate": 1.33471114563216e-05,
      "loss": 0.5937,
      "step": 315
    },
    {
      "epoch": 0.80896,
      "grad_norm": 2.1857335001832303,
      "learning_rate": 1.3308334733248019e-05,
      "loss": 0.6594,
      "step": 316
    },
    {
      "epoch": 0.81152,
      "grad_norm": 1.842277672202166,
      "learning_rate": 1.3269502070251885e-05,
      "loss": 0.5555,
      "step": 317
    },
    {
      "epoch": 0.81408,
      "grad_norm": 1.8495246423693503,
      "learning_rate": 1.323061412394637e-05,
      "loss": 0.6004,
      "step": 318
    },
    {
      "epoch": 0.81664,
      "grad_norm": 1.899465186771449,
      "learning_rate": 1.3191671551879418e-05,
      "loss": 0.5188,
      "step": 319
    },
    {
      "epoch": 0.8192,
      "grad_norm": 2.0205565271224635,
      "learning_rate": 1.3152675012522629e-05,
      "loss": 0.6318,
      "step": 320
    },
    {
      "epoch": 0.82176,
      "grad_norm": 1.9988122791104623,
      "learning_rate": 1.311362516526012e-05,
      "loss": 0.6078,
      "step": 321
    },
    {
      "epoch": 0.82432,
      "grad_norm": 1.7875368384493597,
      "learning_rate": 1.3074522670377392e-05,
      "loss": 0.5636,
      "step": 322
    },
    {
      "epoch": 0.82688,
      "grad_norm": 2.1123854748425894,
      "learning_rate": 1.3035368189050142e-05,
      "loss": 0.6282,
      "step": 323
    },
    {
      "epoch": 0.82944,
      "grad_norm": 2.0127085167163066,
      "learning_rate": 1.2996162383333097e-05,
      "loss": 0.5353,
      "step": 324
    },
    {
      "epoch": 0.832,
      "grad_norm": 1.9207019986925034,
      "learning_rate": 1.2956905916148821e-05,
      "loss": 0.5553,
      "step": 325
    },
    {
      "epoch": 0.83456,
      "grad_norm": 1.8938216896130815,
      "learning_rate": 1.2917599451276498e-05,
      "loss": 0.5619,
      "step": 326
    },
    {
      "epoch": 0.83712,
      "grad_norm": 1.8339307990942622,
      "learning_rate": 1.2878243653340714e-05,
      "loss": 0.5301,
      "step": 327
    },
    {
      "epoch": 0.83968,
      "grad_norm": 2.020673528812742,
      "learning_rate": 1.2838839187800218e-05,
      "loss": 0.5634,
      "step": 328
    },
    {
      "epoch": 0.84224,
      "grad_norm": 2.0042232597725422,
      "learning_rate": 1.2799386720936663e-05,
      "loss": 0.565,
      "step": 329
    },
    {
      "epoch": 0.8448,
      "grad_norm": 1.6440410966587669,
      "learning_rate": 1.2759886919843354e-05,
      "loss": 0.5487,
      "step": 330
    },
    {
      "epoch": 0.84736,
      "grad_norm": 2.033498045933394,
      "learning_rate": 1.2720340452413962e-05,
      "loss": 0.5313,
      "step": 331
    },
    {
      "epoch": 0.84992,
      "grad_norm": 1.9130851998572171,
      "learning_rate": 1.2680747987331215e-05,
      "loss": 0.5445,
      "step": 332
    },
    {
      "epoch": 0.85248,
      "grad_norm": 2.025171351176087,
      "learning_rate": 1.264111019405562e-05,
      "loss": 0.5699,
      "step": 333
    },
    {
      "epoch": 0.85504,
      "grad_norm": 1.9582047276900996,
      "learning_rate": 1.2601427742814123e-05,
      "loss": 0.5473,
      "step": 334
    },
    {
      "epoch": 0.8576,
      "grad_norm": 1.924176492111395,
      "learning_rate": 1.2561701304588782e-05,
      "loss": 0.5896,
      "step": 335
    },
    {
      "epoch": 0.86016,
      "grad_norm": 2.0844112285904823,
      "learning_rate": 1.2521931551105427e-05,
      "loss": 0.5678,
      "step": 336
    },
    {
      "epoch": 0.86272,
      "grad_norm": 1.9210828492706074,
      "learning_rate": 1.248211915482228e-05,
      "loss": 0.5465,
      "step": 337
    },
    {
      "epoch": 0.86528,
      "grad_norm": 1.9083499459646247,
      "learning_rate": 1.244226478891862e-05,
      "loss": 0.5568,
      "step": 338
    },
    {
      "epoch": 0.86784,
      "grad_norm": 1.763077087198924,
      "learning_rate": 1.2402369127283374e-05,
      "loss": 0.5632,
      "step": 339
    },
    {
      "epoch": 0.8704,
      "grad_norm": 1.838786657423739,
      "learning_rate": 1.2362432844503725e-05,
      "loss": 0.5387,
      "step": 340
    },
    {
      "epoch": 0.87296,
      "grad_norm": 1.8884385940297985,
      "learning_rate": 1.2322456615853718e-05,
      "loss": 0.6314,
      "step": 341
    },
    {
      "epoch": 0.87552,
      "grad_norm": 1.8950854441907627,
      "learning_rate": 1.2282441117282831e-05,
      "loss": 0.54,
      "step": 342
    },
    {
      "epoch": 0.87808,
      "grad_norm": 1.9183342023884988,
      "learning_rate": 1.224238702540454e-05,
      "loss": 0.5748,
      "step": 343
    },
    {
      "epoch": 0.88064,
      "grad_norm": 1.9998947291027693,
      "learning_rate": 1.2202295017484911e-05,
      "loss": 0.595,
      "step": 344
    },
    {
      "epoch": 0.8832,
      "grad_norm": 1.7690361873293163,
      "learning_rate": 1.2162165771431094e-05,
      "loss": 0.4816,
      "step": 345
    },
    {
      "epoch": 0.88576,
      "grad_norm": 1.8887292208556585,
      "learning_rate": 1.212199996577991e-05,
      "loss": 0.5548,
      "step": 346
    },
    {
      "epoch": 0.88832,
      "grad_norm": 1.9015638197509928,
      "learning_rate": 1.2081798279686354e-05,
      "loss": 0.5399,
      "step": 347
    },
    {
      "epoch": 0.89088,
      "grad_norm": 1.8797520886634111,
      "learning_rate": 1.2041561392912118e-05,
      "loss": 0.5652,
      "step": 348
    },
    {
      "epoch": 0.89344,
      "grad_norm": 1.692840000131321,
      "learning_rate": 1.2001289985814088e-05,
      "loss": 0.5431,
      "step": 349
    },
    {
      "epoch": 0.896,
      "grad_norm": 1.9518924556661963,
      "learning_rate": 1.1960984739332851e-05,
      "loss": 0.5328,
      "step": 350
    },
    {
      "epoch": 0.89856,
      "grad_norm": 1.9176530907572014,
      "learning_rate": 1.1920646334981176e-05,
      "loss": 0.5948,
      "step": 351
    },
    {
      "epoch": 0.90112,
      "grad_norm": 1.8600950416768505,
      "learning_rate": 1.1880275454832493e-05,
      "loss": 0.5214,
      "step": 352
    },
    {
      "epoch": 0.90368,
      "grad_norm": 2.0987333730497033,
      "learning_rate": 1.1839872781509358e-05,
      "loss": 0.6008,
      "step": 353
    },
    {
      "epoch": 0.90624,
      "grad_norm": 2.0052047615781157,
      "learning_rate": 1.1799438998171909e-05,
      "loss": 0.5804,
      "step": 354
    },
    {
      "epoch": 0.9088,
      "grad_norm": 1.9543922891858452,
      "learning_rate": 1.175897478850632e-05,
      "loss": 0.5801,
      "step": 355
    },
    {
      "epoch": 0.91136,
      "grad_norm": 1.9278210545847223,
      "learning_rate": 1.1718480836713228e-05,
      "loss": 0.5786,
      "step": 356
    },
    {
      "epoch": 0.91392,
      "grad_norm": 1.9169280603449947,
      "learning_rate": 1.1677957827496191e-05,
      "loss": 0.5683,
      "step": 357
    },
    {
      "epoch": 0.91648,
      "grad_norm": 1.9206761554005032,
      "learning_rate": 1.1637406446050072e-05,
      "loss": 0.5628,
      "step": 358
    },
    {
      "epoch": 0.91904,
      "grad_norm": 2.0320383330546714,
      "learning_rate": 1.1596827378049491e-05,
      "loss": 0.5568,
      "step": 359
    },
    {
      "epoch": 0.9216,
      "grad_norm": 2.011012460142978,
      "learning_rate": 1.1556221309637204e-05,
      "loss": 0.5911,
      "step": 360
    },
    {
      "epoch": 0.92416,
      "grad_norm": 1.6733867449703013,
      "learning_rate": 1.1515588927412509e-05,
      "loss": 0.4909,
      "step": 361
    },
    {
      "epoch": 0.92672,
      "grad_norm": 1.7160108869926338,
      "learning_rate": 1.147493091841965e-05,
      "loss": 0.4918,
      "step": 362
    },
    {
      "epoch": 0.92928,
      "grad_norm": 1.8248678379826555,
      "learning_rate": 1.1434247970136188e-05,
      "loss": 0.5299,
      "step": 363
    },
    {
      "epoch": 0.93184,
      "grad_norm": 1.8911031735554016,
      "learning_rate": 1.1393540770461358e-05,
      "loss": 0.622,
      "step": 364
    },
    {
      "epoch": 0.9344,
      "grad_norm": 1.6917252673616938,
      "learning_rate": 1.1352810007704476e-05,
      "loss": 0.5672,
      "step": 365
    },
    {
      "epoch": 0.93696,
      "grad_norm": 1.7652120249882262,
      "learning_rate": 1.1312056370573277e-05,
      "loss": 0.4876,
      "step": 366
    },
    {
      "epoch": 0.93952,
      "grad_norm": 1.912188345028055,
      "learning_rate": 1.127128054816227e-05,
      "loss": 0.5229,
      "step": 367
    },
    {
      "epoch": 0.94208,
      "grad_norm": 1.9268235049476894,
      "learning_rate": 1.1230483229941092e-05,
      "loss": 0.4969,
      "step": 368
    },
    {
      "epoch": 0.94464,
      "grad_norm": 1.7124716981838979,
      "learning_rate": 1.1189665105742846e-05,
      "loss": 0.4973,
      "step": 369
    },
    {
      "epoch": 0.9472,
      "grad_norm": 1.7639128606217356,
      "learning_rate": 1.1148826865752445e-05,
      "loss": 0.55,
      "step": 370
    },
    {
      "epoch": 0.94976,
      "grad_norm": 1.9598599864278292,
      "learning_rate": 1.1107969200494928e-05,
      "loss": 0.5607,
      "step": 371
    },
    {
      "epoch": 0.95232,
      "grad_norm": 1.8988749717432336,
      "learning_rate": 1.1067092800823798e-05,
      "loss": 0.5147,
      "step": 372
    },
    {
      "epoch": 0.95488,
      "grad_norm": 1.8154562117513298,
      "learning_rate": 1.1026198357909327e-05,
      "loss": 0.5039,
      "step": 373
    },
    {
      "epoch": 0.95744,
      "grad_norm": 1.7241766515805417,
      "learning_rate": 1.0985286563226887e-05,
      "loss": 0.5053,
      "step": 374
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.886751738203789,
      "learning_rate": 1.0944358108545236e-05,
      "loss": 0.5563,
      "step": 375
    },
    {
      "epoch": 0.96256,
      "grad_norm": 1.8887450413746818,
      "learning_rate": 1.0903413685914843e-05,
      "loss": 0.5866,
      "step": 376
    },
    {
      "epoch": 0.96512,
      "grad_norm": 1.8801523776322404,
      "learning_rate": 1.0862453987656162e-05,
      "loss": 0.573,
      "step": 377
    },
    {
      "epoch": 0.96768,
      "grad_norm": 1.8773940578406214,
      "learning_rate": 1.0821479706347953e-05,
      "loss": 0.4809,
      "step": 378
    },
    {
      "epoch": 0.97024,
      "grad_norm": 1.8407925735220598,
      "learning_rate": 1.0780491534815549e-05,
      "loss": 0.5471,
      "step": 379
    },
    {
      "epoch": 0.9728,
      "grad_norm": 2.144021305027399,
      "learning_rate": 1.0739490166119155e-05,
      "loss": 0.5732,
      "step": 380
    },
    {
      "epoch": 0.97536,
      "grad_norm": 1.8454174363471443,
      "learning_rate": 1.0698476293542124e-05,
      "loss": 0.5603,
      "step": 381
    },
    {
      "epoch": 0.97792,
      "grad_norm": 1.8272486716574172,
      "learning_rate": 1.0657450610579225e-05,
      "loss": 0.5493,
      "step": 382
    },
    {
      "epoch": 0.98048,
      "grad_norm": 1.8920692278670657,
      "learning_rate": 1.0616413810924937e-05,
      "loss": 0.5611,
      "step": 383
    },
    {
      "epoch": 0.98304,
      "grad_norm": 2.0131793545946626,
      "learning_rate": 1.057536658846171e-05,
      "loss": 0.5706,
      "step": 384
    },
    {
      "epoch": 0.9856,
      "grad_norm": 1.8744182336273665,
      "learning_rate": 1.053430963724822e-05,
      "loss": 0.5511,
      "step": 385
    },
    {
      "epoch": 0.98816,
      "grad_norm": 1.705985214182383,
      "learning_rate": 1.0493243651507654e-05,
      "loss": 0.4967,
      "step": 386
    },
    {
      "epoch": 0.99072,
      "grad_norm": 1.855409465319251,
      "learning_rate": 1.0452169325615956e-05,
      "loss": 0.5375,
      "step": 387
    },
    {
      "epoch": 0.99328,
      "grad_norm": 1.7606864394836728,
      "learning_rate": 1.04110873540901e-05,
      "loss": 0.52,
      "step": 388
    },
    {
      "epoch": 0.99584,
      "grad_norm": 1.8631155705703495,
      "learning_rate": 1.0369998431576328e-05,
      "loss": 0.6018,
      "step": 389
    },
    {
      "epoch": 0.9984,
      "grad_norm": 1.8541664181232975,
      "learning_rate": 1.0328903252838415e-05,
      "loss": 0.5396,
      "step": 390
    },
    {
      "epoch": 1.00096,
      "grad_norm": 1.5672351465494485,
      "learning_rate": 1.0287802512745935e-05,
      "loss": 0.3953,
      "step": 391
    },
    {
      "epoch": 1.00352,
      "grad_norm": 1.558195855755232,
      "learning_rate": 1.0246696906262484e-05,
      "loss": 0.3791,
      "step": 392
    },
    {
      "epoch": 1.00608,
      "grad_norm": 1.5431663246597491,
      "learning_rate": 1.0205587128433944e-05,
      "loss": 0.3558,
      "step": 393
    },
    {
      "epoch": 1.00864,
      "grad_norm": 1.445015635657179,
      "learning_rate": 1.016447387437674e-05,
      "loss": 0.3351,
      "step": 394
    },
    {
      "epoch": 1.0112,
      "grad_norm": 1.481573837422665,
      "learning_rate": 1.0123357839266066e-05,
      "loss": 0.3327,
      "step": 395
    },
    {
      "epoch": 1.01376,
      "grad_norm": 1.5392257435904235,
      "learning_rate": 1.0082239718324136e-05,
      "loss": 0.2687,
      "step": 396
    },
    {
      "epoch": 1.01632,
      "grad_norm": 1.4663853851401927,
      "learning_rate": 1.004112020680845e-05,
      "loss": 0.3138,
      "step": 397
    },
    {
      "epoch": 1.01888,
      "grad_norm": 1.650830842194171,
      "learning_rate": 1e-05,
      "loss": 0.3256,
      "step": 398
    },
    {
      "epoch": 1.02144,
      "grad_norm": 1.5814294192961373,
      "learning_rate": 9.958879793191553e-06,
      "loss": 0.3138,
      "step": 399
    },
    {
      "epoch": 1.024,
      "grad_norm": 1.6865522137000346,
      "learning_rate": 9.917760281675867e-06,
      "loss": 0.3153,
      "step": 400
    },
    {
      "epoch": 1.02656,
      "grad_norm": 1.7826957665836876,
      "learning_rate": 9.876642160733937e-06,
      "loss": 0.3152,
      "step": 401
    },
    {
      "epoch": 1.02912,
      "grad_norm": 1.7725840767006589,
      "learning_rate": 9.835526125623262e-06,
      "loss": 0.2928,
      "step": 402
    },
    {
      "epoch": 1.03168,
      "grad_norm": 1.8174709729145797,
      "learning_rate": 9.794412871566057e-06,
      "loss": 0.3079,
      "step": 403
    },
    {
      "epoch": 1.03424,
      "grad_norm": 2.005333790551581,
      "learning_rate": 9.753303093737518e-06,
      "loss": 0.3421,
      "step": 404
    },
    {
      "epoch": 1.0368,
      "grad_norm": 1.873929148570637,
      "learning_rate": 9.71219748725407e-06,
      "loss": 0.3364,
      "step": 405
    },
    {
      "epoch": 1.03936,
      "grad_norm": 1.5777934082692342,
      "learning_rate": 9.671096747161587e-06,
      "loss": 0.3168,
      "step": 406
    },
    {
      "epoch": 1.04192,
      "grad_norm": 1.6309016044222864,
      "learning_rate": 9.630001568423677e-06,
      "loss": 0.2704,
      "step": 407
    },
    {
      "epoch": 1.04448,
      "grad_norm": 1.7365095962411672,
      "learning_rate": 9.588912645909905e-06,
      "loss": 0.3153,
      "step": 408
    },
    {
      "epoch": 1.04704,
      "grad_norm": 1.7258342184967879,
      "learning_rate": 9.547830674384043e-06,
      "loss": 0.3018,
      "step": 409
    },
    {
      "epoch": 1.0496,
      "grad_norm": 1.6833772470314767,
      "learning_rate": 9.506756348492348e-06,
      "loss": 0.3026,
      "step": 410
    },
    {
      "epoch": 1.05216,
      "grad_norm": 1.813776064675088,
      "learning_rate": 9.465690362751781e-06,
      "loss": 0.3179,
      "step": 411
    },
    {
      "epoch": 1.05472,
      "grad_norm": 1.7975291601015548,
      "learning_rate": 9.424633411538289e-06,
      "loss": 0.3629,
      "step": 412
    },
    {
      "epoch": 1.05728,
      "grad_norm": 1.4794908417040535,
      "learning_rate": 9.383586189075065e-06,
      "loss": 0.3126,
      "step": 413
    },
    {
      "epoch": 1.05984,
      "grad_norm": 1.594883685807337,
      "learning_rate": 9.342549389420777e-06,
      "loss": 0.2997,
      "step": 414
    },
    {
      "epoch": 1.0624,
      "grad_norm": 1.4379937930102515,
      "learning_rate": 9.30152370645788e-06,
      "loss": 0.2796,
      "step": 415
    },
    {
      "epoch": 1.06496,
      "grad_norm": 1.772458848105549,
      "learning_rate": 9.260509833880848e-06,
      "loss": 0.3676,
      "step": 416
    },
    {
      "epoch": 1.06752,
      "grad_norm": 1.7331530871521117,
      "learning_rate": 9.21950846518445e-06,
      "loss": 0.2902,
      "step": 417
    },
    {
      "epoch": 1.07008,
      "grad_norm": 1.7622988238409705,
      "learning_rate": 9.17852029365205e-06,
      "loss": 0.2951,
      "step": 418
    },
    {
      "epoch": 1.07264,
      "grad_norm": 1.7162234337691245,
      "learning_rate": 9.13754601234384e-06,
      "loss": 0.3163,
      "step": 419
    },
    {
      "epoch": 1.0752,
      "grad_norm": 1.7337491899665072,
      "learning_rate": 9.096586314085162e-06,
      "loss": 0.3362,
      "step": 420
    },
    {
      "epoch": 1.07776,
      "grad_norm": 1.574010878864483,
      "learning_rate": 9.055641891454766e-06,
      "loss": 0.284,
      "step": 421
    },
    {
      "epoch": 1.08032,
      "grad_norm": 2.0248969916179123,
      "learning_rate": 9.014713436773114e-06,
      "loss": 0.3209,
      "step": 422
    },
    {
      "epoch": 1.08288,
      "grad_norm": 1.6901116986132412,
      "learning_rate": 8.973801642090674e-06,
      "loss": 0.3283,
      "step": 423
    },
    {
      "epoch": 1.08544,
      "grad_norm": 1.8279240135161061,
      "learning_rate": 8.932907199176206e-06,
      "loss": 0.2894,
      "step": 424
    },
    {
      "epoch": 1.088,
      "grad_norm": 1.6523113744718456,
      "learning_rate": 8.892030799505072e-06,
      "loss": 0.3071,
      "step": 425
    },
    {
      "epoch": 1.09056,
      "grad_norm": 1.8531686326526295,
      "learning_rate": 8.85117313424756e-06,
      "loss": 0.326,
      "step": 426
    },
    {
      "epoch": 1.09312,
      "grad_norm": 1.70280493987216,
      "learning_rate": 8.810334894257156e-06,
      "loss": 0.3218,
      "step": 427
    },
    {
      "epoch": 1.09568,
      "grad_norm": 1.5975578961167665,
      "learning_rate": 8.769516770058915e-06,
      "loss": 0.3014,
      "step": 428
    },
    {
      "epoch": 1.09824,
      "grad_norm": 1.5963594131551222,
      "learning_rate": 8.728719451837735e-06,
      "loss": 0.2813,
      "step": 429
    },
    {
      "epoch": 1.1008,
      "grad_norm": 1.5356693796819318,
      "learning_rate": 8.687943629426725e-06,
      "loss": 0.2765,
      "step": 430
    },
    {
      "epoch": 1.10336,
      "grad_norm": 1.9059233869160093,
      "learning_rate": 8.647189992295526e-06,
      "loss": 0.2862,
      "step": 431
    },
    {
      "epoch": 1.10592,
      "grad_norm": 1.915468592863442,
      "learning_rate": 8.606459229538645e-06,
      "loss": 0.3143,
      "step": 432
    },
    {
      "epoch": 1.10848,
      "grad_norm": 1.74246639812338,
      "learning_rate": 8.56575202986382e-06,
      "loss": 0.3091,
      "step": 433
    },
    {
      "epoch": 1.11104,
      "grad_norm": 1.8647458734292492,
      "learning_rate": 8.525069081580351e-06,
      "loss": 0.3317,
      "step": 434
    },
    {
      "epoch": 1.1136,
      "grad_norm": 1.715483977869925,
      "learning_rate": 8.484411072587491e-06,
      "loss": 0.3065,
      "step": 435
    },
    {
      "epoch": 1.11616,
      "grad_norm": 1.6696415990436007,
      "learning_rate": 8.443778690362801e-06,
      "loss": 0.2741,
      "step": 436
    },
    {
      "epoch": 1.11872,
      "grad_norm": 1.7084096219447564,
      "learning_rate": 8.403172621950512e-06,
      "loss": 0.3058,
      "step": 437
    },
    {
      "epoch": 1.12128,
      "grad_norm": 1.7929139885486827,
      "learning_rate": 8.362593553949926e-06,
      "loss": 0.2868,
      "step": 438
    },
    {
      "epoch": 1.12384,
      "grad_norm": 1.757789981994357,
      "learning_rate": 8.322042172503812e-06,
      "loss": 0.3129,
      "step": 439
    },
    {
      "epoch": 1.1264,
      "grad_norm": 1.6625503348814892,
      "learning_rate": 8.281519163286772e-06,
      "loss": 0.287,
      "step": 440
    },
    {
      "epoch": 1.12896,
      "grad_norm": 1.9281991436107038,
      "learning_rate": 8.241025211493684e-06,
      "loss": 0.3375,
      "step": 441
    },
    {
      "epoch": 1.13152,
      "grad_norm": 1.6723278237853747,
      "learning_rate": 8.200561001828093e-06,
      "loss": 0.2843,
      "step": 442
    },
    {
      "epoch": 1.13408,
      "grad_norm": 1.6487601783747716,
      "learning_rate": 8.160127218490643e-06,
      "loss": 0.3173,
      "step": 443
    },
    {
      "epoch": 1.13664,
      "grad_norm": 1.8497858729306897,
      "learning_rate": 8.11972454516751e-06,
      "loss": 0.3022,
      "step": 444
    },
    {
      "epoch": 1.1392,
      "grad_norm": 1.6639405806591592,
      "learning_rate": 8.079353665018827e-06,
      "loss": 0.3453,
      "step": 445
    },
    {
      "epoch": 1.14176,
      "grad_norm": 1.560079035489574,
      "learning_rate": 8.039015260667154e-06,
      "loss": 0.33,
      "step": 446
    },
    {
      "epoch": 1.14432,
      "grad_norm": 1.7303374905946536,
      "learning_rate": 7.998710014185916e-06,
      "loss": 0.311,
      "step": 447
    },
    {
      "epoch": 1.14688,
      "grad_norm": 1.7019483722377131,
      "learning_rate": 7.958438607087884e-06,
      "loss": 0.3124,
      "step": 448
    },
    {
      "epoch": 1.14944,
      "grad_norm": 1.7461543792169232,
      "learning_rate": 7.918201720313648e-06,
      "loss": 0.3132,
      "step": 449
    },
    {
      "epoch": 1.152,
      "grad_norm": 1.65701293316665,
      "learning_rate": 7.878000034220092e-06,
      "loss": 0.2898,
      "step": 450
    },
    {
      "epoch": 1.15456,
      "grad_norm": 1.793230509633861,
      "learning_rate": 7.837834228568911e-06,
      "loss": 0.3116,
      "step": 451
    },
    {
      "epoch": 1.15712,
      "grad_norm": 1.9106756293670617,
      "learning_rate": 7.797704982515094e-06,
      "loss": 0.3451,
      "step": 452
    },
    {
      "epoch": 1.15968,
      "grad_norm": 1.8497679963390545,
      "learning_rate": 7.75761297459546e-06,
      "loss": 0.2923,
      "step": 453
    },
    {
      "epoch": 1.16224,
      "grad_norm": 1.7480611256420666,
      "learning_rate": 7.717558882717175e-06,
      "loss": 0.3156,
      "step": 454
    },
    {
      "epoch": 1.1648,
      "grad_norm": 1.667882679284623,
      "learning_rate": 7.677543384146287e-06,
      "loss": 0.2967,
      "step": 455
    },
    {
      "epoch": 1.16736,
      "grad_norm": 1.6327780686406852,
      "learning_rate": 7.637567155496277e-06,
      "loss": 0.3298,
      "step": 456
    },
    {
      "epoch": 1.16992,
      "grad_norm": 1.9718387276246228,
      "learning_rate": 7.597630872716631e-06,
      "loss": 0.3067,
      "step": 457
    },
    {
      "epoch": 1.17248,
      "grad_norm": 1.8631792827164149,
      "learning_rate": 7.5577352110813825e-06,
      "loss": 0.3188,
      "step": 458
    },
    {
      "epoch": 1.17504,
      "grad_norm": 1.7515381932583938,
      "learning_rate": 7.517880845177725e-06,
      "loss": 0.3103,
      "step": 459
    },
    {
      "epoch": 1.1776,
      "grad_norm": 1.6929585603147987,
      "learning_rate": 7.478068448894577e-06,
      "loss": 0.2854,
      "step": 460
    },
    {
      "epoch": 1.1801599999999999,
      "grad_norm": 1.6653769100031355,
      "learning_rate": 7.438298695411218e-06,
      "loss": 0.2605,
      "step": 461
    },
    {
      "epoch": 1.18272,
      "grad_norm": 1.660565063408245,
      "learning_rate": 7.398572257185879e-06,
      "loss": 0.2627,
      "step": 462
    },
    {
      "epoch": 1.1852800000000001,
      "grad_norm": 1.6879487748419324,
      "learning_rate": 7.358889805944383e-06,
      "loss": 0.2577,
      "step": 463
    },
    {
      "epoch": 1.18784,
      "grad_norm": 1.7460066493392816,
      "learning_rate": 7.31925201266879e-06,
      "loss": 0.3328,
      "step": 464
    },
    {
      "epoch": 1.1904,
      "grad_norm": 1.6332719487911835,
      "learning_rate": 7.2796595475860425e-06,
      "loss": 0.2843,
      "step": 465
    },
    {
      "epoch": 1.19296,
      "grad_norm": 1.9280765743425918,
      "learning_rate": 7.240113080156646e-06,
      "loss": 0.3132,
      "step": 466
    },
    {
      "epoch": 1.19552,
      "grad_norm": 1.8041999203900638,
      "learning_rate": 7.200613279063341e-06,
      "loss": 0.284,
      "step": 467
    },
    {
      "epoch": 1.19808,
      "grad_norm": 1.927491301377088,
      "learning_rate": 7.161160812199785e-06,
      "loss": 0.3379,
      "step": 468
    },
    {
      "epoch": 1.20064,
      "grad_norm": 1.7700179930703523,
      "learning_rate": 7.121756346659292e-06,
      "loss": 0.3304,
      "step": 469
    },
    {
      "epoch": 1.2032,
      "grad_norm": 1.8239759132867097,
      "learning_rate": 7.082400548723505e-06,
      "loss": 0.2773,
      "step": 470
    },
    {
      "epoch": 1.20576,
      "grad_norm": 1.8558590715535617,
      "learning_rate": 7.043094083851181e-06,
      "loss": 0.3101,
      "step": 471
    },
    {
      "epoch": 1.20832,
      "grad_norm": 1.9466031042965117,
      "learning_rate": 7.003837616666906e-06,
      "loss": 0.3011,
      "step": 472
    },
    {
      "epoch": 1.21088,
      "grad_norm": 1.718281958362647,
      "learning_rate": 6.96463181094986e-06,
      "loss": 0.2914,
      "step": 473
    },
    {
      "epoch": 1.21344,
      "grad_norm": 1.6920570061933058,
      "learning_rate": 6.925477329622609e-06,
      "loss": 0.29,
      "step": 474
    },
    {
      "epoch": 1.216,
      "grad_norm": 1.5582172395472835,
      "learning_rate": 6.886374834739883e-06,
      "loss": 0.2565,
      "step": 475
    },
    {
      "epoch": 1.21856,
      "grad_norm": 1.9619111558727853,
      "learning_rate": 6.847324987477375e-06,
      "loss": 0.2811,
      "step": 476
    },
    {
      "epoch": 1.22112,
      "grad_norm": 1.7660903136072212,
      "learning_rate": 6.808328448120588e-06,
      "loss": 0.3277,
      "step": 477
    },
    {
      "epoch": 1.2236799999999999,
      "grad_norm": 1.6879368816014204,
      "learning_rate": 6.769385876053632e-06,
      "loss": 0.2918,
      "step": 478
    },
    {
      "epoch": 1.22624,
      "grad_norm": 1.8466731384715298,
      "learning_rate": 6.730497929748116e-06,
      "loss": 0.3103,
      "step": 479
    },
    {
      "epoch": 1.2288000000000001,
      "grad_norm": 1.8338896405236385,
      "learning_rate": 6.6916652667519855e-06,
      "loss": 0.3211,
      "step": 480
    },
    {
      "epoch": 1.23136,
      "grad_norm": 1.7548167253010734,
      "learning_rate": 6.652888543678404e-06,
      "loss": 0.3331,
      "step": 481
    },
    {
      "epoch": 1.23392,
      "grad_norm": 1.7191841522008924,
      "learning_rate": 6.614168416194674e-06,
      "loss": 0.2684,
      "step": 482
    },
    {
      "epoch": 1.23648,
      "grad_norm": 1.6620234347821567,
      "learning_rate": 6.575505539011123e-06,
      "loss": 0.273,
      "step": 483
    },
    {
      "epoch": 1.23904,
      "grad_norm": 1.8705146664514543,
      "learning_rate": 6.536900565870052e-06,
      "loss": 0.3324,
      "step": 484
    },
    {
      "epoch": 1.2416,
      "grad_norm": 1.6318180235961661,
      "learning_rate": 6.498354149534677e-06,
      "loss": 0.2891,
      "step": 485
    },
    {
      "epoch": 1.24416,
      "grad_norm": 1.7493455359816799,
      "learning_rate": 6.459866941778077e-06,
      "loss": 0.2847,
      "step": 486
    },
    {
      "epoch": 1.24672,
      "grad_norm": 1.6377143720858458,
      "learning_rate": 6.421439593372201e-06,
      "loss": 0.2841,
      "step": 487
    },
    {
      "epoch": 1.24928,
      "grad_norm": 1.7580656850520682,
      "learning_rate": 6.3830727540768445e-06,
      "loss": 0.3086,
      "step": 488
    },
    {
      "epoch": 1.25184,
      "grad_norm": 1.7537075156428699,
      "learning_rate": 6.344767072628659e-06,
      "loss": 0.3166,
      "step": 489
    },
    {
      "epoch": 1.2544,
      "grad_norm": 1.727275836520608,
      "learning_rate": 6.3065231967302055e-06,
      "loss": 0.279,
      "step": 490
    },
    {
      "epoch": 1.25696,
      "grad_norm": 1.8430842401562408,
      "learning_rate": 6.268341773038973e-06,
      "loss": 0.2752,
      "step": 491
    },
    {
      "epoch": 1.25952,
      "grad_norm": 1.7578451456561774,
      "learning_rate": 6.230223447156469e-06,
      "loss": 0.2958,
      "step": 492
    },
    {
      "epoch": 1.26208,
      "grad_norm": 1.6454134556997662,
      "learning_rate": 6.1921688636172964e-06,
      "loss": 0.274,
      "step": 493
    },
    {
      "epoch": 1.26464,
      "grad_norm": 1.6214753367677326,
      "learning_rate": 6.154178665878241e-06,
      "loss": 0.2761,
      "step": 494
    },
    {
      "epoch": 1.2671999999999999,
      "grad_norm": 1.8385311514429392,
      "learning_rate": 6.116253496307415e-06,
      "loss": 0.2883,
      "step": 495
    },
    {
      "epoch": 1.26976,
      "grad_norm": 1.7575162142152143,
      "learning_rate": 6.078393996173375e-06,
      "loss": 0.2789,
      "step": 496
    },
    {
      "epoch": 1.2723200000000001,
      "grad_norm": 1.7863119640113554,
      "learning_rate": 6.040600805634287e-06,
      "loss": 0.3174,
      "step": 497
    },
    {
      "epoch": 1.27488,
      "grad_norm": 1.802911376776798,
      "learning_rate": 6.002874563727116e-06,
      "loss": 0.2831,
      "step": 498
    },
    {
      "epoch": 1.27744,
      "grad_norm": 1.7950928461300708,
      "learning_rate": 5.965215908356783e-06,
      "loss": 0.3047,
      "step": 499
    },
    {
      "epoch": 1.28,
      "grad_norm": 1.8067717158566738,
      "learning_rate": 5.927625476285426e-06,
      "loss": 0.2981,
      "step": 500
    },
    {
      "epoch": 1.28256,
      "grad_norm": 1.759342634285478,
      "learning_rate": 5.890103903121593e-06,
      "loss": 0.3129,
      "step": 501
    },
    {
      "epoch": 1.28512,
      "grad_norm": 2.0897739052494293,
      "learning_rate": 5.852651823309521e-06,
      "loss": 0.2928,
      "step": 502
    },
    {
      "epoch": 1.28768,
      "grad_norm": 1.8220220157801934,
      "learning_rate": 5.815269870118403e-06,
      "loss": 0.2899,
      "step": 503
    },
    {
      "epoch": 1.29024,
      "grad_norm": 1.688333219221233,
      "learning_rate": 5.777958675631657e-06,
      "loss": 0.3004,
      "step": 504
    },
    {
      "epoch": 1.2928,
      "grad_norm": 1.6140942084232062,
      "learning_rate": 5.740718870736272e-06,
      "loss": 0.2953,
      "step": 505
    },
    {
      "epoch": 1.29536,
      "grad_norm": 1.8293432699580725,
      "learning_rate": 5.703551085112133e-06,
      "loss": 0.3021,
      "step": 506
    },
    {
      "epoch": 1.29792,
      "grad_norm": 1.8202872346713284,
      "learning_rate": 5.6664559472213495e-06,
      "loss": 0.2781,
      "step": 507
    },
    {
      "epoch": 1.30048,
      "grad_norm": 1.8156854105803961,
      "learning_rate": 5.629434084297654e-06,
      "loss": 0.3122,
      "step": 508
    },
    {
      "epoch": 1.30304,
      "grad_norm": 2.0300686868487556,
      "learning_rate": 5.592486122335784e-06,
      "loss": 0.3498,
      "step": 509
    },
    {
      "epoch": 1.3056,
      "grad_norm": 1.7909337703685713,
      "learning_rate": 5.555612686080909e-06,
      "loss": 0.3079,
      "step": 510
    },
    {
      "epoch": 1.30816,
      "grad_norm": 1.5882480407199409,
      "learning_rate": 5.518814399018058e-06,
      "loss": 0.2685,
      "step": 511
    },
    {
      "epoch": 1.3107199999999999,
      "grad_norm": 1.6893045166962126,
      "learning_rate": 5.482091883361571e-06,
      "loss": 0.2897,
      "step": 512
    },
    {
      "epoch": 1.31328,
      "grad_norm": 1.9623021679379937,
      "learning_rate": 5.445445760044594e-06,
      "loss": 0.2751,
      "step": 513
    },
    {
      "epoch": 1.3158400000000001,
      "grad_norm": 1.8542025764374261,
      "learning_rate": 5.408876648708561e-06,
      "loss": 0.2808,
      "step": 514
    },
    {
      "epoch": 1.3184,
      "grad_norm": 1.625965052985563,
      "learning_rate": 5.372385167692739e-06,
      "loss": 0.2751,
      "step": 515
    },
    {
      "epoch": 1.32096,
      "grad_norm": 1.8190194776544601,
      "learning_rate": 5.335971934023757e-06,
      "loss": 0.2917,
      "step": 516
    },
    {
      "epoch": 1.32352,
      "grad_norm": 1.92774093649498,
      "learning_rate": 5.299637563405169e-06,
      "loss": 0.2997,
      "step": 517
    },
    {
      "epoch": 1.32608,
      "grad_norm": 1.7214112637921481,
      "learning_rate": 5.263382670207063e-06,
      "loss": 0.2627,
      "step": 518
    },
    {
      "epoch": 1.32864,
      "grad_norm": 1.6131621215448115,
      "learning_rate": 5.227207867455648e-06,
      "loss": 0.2679,
      "step": 519
    },
    {
      "epoch": 1.3312,
      "grad_norm": 1.68659474905301,
      "learning_rate": 5.191113766822905e-06,
      "loss": 0.2732,
      "step": 520
    },
    {
      "epoch": 1.33376,
      "grad_norm": 1.8809611133528827,
      "learning_rate": 5.155100978616248e-06,
      "loss": 0.3065,
      "step": 521
    },
    {
      "epoch": 1.33632,
      "grad_norm": 1.8386742630648891,
      "learning_rate": 5.1191701117681815e-06,
      "loss": 0.3092,
      "step": 522
    },
    {
      "epoch": 1.33888,
      "grad_norm": 1.780053544517966,
      "learning_rate": 5.083321773826038e-06,
      "loss": 0.2825,
      "step": 523
    },
    {
      "epoch": 1.34144,
      "grad_norm": 1.6847775520894839,
      "learning_rate": 5.04755657094167e-06,
      "loss": 0.2928,
      "step": 524
    },
    {
      "epoch": 1.3439999999999999,
      "grad_norm": 1.5698053305448867,
      "learning_rate": 5.011875107861221e-06,
      "loss": 0.2725,
      "step": 525
    },
    {
      "epoch": 1.34656,
      "grad_norm": 1.796815658001955,
      "learning_rate": 4.976277987914905e-06,
      "loss": 0.3287,
      "step": 526
    },
    {
      "epoch": 1.34912,
      "grad_norm": 1.728558689136845,
      "learning_rate": 4.940765813006784e-06,
      "loss": 0.2839,
      "step": 527
    },
    {
      "epoch": 1.35168,
      "grad_norm": 1.8233040819705273,
      "learning_rate": 4.905339183604614e-06,
      "loss": 0.3033,
      "step": 528
    },
    {
      "epoch": 1.3542399999999999,
      "grad_norm": 1.772177612527984,
      "learning_rate": 4.86999869872967e-06,
      "loss": 0.301,
      "step": 529
    },
    {
      "epoch": 1.3568,
      "grad_norm": 1.6377253150219735,
      "learning_rate": 4.834744955946631e-06,
      "loss": 0.2911,
      "step": 530
    },
    {
      "epoch": 1.3593600000000001,
      "grad_norm": 1.7737384781484877,
      "learning_rate": 4.79957855135348e-06,
      "loss": 0.3027,
      "step": 531
    },
    {
      "epoch": 1.36192,
      "grad_norm": 1.9035288129722436,
      "learning_rate": 4.764500079571403e-06,
      "loss": 0.3231,
      "step": 532
    },
    {
      "epoch": 1.36448,
      "grad_norm": 1.837775666581152,
      "learning_rate": 4.729510133734766e-06,
      "loss": 0.2855,
      "step": 533
    },
    {
      "epoch": 1.36704,
      "grad_norm": 1.7295857177394576,
      "learning_rate": 4.694609305481055e-06,
      "loss": 0.2804,
      "step": 534
    },
    {
      "epoch": 1.3696,
      "grad_norm": 1.806102463932245,
      "learning_rate": 4.659798184940887e-06,
      "loss": 0.3093,
      "step": 535
    },
    {
      "epoch": 1.37216,
      "grad_norm": 1.5986303108578905,
      "learning_rate": 4.6250773607280375e-06,
      "loss": 0.2445,
      "step": 536
    },
    {
      "epoch": 1.37472,
      "grad_norm": 1.9007193691045698,
      "learning_rate": 4.590447419929481e-06,
      "loss": 0.28,
      "step": 537
    },
    {
      "epoch": 1.37728,
      "grad_norm": 1.5654130383489473,
      "learning_rate": 4.555908948095455e-06,
      "loss": 0.2487,
      "step": 538
    },
    {
      "epoch": 1.37984,
      "grad_norm": 1.807208592204752,
      "learning_rate": 4.521462529229579e-06,
      "loss": 0.2874,
      "step": 539
    },
    {
      "epoch": 1.3824,
      "grad_norm": 1.9059242633131657,
      "learning_rate": 4.487108745778958e-06,
      "loss": 0.2994,
      "step": 540
    },
    {
      "epoch": 1.38496,
      "grad_norm": 1.93530044589512,
      "learning_rate": 4.452848178624348e-06,
      "loss": 0.3276,
      "step": 541
    },
    {
      "epoch": 1.3875199999999999,
      "grad_norm": 1.6211554099082521,
      "learning_rate": 4.418681407070339e-06,
      "loss": 0.2484,
      "step": 542
    },
    {
      "epoch": 1.39008,
      "grad_norm": 1.8235255434109632,
      "learning_rate": 4.384609008835535e-06,
      "loss": 0.284,
      "step": 543
    },
    {
      "epoch": 1.39264,
      "grad_norm": 1.8642953553369541,
      "learning_rate": 4.350631560042821e-06,
      "loss": 0.3073,
      "step": 544
    },
    {
      "epoch": 1.3952,
      "grad_norm": 1.8052071453907574,
      "learning_rate": 4.3167496352095876e-06,
      "loss": 0.3176,
      "step": 545
    },
    {
      "epoch": 1.39776,
      "grad_norm": 2.05400626300769,
      "learning_rate": 4.282963807238032e-06,
      "loss": 0.2941,
      "step": 546
    },
    {
      "epoch": 1.40032,
      "grad_norm": 1.8143960130300665,
      "learning_rate": 4.2492746474054825e-06,
      "loss": 0.3092,
      "step": 547
    },
    {
      "epoch": 1.4028800000000001,
      "grad_norm": 1.8062220799473758,
      "learning_rate": 4.2156827253547095e-06,
      "loss": 0.2854,
      "step": 548
    },
    {
      "epoch": 1.40544,
      "grad_norm": 1.8654013394561701,
      "learning_rate": 4.182188609084328e-06,
      "loss": 0.327,
      "step": 549
    },
    {
      "epoch": 1.408,
      "grad_norm": 1.6776732336572873,
      "learning_rate": 4.148792864939164e-06,
      "loss": 0.2519,
      "step": 550
    },
    {
      "epoch": 1.41056,
      "grad_norm": 1.6871367738087453,
      "learning_rate": 4.115496057600689e-06,
      "loss": 0.2978,
      "step": 551
    },
    {
      "epoch": 1.41312,
      "grad_norm": 1.9401515888224816,
      "learning_rate": 4.082298750077485e-06,
      "loss": 0.3189,
      "step": 552
    },
    {
      "epoch": 1.41568,
      "grad_norm": 1.7127683807523446,
      "learning_rate": 4.0492015036957e-06,
      "loss": 0.2839,
      "step": 553
    },
    {
      "epoch": 1.41824,
      "grad_norm": 1.7006614590161078,
      "learning_rate": 4.016204878089579e-06,
      "loss": 0.265,
      "step": 554
    },
    {
      "epoch": 1.4208,
      "grad_norm": 1.6926095736078215,
      "learning_rate": 3.983309431191995e-06,
      "loss": 0.2566,
      "step": 555
    },
    {
      "epoch": 1.42336,
      "grad_norm": 1.7495489591645166,
      "learning_rate": 3.950515719224991e-06,
      "loss": 0.3097,
      "step": 556
    },
    {
      "epoch": 1.42592,
      "grad_norm": 1.685311274806112,
      "learning_rate": 3.9178242966904225e-06,
      "loss": 0.2629,
      "step": 557
    },
    {
      "epoch": 1.42848,
      "grad_norm": 1.868117738329845,
      "learning_rate": 3.885235716360534e-06,
      "loss": 0.3089,
      "step": 558
    },
    {
      "epoch": 1.4310399999999999,
      "grad_norm": 1.6105881067710597,
      "learning_rate": 3.852750529268645e-06,
      "loss": 0.2841,
      "step": 559
    },
    {
      "epoch": 1.4336,
      "grad_norm": 1.7563576736879873,
      "learning_rate": 3.820369284699823e-06,
      "loss": 0.3019,
      "step": 560
    },
    {
      "epoch": 1.43616,
      "grad_norm": 1.6236719779141782,
      "learning_rate": 3.788092530181583e-06,
      "loss": 0.2747,
      "step": 561
    },
    {
      "epoch": 1.43872,
      "grad_norm": 1.625891715697152,
      "learning_rate": 3.755920811474647e-06,
      "loss": 0.2652,
      "step": 562
    },
    {
      "epoch": 1.44128,
      "grad_norm": 1.6938038174994694,
      "learning_rate": 3.7238546725637046e-06,
      "loss": 0.2763,
      "step": 563
    },
    {
      "epoch": 1.44384,
      "grad_norm": 1.872174965035592,
      "learning_rate": 3.691894655648225e-06,
      "loss": 0.2877,
      "step": 564
    },
    {
      "epoch": 1.4464000000000001,
      "grad_norm": 1.714528697164392,
      "learning_rate": 3.6600413011332835e-06,
      "loss": 0.2975,
      "step": 565
    },
    {
      "epoch": 1.44896,
      "grad_norm": 1.7847360697911003,
      "learning_rate": 3.6282951476204177e-06,
      "loss": 0.3059,
      "step": 566
    },
    {
      "epoch": 1.45152,
      "grad_norm": 1.7410992194167252,
      "learning_rate": 3.5966567318985267e-06,
      "loss": 0.3158,
      "step": 567
    },
    {
      "epoch": 1.45408,
      "grad_norm": 1.6864063612802922,
      "learning_rate": 3.565126588934803e-06,
      "loss": 0.2836,
      "step": 568
    },
    {
      "epoch": 1.45664,
      "grad_norm": 1.714438302514508,
      "learning_rate": 3.533705251865668e-06,
      "loss": 0.2957,
      "step": 569
    },
    {
      "epoch": 1.4592,
      "grad_norm": 1.8173113954750335,
      "learning_rate": 3.502393251987776e-06,
      "loss": 0.3121,
      "step": 570
    },
    {
      "epoch": 1.46176,
      "grad_norm": 1.6936277347451338,
      "learning_rate": 3.4711911187490165e-06,
      "loss": 0.2687,
      "step": 571
    },
    {
      "epoch": 1.46432,
      "grad_norm": 1.9870635360197202,
      "learning_rate": 3.4400993797395664e-06,
      "loss": 0.3278,
      "step": 572
    },
    {
      "epoch": 1.46688,
      "grad_norm": 1.7897731687332026,
      "learning_rate": 3.4091185606829793e-06,
      "loss": 0.2655,
      "step": 573
    },
    {
      "epoch": 1.46944,
      "grad_norm": 1.70048947778315,
      "learning_rate": 3.3782491854272736e-06,
      "loss": 0.3024,
      "step": 574
    },
    {
      "epoch": 1.472,
      "grad_norm": 1.619029376588391,
      "learning_rate": 3.3474917759361036e-06,
      "loss": 0.2755,
      "step": 575
    },
    {
      "epoch": 1.4745599999999999,
      "grad_norm": 1.8451956935598997,
      "learning_rate": 3.316846852279907e-06,
      "loss": 0.2863,
      "step": 576
    },
    {
      "epoch": 1.47712,
      "grad_norm": 1.8145774126755378,
      "learning_rate": 3.2863149326271226e-06,
      "loss": 0.281,
      "step": 577
    },
    {
      "epoch": 1.47968,
      "grad_norm": 1.6672300035397345,
      "learning_rate": 3.255896533235439e-06,
      "loss": 0.27,
      "step": 578
    },
    {
      "epoch": 1.48224,
      "grad_norm": 1.668688823060323,
      "learning_rate": 3.2255921684430423e-06,
      "loss": 0.2756,
      "step": 579
    },
    {
      "epoch": 1.4848,
      "grad_norm": 1.7784555478973214,
      "learning_rate": 3.195402350659945e-06,
      "loss": 0.321,
      "step": 580
    },
    {
      "epoch": 1.48736,
      "grad_norm": 1.6455590944323666,
      "learning_rate": 3.165327590359295e-06,
      "loss": 0.2877,
      "step": 581
    },
    {
      "epoch": 1.4899200000000001,
      "grad_norm": 2.0743380157623124,
      "learning_rate": 3.135368396068771e-06,
      "loss": 0.3027,
      "step": 582
    },
    {
      "epoch": 1.49248,
      "grad_norm": 1.5664539608516517,
      "learning_rate": 3.1055252743619623e-06,
      "loss": 0.2573,
      "step": 583
    },
    {
      "epoch": 1.49504,
      "grad_norm": 1.7550490290565095,
      "learning_rate": 3.0757987298498106e-06,
      "loss": 0.2703,
      "step": 584
    },
    {
      "epoch": 1.4976,
      "grad_norm": 1.7076285620278457,
      "learning_rate": 3.046189265172085e-06,
      "loss": 0.2836,
      "step": 585
    },
    {
      "epoch": 1.5001600000000002,
      "grad_norm": 1.5213003659889548,
      "learning_rate": 3.0166973809888776e-06,
      "loss": 0.2958,
      "step": 586
    },
    {
      "epoch": 1.50272,
      "grad_norm": 1.6842118874383583,
      "learning_rate": 2.987323575972132e-06,
      "loss": 0.2819,
      "step": 587
    },
    {
      "epoch": 1.50528,
      "grad_norm": 1.7336219161047688,
      "learning_rate": 2.958068346797217e-06,
      "loss": 0.2939,
      "step": 588
    },
    {
      "epoch": 1.5078399999999998,
      "grad_norm": 1.8365763102322976,
      "learning_rate": 2.9289321881345257e-06,
      "loss": 0.2822,
      "step": 589
    },
    {
      "epoch": 1.5104,
      "grad_norm": 2.0201724941232273,
      "learning_rate": 2.8999155926411203e-06,
      "loss": 0.3133,
      "step": 590
    },
    {
      "epoch": 1.51296,
      "grad_norm": 1.7737234557135833,
      "learning_rate": 2.871019050952395e-06,
      "loss": 0.2718,
      "step": 591
    },
    {
      "epoch": 1.51552,
      "grad_norm": 1.7105337375961225,
      "learning_rate": 2.8422430516737733e-06,
      "loss": 0.2287,
      "step": 592
    },
    {
      "epoch": 1.5180799999999999,
      "grad_norm": 1.5532376533528256,
      "learning_rate": 2.813588081372456e-06,
      "loss": 0.2805,
      "step": 593
    },
    {
      "epoch": 1.52064,
      "grad_norm": 1.6488135407698572,
      "learning_rate": 2.7850546245691866e-06,
      "loss": 0.2783,
      "step": 594
    },
    {
      "epoch": 1.5232,
      "grad_norm": 1.8138759575713275,
      "learning_rate": 2.7566431637300738e-06,
      "loss": 0.2936,
      "step": 595
    },
    {
      "epoch": 1.52576,
      "grad_norm": 1.9339574210123396,
      "learning_rate": 2.7283541792584165e-06,
      "loss": 0.2858,
      "step": 596
    },
    {
      "epoch": 1.52832,
      "grad_norm": 1.6414720524358055,
      "learning_rate": 2.7001881494865845e-06,
      "loss": 0.2717,
      "step": 597
    },
    {
      "epoch": 1.53088,
      "grad_norm": 1.670022901559193,
      "learning_rate": 2.672145550667933e-06,
      "loss": 0.2761,
      "step": 598
    },
    {
      "epoch": 1.5334400000000001,
      "grad_norm": 1.651543474445551,
      "learning_rate": 2.6442268569687567e-06,
      "loss": 0.266,
      "step": 599
    },
    {
      "epoch": 1.536,
      "grad_norm": 1.7579445968272946,
      "learning_rate": 2.616432540460255e-06,
      "loss": 0.2839,
      "step": 600
    },
    {
      "epoch": 1.53856,
      "grad_norm": 1.7310903919014502,
      "learning_rate": 2.5887630711105705e-06,
      "loss": 0.2996,
      "step": 601
    },
    {
      "epoch": 1.54112,
      "grad_norm": 1.7899987929588956,
      "learning_rate": 2.561218916776823e-06,
      "loss": 0.2827,
      "step": 602
    },
    {
      "epoch": 1.5436800000000002,
      "grad_norm": 1.793887084940259,
      "learning_rate": 2.5338005431972144e-06,
      "loss": 0.2962,
      "step": 603
    },
    {
      "epoch": 1.54624,
      "grad_norm": 1.8405222153934413,
      "learning_rate": 2.5065084139831443e-06,
      "loss": 0.2769,
      "step": 604
    },
    {
      "epoch": 1.5488,
      "grad_norm": 1.6538653809897454,
      "learning_rate": 2.4793429906113676e-06,
      "loss": 0.2798,
      "step": 605
    },
    {
      "epoch": 1.5513599999999999,
      "grad_norm": 1.7853505122465314,
      "learning_rate": 2.4523047324162087e-06,
      "loss": 0.2837,
      "step": 606
    },
    {
      "epoch": 1.55392,
      "grad_norm": 1.705880111795306,
      "learning_rate": 2.4253940965817726e-06,
      "loss": 0.3107,
      "step": 607
    },
    {
      "epoch": 1.55648,
      "grad_norm": 2.053508927696654,
      "learning_rate": 2.3986115381342347e-06,
      "loss": 0.3172,
      "step": 608
    },
    {
      "epoch": 1.55904,
      "grad_norm": 1.6153752928179927,
      "learning_rate": 2.3719575099341298e-06,
      "loss": 0.2837,
      "step": 609
    },
    {
      "epoch": 1.5615999999999999,
      "grad_norm": 1.6914755812024604,
      "learning_rate": 2.345432462668702e-06,
      "loss": 0.2551,
      "step": 610
    },
    {
      "epoch": 1.56416,
      "grad_norm": 1.770027987354017,
      "learning_rate": 2.3190368448442936e-06,
      "loss": 0.2574,
      "step": 611
    },
    {
      "epoch": 1.5667200000000001,
      "grad_norm": 1.859972298306848,
      "learning_rate": 2.292771102778739e-06,
      "loss": 0.3037,
      "step": 612
    },
    {
      "epoch": 1.56928,
      "grad_norm": 1.897188441833873,
      "learning_rate": 2.266635680593845e-06,
      "loss": 0.3067,
      "step": 613
    },
    {
      "epoch": 1.57184,
      "grad_norm": 1.7143004820729382,
      "learning_rate": 2.2406310202078586e-06,
      "loss": 0.2807,
      "step": 614
    },
    {
      "epoch": 1.5744,
      "grad_norm": 1.8448535483722395,
      "learning_rate": 2.2147575613280013e-06,
      "loss": 0.2997,
      "step": 615
    },
    {
      "epoch": 1.5769600000000001,
      "grad_norm": 1.669565045060629,
      "learning_rate": 2.1890157414430448e-06,
      "loss": 0.2528,
      "step": 616
    },
    {
      "epoch": 1.57952,
      "grad_norm": 1.842829735431479,
      "learning_rate": 2.163405995815904e-06,
      "loss": 0.2771,
      "step": 617
    },
    {
      "epoch": 1.58208,
      "grad_norm": 1.8727513182856619,
      "learning_rate": 2.1379287574762717e-06,
      "loss": 0.3045,
      "step": 618
    },
    {
      "epoch": 1.58464,
      "grad_norm": 1.85842601413902,
      "learning_rate": 2.11258445721331e-06,
      "loss": 0.319,
      "step": 619
    },
    {
      "epoch": 1.5872000000000002,
      "grad_norm": 1.8680204100053788,
      "learning_rate": 2.0873735235683535e-06,
      "loss": 0.2799,
      "step": 620
    },
    {
      "epoch": 1.58976,
      "grad_norm": 1.730211436527152,
      "learning_rate": 2.0622963828276744e-06,
      "loss": 0.2626,
      "step": 621
    },
    {
      "epoch": 1.59232,
      "grad_norm": 1.6435312018877513,
      "learning_rate": 2.037353459015272e-06,
      "loss": 0.2744,
      "step": 622
    },
    {
      "epoch": 1.5948799999999999,
      "grad_norm": 1.6224922861504871,
      "learning_rate": 2.0125451738856903e-06,
      "loss": 0.2296,
      "step": 623
    },
    {
      "epoch": 1.59744,
      "grad_norm": 1.861965804154878,
      "learning_rate": 1.9878719469169104e-06,
      "loss": 0.2595,
      "step": 624
    },
    {
      "epoch": 1.6,
      "grad_norm": 1.6943488611068847,
      "learning_rate": 1.9633341953032246e-06,
      "loss": 0.2906,
      "step": 625
    },
    {
      "epoch": 1.60256,
      "grad_norm": 1.6320130474511332,
      "learning_rate": 1.9389323339482204e-06,
      "loss": 0.2756,
      "step": 626
    },
    {
      "epoch": 1.6051199999999999,
      "grad_norm": 1.6698686833486305,
      "learning_rate": 1.9146667754577408e-06,
      "loss": 0.3068,
      "step": 627
    },
    {
      "epoch": 1.60768,
      "grad_norm": 1.6880177914613448,
      "learning_rate": 1.890537930132903e-06,
      "loss": 0.2839,
      "step": 628
    },
    {
      "epoch": 1.6102400000000001,
      "grad_norm": 1.6773268308513856,
      "learning_rate": 1.8665462059631866e-06,
      "loss": 0.2491,
      "step": 629
    },
    {
      "epoch": 1.6128,
      "grad_norm": 1.8474070458904108,
      "learning_rate": 1.8426920086195065e-06,
      "loss": 0.2904,
      "step": 630
    },
    {
      "epoch": 1.61536,
      "grad_norm": 1.6218761795055971,
      "learning_rate": 1.8189757414473686e-06,
      "loss": 0.2441,
      "step": 631
    },
    {
      "epoch": 1.61792,
      "grad_norm": 1.8666720513899506,
      "learning_rate": 1.795397805460053e-06,
      "loss": 0.3003,
      "step": 632
    },
    {
      "epoch": 1.6204800000000001,
      "grad_norm": 1.685788691547833,
      "learning_rate": 1.7719585993318177e-06,
      "loss": 0.2896,
      "step": 633
    },
    {
      "epoch": 1.62304,
      "grad_norm": 1.7449552299776978,
      "learning_rate": 1.7486585193911787e-06,
      "loss": 0.2794,
      "step": 634
    },
    {
      "epoch": 1.6256,
      "grad_norm": 1.704848209821893,
      "learning_rate": 1.7254979596141886e-06,
      "loss": 0.2616,
      "step": 635
    },
    {
      "epoch": 1.62816,
      "grad_norm": 1.8450853254842057,
      "learning_rate": 1.7024773116177839e-06,
      "loss": 0.2912,
      "step": 636
    },
    {
      "epoch": 1.63072,
      "grad_norm": 1.7926242028598987,
      "learning_rate": 1.6795969646531685e-06,
      "loss": 0.2617,
      "step": 637
    },
    {
      "epoch": 1.63328,
      "grad_norm": 1.7925132560586257,
      "learning_rate": 1.6568573055992188e-06,
      "loss": 0.2784,
      "step": 638
    },
    {
      "epoch": 1.63584,
      "grad_norm": 1.7663875310273034,
      "learning_rate": 1.6342587189559577e-06,
      "loss": 0.2696,
      "step": 639
    },
    {
      "epoch": 1.6383999999999999,
      "grad_norm": 1.6485491658987015,
      "learning_rate": 1.6118015868380387e-06,
      "loss": 0.2386,
      "step": 640
    },
    {
      "epoch": 1.64096,
      "grad_norm": 1.7988576600138655,
      "learning_rate": 1.5894862889682906e-06,
      "loss": 0.2955,
      "step": 641
    },
    {
      "epoch": 1.64352,
      "grad_norm": 1.714936041943462,
      "learning_rate": 1.5673132026713046e-06,
      "loss": 0.2843,
      "step": 642
    },
    {
      "epoch": 1.64608,
      "grad_norm": 1.967807455369453,
      "learning_rate": 1.5452827028670358e-06,
      "loss": 0.3071,
      "step": 643
    },
    {
      "epoch": 1.6486399999999999,
      "grad_norm": 1.767360909454626,
      "learning_rate": 1.523395162064486e-06,
      "loss": 0.251,
      "step": 644
    },
    {
      "epoch": 1.6512,
      "grad_norm": 1.6381296026383634,
      "learning_rate": 1.50165095035539e-06,
      "loss": 0.2755,
      "step": 645
    },
    {
      "epoch": 1.6537600000000001,
      "grad_norm": 1.5619584246682827,
      "learning_rate": 1.480050435407957e-06,
      "loss": 0.2614,
      "step": 646
    },
    {
      "epoch": 1.65632,
      "grad_norm": 1.6327509469165924,
      "learning_rate": 1.4585939824606621e-06,
      "loss": 0.255,
      "step": 647
    },
    {
      "epoch": 1.65888,
      "grad_norm": 1.563354867722546,
      "learning_rate": 1.437281954316071e-06,
      "loss": 0.2807,
      "step": 648
    },
    {
      "epoch": 1.66144,
      "grad_norm": 1.7550766801341493,
      "learning_rate": 1.4161147113346917e-06,
      "loss": 0.2702,
      "step": 649
    },
    {
      "epoch": 1.6640000000000001,
      "grad_norm": 1.6865725533510028,
      "learning_rate": 1.395092611428902e-06,
      "loss": 0.251,
      "step": 650
    },
    {
      "epoch": 1.66656,
      "grad_norm": 1.8531854972293114,
      "learning_rate": 1.374216010056879e-06,
      "loss": 0.2985,
      "step": 651
    },
    {
      "epoch": 1.66912,
      "grad_norm": 1.9209594828542413,
      "learning_rate": 1.353485260216596e-06,
      "loss": 0.3067,
      "step": 652
    },
    {
      "epoch": 1.67168,
      "grad_norm": 1.616385407100715,
      "learning_rate": 1.3329007124398608e-06,
      "loss": 0.2331,
      "step": 653
    },
    {
      "epoch": 1.67424,
      "grad_norm": 1.8003991478619372,
      "learning_rate": 1.3124627147863733e-06,
      "loss": 0.2878,
      "step": 654
    },
    {
      "epoch": 1.6768,
      "grad_norm": 1.5521426456650567,
      "learning_rate": 1.2921716128378581e-06,
      "loss": 0.2522,
      "step": 655
    },
    {
      "epoch": 1.67936,
      "grad_norm": 1.7611518891884141,
      "learning_rate": 1.272027749692203e-06,
      "loss": 0.261,
      "step": 656
    },
    {
      "epoch": 1.6819199999999999,
      "grad_norm": 1.7446813440682067,
      "learning_rate": 1.2520314659576683e-06,
      "loss": 0.2708,
      "step": 657
    },
    {
      "epoch": 1.68448,
      "grad_norm": 1.8976906912021962,
      "learning_rate": 1.2321830997471329e-06,
      "loss": 0.3082,
      "step": 658
    },
    {
      "epoch": 1.68704,
      "grad_norm": 1.5745862289974457,
      "learning_rate": 1.212482986672361e-06,
      "loss": 0.2438,
      "step": 659
    },
    {
      "epoch": 1.6896,
      "grad_norm": 1.7666742654864107,
      "learning_rate": 1.1929314598383423e-06,
      "loss": 0.2664,
      "step": 660
    },
    {
      "epoch": 1.6921599999999999,
      "grad_norm": 1.7635144087752495,
      "learning_rate": 1.1735288498376495e-06,
      "loss": 0.2784,
      "step": 661
    },
    {
      "epoch": 1.69472,
      "grad_norm": 1.6871885012565122,
      "learning_rate": 1.1542754847448544e-06,
      "loss": 0.2585,
      "step": 662
    },
    {
      "epoch": 1.6972800000000001,
      "grad_norm": 1.763546085268813,
      "learning_rate": 1.13517169011098e-06,
      "loss": 0.2675,
      "step": 663
    },
    {
      "epoch": 1.69984,
      "grad_norm": 1.6833283054672803,
      "learning_rate": 1.1162177889579906e-06,
      "loss": 0.2456,
      "step": 664
    },
    {
      "epoch": 1.7024,
      "grad_norm": 1.4995582297938723,
      "learning_rate": 1.0974141017733386e-06,
      "loss": 0.2219,
      "step": 665
    },
    {
      "epoch": 1.70496,
      "grad_norm": 1.7935988415350803,
      "learning_rate": 1.078760946504539e-06,
      "loss": 0.2878,
      "step": 666
    },
    {
      "epoch": 1.7075200000000001,
      "grad_norm": 1.8128478947806876,
      "learning_rate": 1.0602586385537928e-06,
      "loss": 0.2581,
      "step": 667
    },
    {
      "epoch": 1.71008,
      "grad_norm": 1.63791230975168,
      "learning_rate": 1.041907490772658e-06,
      "loss": 0.2498,
      "step": 668
    },
    {
      "epoch": 1.71264,
      "grad_norm": 1.590925354056578,
      "learning_rate": 1.0237078134567535e-06,
      "loss": 0.2505,
      "step": 669
    },
    {
      "epoch": 1.7151999999999998,
      "grad_norm": 1.7695283124365373,
      "learning_rate": 1.0056599143405244e-06,
      "loss": 0.2754,
      "step": 670
    },
    {
      "epoch": 1.71776,
      "grad_norm": 1.7812963095403938,
      "learning_rate": 9.877640985920268e-07,
      "loss": 0.2798,
      "step": 671
    },
    {
      "epoch": 1.72032,
      "grad_norm": 1.6627323998398744,
      "learning_rate": 9.700206688077707e-07,
      "loss": 0.2298,
      "step": 672
    },
    {
      "epoch": 1.72288,
      "grad_norm": 1.9098592625989281,
      "learning_rate": 9.524299250076052e-07,
      "loss": 0.2805,
      "step": 673
    },
    {
      "epoch": 1.7254399999999999,
      "grad_norm": 1.6937003995052815,
      "learning_rate": 9.349921646296423e-07,
      "loss": 0.2548,
      "step": 674
    },
    {
      "epoch": 1.728,
      "grad_norm": 1.8012637933088234,
      "learning_rate": 9.177076825252351e-07,
      "loss": 0.2343,
      "step": 675
    },
    {
      "epoch": 1.73056,
      "grad_norm": 1.9146685623071344,
      "learning_rate": 9.00576770953987e-07,
      "loss": 0.2783,
      "step": 676
    },
    {
      "epoch": 1.73312,
      "grad_norm": 1.6706056064712593,
      "learning_rate": 8.835997195788071e-07,
      "loss": 0.2596,
      "step": 677
    },
    {
      "epoch": 1.73568,
      "grad_norm": 1.7350656477174768,
      "learning_rate": 8.667768154610124e-07,
      "loss": 0.2754,
      "step": 678
    },
    {
      "epoch": 1.73824,
      "grad_norm": 1.765131272482126,
      "learning_rate": 8.501083430554868e-07,
      "loss": 0.2655,
      "step": 679
    },
    {
      "epoch": 1.7408000000000001,
      "grad_norm": 1.7079209480392799,
      "learning_rate": 8.335945842058524e-07,
      "loss": 0.2853,
      "step": 680
    },
    {
      "epoch": 1.74336,
      "grad_norm": 1.659320265734026,
      "learning_rate": 8.172358181397178e-07,
      "loss": 0.2669,
      "step": 681
    },
    {
      "epoch": 1.74592,
      "grad_norm": 1.7216123667879766,
      "learning_rate": 8.010323214639492e-07,
      "loss": 0.2939,
      "step": 682
    },
    {
      "epoch": 1.74848,
      "grad_norm": 1.8167275931675924,
      "learning_rate": 7.849843681599978e-07,
      "loss": 0.2919,
      "step": 683
    },
    {
      "epoch": 1.7510400000000002,
      "grad_norm": 1.7516661490079315,
      "learning_rate": 7.690922295792647e-07,
      "loss": 0.2405,
      "step": 684
    },
    {
      "epoch": 1.7536,
      "grad_norm": 1.7608726427403516,
      "learning_rate": 7.53356174438512e-07,
      "loss": 0.2692,
      "step": 685
    },
    {
      "epoch": 1.75616,
      "grad_norm": 1.7716445711738182,
      "learning_rate": 7.377764688153244e-07,
      "loss": 0.2444,
      "step": 686
    },
    {
      "epoch": 1.7587199999999998,
      "grad_norm": 1.6553834628764956,
      "learning_rate": 7.223533761435986e-07,
      "loss": 0.2283,
      "step": 687
    },
    {
      "epoch": 1.76128,
      "grad_norm": 1.6208484626275992,
      "learning_rate": 7.070871572091076e-07,
      "loss": 0.2447,
      "step": 688
    },
    {
      "epoch": 1.76384,
      "grad_norm": 1.9469256466871052,
      "learning_rate": 6.919780701450684e-07,
      "loss": 0.3117,
      "step": 689
    },
    {
      "epoch": 1.7664,
      "grad_norm": 1.807807654678934,
      "learning_rate": 6.770263704277958e-07,
      "loss": 0.2489,
      "step": 690
    },
    {
      "epoch": 1.7689599999999999,
      "grad_norm": 1.7754566354998111,
      "learning_rate": 6.62232310872375e-07,
      "loss": 0.2933,
      "step": 691
    },
    {
      "epoch": 1.77152,
      "grad_norm": 2.142560102394874,
      "learning_rate": 6.475961416283838e-07,
      "loss": 0.2976,
      "step": 692
    },
    {
      "epoch": 1.77408,
      "grad_norm": 1.8425369199032686,
      "learning_rate": 6.331181101756733e-07,
      "loss": 0.2525,
      "step": 693
    },
    {
      "epoch": 1.77664,
      "grad_norm": 1.8067216131513493,
      "learning_rate": 6.187984613201703e-07,
      "loss": 0.2724,
      "step": 694
    },
    {
      "epoch": 1.7792,
      "grad_norm": 1.819627845132494,
      "learning_rate": 6.046374371897446e-07,
      "loss": 0.2676,
      "step": 695
    },
    {
      "epoch": 1.78176,
      "grad_norm": 1.6926155476047056,
      "learning_rate": 5.906352772301193e-07,
      "loss": 0.2734,
      "step": 696
    },
    {
      "epoch": 1.7843200000000001,
      "grad_norm": 1.7608510485979083,
      "learning_rate": 5.767922182008145e-07,
      "loss": 0.2753,
      "step": 697
    },
    {
      "epoch": 1.78688,
      "grad_norm": 1.715763266425071,
      "learning_rate": 5.631084941711473e-07,
      "loss": 0.2673,
      "step": 698
    },
    {
      "epoch": 1.78944,
      "grad_norm": 1.6687789738165386,
      "learning_rate": 5.495843365162701e-07,
      "loss": 0.2901,
      "step": 699
    },
    {
      "epoch": 1.792,
      "grad_norm": 1.8537817214382708,
      "learning_rate": 5.362199739132656e-07,
      "loss": 0.2747,
      "step": 700
    },
    {
      "epoch": 1.7945600000000002,
      "grad_norm": 1.6704242281507662,
      "learning_rate": 5.230156323372759e-07,
      "loss": 0.2524,
      "step": 701
    },
    {
      "epoch": 1.79712,
      "grad_norm": 1.825247698595894,
      "learning_rate": 5.099715350576817e-07,
      "loss": 0.2676,
      "step": 702
    },
    {
      "epoch": 1.79968,
      "grad_norm": 1.7300015240890014,
      "learning_rate": 4.970879026343256e-07,
      "loss": 0.2747,
      "step": 703
    },
    {
      "epoch": 1.8022399999999998,
      "grad_norm": 1.707816251456467,
      "learning_rate": 4.843649529137861e-07,
      "loss": 0.2708,
      "step": 704
    },
    {
      "epoch": 1.8048,
      "grad_norm": 1.8785886608496822,
      "learning_rate": 4.7180290102568973e-07,
      "loss": 0.3164,
      "step": 705
    },
    {
      "epoch": 1.80736,
      "grad_norm": 1.8644648318252912,
      "learning_rate": 4.594019593790799e-07,
      "loss": 0.2927,
      "step": 706
    },
    {
      "epoch": 1.80992,
      "grad_norm": 1.8493889520810634,
      "learning_rate": 4.471623376588197e-07,
      "loss": 0.2628,
      "step": 707
    },
    {
      "epoch": 1.8124799999999999,
      "grad_norm": 1.7845383273554698,
      "learning_rate": 4.35084242822047e-07,
      "loss": 0.2582,
      "step": 708
    },
    {
      "epoch": 1.81504,
      "grad_norm": 1.8293493217735093,
      "learning_rate": 4.2316787909467915e-07,
      "loss": 0.2753,
      "step": 709
    },
    {
      "epoch": 1.8176,
      "grad_norm": 1.6894890585749698,
      "learning_rate": 4.114134479679543e-07,
      "loss": 0.2678,
      "step": 710
    },
    {
      "epoch": 1.82016,
      "grad_norm": 1.7542138094486555,
      "learning_rate": 3.998211481950254e-07,
      "loss": 0.2892,
      "step": 711
    },
    {
      "epoch": 1.82272,
      "grad_norm": 1.8793095620901379,
      "learning_rate": 3.883911757876058e-07,
      "loss": 0.2728,
      "step": 712
    },
    {
      "epoch": 1.82528,
      "grad_norm": 1.7267463710184283,
      "learning_rate": 3.771237240126469e-07,
      "loss": 0.2735,
      "step": 713
    },
    {
      "epoch": 1.8278400000000001,
      "grad_norm": 1.7219666375218627,
      "learning_rate": 3.66018983389077e-07,
      "loss": 0.2597,
      "step": 714
    },
    {
      "epoch": 1.8304,
      "grad_norm": 1.7636190461227865,
      "learning_rate": 3.5507714168457e-07,
      "loss": 0.2665,
      "step": 715
    },
    {
      "epoch": 1.83296,
      "grad_norm": 1.7666528327974367,
      "learning_rate": 3.442983839123826e-07,
      "loss": 0.2805,
      "step": 716
    },
    {
      "epoch": 1.83552,
      "grad_norm": 1.6781083614930392,
      "learning_rate": 3.3368289232822094e-07,
      "loss": 0.246,
      "step": 717
    },
    {
      "epoch": 1.8380800000000002,
      "grad_norm": 1.7603755414192976,
      "learning_rate": 3.232308464271505e-07,
      "loss": 0.2947,
      "step": 718
    },
    {
      "epoch": 1.84064,
      "grad_norm": 1.7521780009843657,
      "learning_rate": 3.1294242294057974e-07,
      "loss": 0.3191,
      "step": 719
    },
    {
      "epoch": 1.8432,
      "grad_norm": 1.6098707300379458,
      "learning_rate": 3.028177958332512e-07,
      "loss": 0.2548,
      "step": 720
    },
    {
      "epoch": 1.8457599999999998,
      "grad_norm": 1.6267142406397461,
      "learning_rate": 2.928571363003152e-07,
      "loss": 0.3028,
      "step": 721
    },
    {
      "epoch": 1.84832,
      "grad_norm": 1.6960630177797111,
      "learning_rate": 2.8306061276442753e-07,
      "loss": 0.2631,
      "step": 722
    },
    {
      "epoch": 1.85088,
      "grad_norm": 1.7493636450152343,
      "learning_rate": 2.7342839087290183e-07,
      "loss": 0.2518,
      "step": 723
    },
    {
      "epoch": 1.85344,
      "grad_norm": 1.6385553511066044,
      "learning_rate": 2.639606334949163e-07,
      "loss": 0.2908,
      "step": 724
    },
    {
      "epoch": 1.8559999999999999,
      "grad_norm": 1.7931640851082686,
      "learning_rate": 2.5465750071874797e-07,
      "loss": 0.2649,
      "step": 725
    },
    {
      "epoch": 1.85856,
      "grad_norm": 1.5912117214737356,
      "learning_rate": 2.455191498490739e-07,
      "loss": 0.2664,
      "step": 726
    },
    {
      "epoch": 1.86112,
      "grad_norm": 1.6678147462368311,
      "learning_rate": 2.365457354043088e-07,
      "loss": 0.2172,
      "step": 727
    },
    {
      "epoch": 1.86368,
      "grad_norm": 1.6035873970448906,
      "learning_rate": 2.27737409113995e-07,
      "loss": 0.2504,
      "step": 728
    },
    {
      "epoch": 1.86624,
      "grad_norm": 1.7528209162894965,
      "learning_rate": 2.1909431991623097e-07,
      "loss": 0.2615,
      "step": 729
    },
    {
      "epoch": 1.8688,
      "grad_norm": 1.8639972671950014,
      "learning_rate": 2.106166139551602e-07,
      "loss": 0.2668,
      "step": 730
    },
    {
      "epoch": 1.8713600000000001,
      "grad_norm": 1.6865465188399893,
      "learning_rate": 2.0230443457849414e-07,
      "loss": 0.2797,
      "step": 731
    },
    {
      "epoch": 1.87392,
      "grad_norm": 1.5210672653088169,
      "learning_rate": 1.941579223350898e-07,
      "loss": 0.2304,
      "step": 732
    },
    {
      "epoch": 1.87648,
      "grad_norm": 1.7085604230659135,
      "learning_rate": 1.8617721497257823e-07,
      "loss": 0.2505,
      "step": 733
    },
    {
      "epoch": 1.87904,
      "grad_norm": 1.8288714006316353,
      "learning_rate": 1.7836244743502762e-07,
      "loss": 0.2364,
      "step": 734
    },
    {
      "epoch": 1.8816000000000002,
      "grad_norm": 1.7484101329116195,
      "learning_rate": 1.7071375186066607e-07,
      "loss": 0.2449,
      "step": 735
    },
    {
      "epoch": 1.88416,
      "grad_norm": 1.6200555865387618,
      "learning_rate": 1.6323125757964799e-07,
      "loss": 0.2692,
      "step": 736
    },
    {
      "epoch": 1.88672,
      "grad_norm": 1.9011939560507523,
      "learning_rate": 1.5591509111186342e-07,
      "loss": 0.2652,
      "step": 737
    },
    {
      "epoch": 1.8892799999999998,
      "grad_norm": 1.7822199769462572,
      "learning_rate": 1.4876537616480335e-07,
      "loss": 0.2881,
      "step": 738
    },
    {
      "epoch": 1.89184,
      "grad_norm": 1.750191048312678,
      "learning_rate": 1.4178223363146226e-07,
      "loss": 0.2622,
      "step": 739
    },
    {
      "epoch": 1.8944,
      "grad_norm": 1.7516915828032618,
      "learning_rate": 1.349657815883032e-07,
      "loss": 0.2961,
      "step": 740
    },
    {
      "epoch": 1.89696,
      "grad_norm": 1.645641455994093,
      "learning_rate": 1.283161352932505e-07,
      "loss": 0.2736,
      "step": 741
    },
    {
      "epoch": 1.8995199999999999,
      "grad_norm": 1.705553244598403,
      "learning_rate": 1.218334071837468e-07,
      "loss": 0.2583,
      "step": 742
    },
    {
      "epoch": 1.90208,
      "grad_norm": 1.7315966835392997,
      "learning_rate": 1.1551770687485142e-07,
      "loss": 0.2758,
      "step": 743
    },
    {
      "epoch": 1.90464,
      "grad_norm": 1.727806848265733,
      "learning_rate": 1.0936914115738717e-07,
      "loss": 0.2657,
      "step": 744
    },
    {
      "epoch": 1.9072,
      "grad_norm": 1.676827461659673,
      "learning_rate": 1.0338781399613307e-07,
      "loss": 0.2642,
      "step": 745
    },
    {
      "epoch": 1.90976,
      "grad_norm": 1.7115198632740858,
      "learning_rate": 9.757382652806791e-08,
      "loss": 0.2545,
      "step": 746
    },
    {
      "epoch": 1.91232,
      "grad_norm": 1.7354830976605933,
      "learning_rate": 9.192727706065829e-08,
      "loss": 0.2583,
      "step": 747
    },
    {
      "epoch": 1.9148800000000001,
      "grad_norm": 1.7582838528396394,
      "learning_rate": 8.644826107019888e-08,
      "loss": 0.2814,
      "step": 748
    },
    {
      "epoch": 1.91744,
      "grad_norm": 1.681917990191324,
      "learning_rate": 8.113687120019587e-08,
      "loss": 0.2601,
      "step": 749
    },
    {
      "epoch": 1.92,
      "grad_norm": 1.7668971882563782,
      "learning_rate": 7.599319725980047e-08,
      "loss": 0.2621,
      "step": 750
    },
    {
      "epoch": 1.92256,
      "grad_norm": 1.7599942208335475,
      "learning_rate": 7.101732622229462e-08,
      "loss": 0.2881,
      "step": 751
    },
    {
      "epoch": 1.9251200000000002,
      "grad_norm": 1.7230238393967752,
      "learning_rate": 6.62093422236132e-08,
      "loss": 0.3086,
      "step": 752
    },
    {
      "epoch": 1.92768,
      "grad_norm": 1.7803538404725028,
      "learning_rate": 6.15693265609274e-08,
      "loss": 0.2647,
      "step": 753
    },
    {
      "epoch": 1.93024,
      "grad_norm": 1.8054504698595564,
      "learning_rate": 5.709735769126479e-08,
      "loss": 0.2815,
      "step": 754
    },
    {
      "epoch": 1.9327999999999999,
      "grad_norm": 1.6120878259133444,
      "learning_rate": 5.279351123019028e-08,
      "loss": 0.2307,
      "step": 755
    },
    {
      "epoch": 1.93536,
      "grad_norm": 1.7147176143131828,
      "learning_rate": 4.8657859950520524e-08,
      "loss": 0.2741,
      "step": 756
    },
    {
      "epoch": 1.93792,
      "grad_norm": 1.826014851535064,
      "learning_rate": 4.469047378109603e-08,
      "loss": 0.2949,
      "step": 757
    },
    {
      "epoch": 1.94048,
      "grad_norm": 1.8033974744681112,
      "learning_rate": 4.0891419805597634e-08,
      "loss": 0.2564,
      "step": 758
    },
    {
      "epoch": 1.9430399999999999,
      "grad_norm": 1.7228110817797906,
      "learning_rate": 3.7260762261416287e-08,
      "loss": 0.2654,
      "step": 759
    },
    {
      "epoch": 1.9456,
      "grad_norm": 1.7114724793916518,
      "learning_rate": 3.379856253855951e-08,
      "loss": 0.2441,
      "step": 760
    },
    {
      "epoch": 1.9481600000000001,
      "grad_norm": 1.736060820260858,
      "learning_rate": 3.0504879178622214e-08,
      "loss": 0.2748,
      "step": 761
    },
    {
      "epoch": 1.95072,
      "grad_norm": 1.7505236918858846,
      "learning_rate": 2.73797678737886e-08,
      "loss": 0.2456,
      "step": 762
    },
    {
      "epoch": 1.95328,
      "grad_norm": 1.5859654595806796,
      "learning_rate": 2.442328146589512e-08,
      "loss": 0.2799,
      "step": 763
    },
    {
      "epoch": 1.95584,
      "grad_norm": 1.7039588055868866,
      "learning_rate": 2.163546994553789e-08,
      "loss": 0.2402,
      "step": 764
    },
    {
      "epoch": 1.9584000000000001,
      "grad_norm": 1.8531697022252631,
      "learning_rate": 1.9016380451223337e-08,
      "loss": 0.2944,
      "step": 765
    },
    {
      "epoch": 1.96096,
      "grad_norm": 1.7102421117876718,
      "learning_rate": 1.656605726857441e-08,
      "loss": 0.2704,
      "step": 766
    },
    {
      "epoch": 1.96352,
      "grad_norm": 2.0294788740008176,
      "learning_rate": 1.4284541829580056e-08,
      "loss": 0.3189,
      "step": 767
    },
    {
      "epoch": 1.96608,
      "grad_norm": 1.8662967648141273,
      "learning_rate": 1.2171872711895794e-08,
      "loss": 0.2729,
      "step": 768
    },
    {
      "epoch": 1.96864,
      "grad_norm": 1.6195984132177164,
      "learning_rate": 1.0228085638190887e-08,
      "loss": 0.2613,
      "step": 769
    },
    {
      "epoch": 1.9712,
      "grad_norm": 1.5450708746300255,
      "learning_rate": 8.453213475543287e-09,
      "loss": 0.2625,
      "step": 770
    },
    {
      "epoch": 1.97376,
      "grad_norm": 1.69409357688793,
      "learning_rate": 6.84728623488562e-09,
      "loss": 0.2557,
      "step": 771
    },
    {
      "epoch": 1.9763199999999999,
      "grad_norm": 1.812223784293616,
      "learning_rate": 5.410331070498931e-09,
      "loss": 0.2712,
      "step": 772
    },
    {
      "epoch": 1.97888,
      "grad_norm": 1.6091781900571478,
      "learning_rate": 4.142372279548612e-09,
      "loss": 0.2593,
      "step": 773
    },
    {
      "epoch": 1.98144,
      "grad_norm": 1.6908756673392302,
      "learning_rate": 3.043431301678057e-09,
      "loss": 0.2226,
      "step": 774
    },
    {
      "epoch": 1.984,
      "grad_norm": 1.7859820632732437,
      "learning_rate": 2.11352671864562e-09,
      "loss": 0.2807,
      "step": 775
    },
    {
      "epoch": 1.9865599999999999,
      "grad_norm": 1.7470027221404476,
      "learning_rate": 1.3526742540070913e-09,
      "loss": 0.2718,
      "step": 776
    },
    {
      "epoch": 1.98912,
      "grad_norm": 1.8210620903336188,
      "learning_rate": 7.608867728536862e-10,
      "loss": 0.2749,
      "step": 777
    },
    {
      "epoch": 1.9916800000000001,
      "grad_norm": 1.9294520890967608,
      "learning_rate": 3.381742815944389e-10,
      "loss": 0.2902,
      "step": 778
    },
    {
      "epoch": 1.99424,
      "grad_norm": 1.7057897433651361,
      "learning_rate": 8.454392778189935e-11,
      "loss": 0.2478,
      "step": 779
    },
    {
      "epoch": 1.9968,
      "grad_norm": 1.7268558478851974,
      "learning_rate": 0.0,
      "loss": 0.2642,
      "step": 780
    },
    {
      "epoch": 1.9968,
      "step": 780,
      "total_flos": 440534549233664.0,
      "train_loss": 0.46617485760496213,
      "train_runtime": 27454.835,
      "train_samples_per_second": 1.821,
      "train_steps_per_second": 0.028
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 780,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 440534549233664.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}