{
  "best_metric": 0.17886345088481903,
  "best_model_checkpoint": "saves/chess/generate_strategy/checkpoint-19208",
  "epoch": 9.996042491147678,
  "eval_steps": 500,
  "global_step": 24000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0416579879191835,
      "grad_norm": 8.262849587594042,
      "learning_rate": 2.0833333333333333e-07,
      "loss": 3.9539,
      "step": 100
    },
    {
      "epoch": 0.083315975838367,
      "grad_norm": 2.1815007336055197,
      "learning_rate": 4.1666666666666667e-07,
      "loss": 0.4086,
      "step": 200
    },
    {
      "epoch": 0.12497396375755052,
      "grad_norm": 1.094766614987478,
      "learning_rate": 6.25e-07,
      "loss": 0.2144,
      "step": 300
    },
    {
      "epoch": 0.166631951676734,
      "grad_norm": 1.015902700288932,
      "learning_rate": 8.333333333333333e-07,
      "loss": 0.2103,
      "step": 400
    },
    {
      "epoch": 0.20828993959591752,
      "grad_norm": 1.083927107302103,
      "learning_rate": 1.0416666666666667e-06,
      "loss": 0.2075,
      "step": 500
    },
    {
      "epoch": 0.24994792751510103,
      "grad_norm": 0.8787980351861964,
      "learning_rate": 1.25e-06,
      "loss": 0.2049,
      "step": 600
    },
    {
      "epoch": 0.29160591543428455,
      "grad_norm": 0.5454433660253264,
      "learning_rate": 1.4583333333333335e-06,
      "loss": 0.2001,
      "step": 700
    },
    {
      "epoch": 0.333263903353468,
      "grad_norm": 0.6745519185509095,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 0.1916,
      "step": 800
    },
    {
      "epoch": 0.3749218912726515,
      "grad_norm": 0.3263511819812891,
      "learning_rate": 1.8750000000000003e-06,
      "loss": 0.1849,
      "step": 900
    },
    {
      "epoch": 0.41657987919183503,
      "grad_norm": 3.199309878765134,
      "learning_rate": 2.0833333333333334e-06,
      "loss": 0.1847,
      "step": 1000
    },
    {
      "epoch": 0.45823786711101855,
      "grad_norm": 0.4060106618321982,
      "learning_rate": 2.2916666666666666e-06,
      "loss": 0.1845,
      "step": 1100
    },
    {
      "epoch": 0.49989585503020206,
      "grad_norm": 0.36591848729629267,
      "learning_rate": 2.5e-06,
      "loss": 0.1818,
      "step": 1200
    },
    {
      "epoch": 0.5415538429493856,
      "grad_norm": 0.35361804320631923,
      "learning_rate": 2.7083333333333334e-06,
      "loss": 0.1807,
      "step": 1300
    },
    {
      "epoch": 0.5832118308685691,
      "grad_norm": 0.35892337648275896,
      "learning_rate": 2.916666666666667e-06,
      "loss": 0.1806,
      "step": 1400
    },
    {
      "epoch": 0.6248698187877526,
      "grad_norm": 0.2820867931414937,
      "learning_rate": 3.125e-06,
      "loss": 0.1806,
      "step": 1500
    },
    {
      "epoch": 0.666527806706936,
      "grad_norm": 0.3098924570604735,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.1808,
      "step": 1600
    },
    {
      "epoch": 0.7081857946261195,
      "grad_norm": 0.29714949257038253,
      "learning_rate": 3.5416666666666673e-06,
      "loss": 0.1803,
      "step": 1700
    },
    {
      "epoch": 0.749843782545303,
      "grad_norm": 0.302226244442205,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.1805,
      "step": 1800
    },
    {
      "epoch": 0.7915017704644866,
      "grad_norm": 0.3329180855942572,
      "learning_rate": 3.958333333333333e-06,
      "loss": 0.1833,
      "step": 1900
    },
    {
      "epoch": 0.8331597583836701,
      "grad_norm": 0.28770265809452183,
      "learning_rate": 4.166666666666667e-06,
      "loss": 0.1807,
      "step": 2000
    },
    {
      "epoch": 0.8748177463028536,
      "grad_norm": 0.3308819875323557,
      "learning_rate": 4.3750000000000005e-06,
      "loss": 0.1804,
      "step": 2100
    },
    {
      "epoch": 0.9164757342220371,
      "grad_norm": 0.3163212399640271,
      "learning_rate": 4.583333333333333e-06,
      "loss": 0.1805,
      "step": 2200
    },
    {
      "epoch": 0.9581337221412206,
      "grad_norm": 0.3898310274135571,
      "learning_rate": 4.791666666666668e-06,
      "loss": 0.1803,
      "step": 2300
    },
    {
      "epoch": 0.9997917100604041,
      "grad_norm": 0.27784332983216586,
      "learning_rate": 5e-06,
      "loss": 0.1808,
      "step": 2400
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.18106774985790253,
      "eval_runtime": 196.6682,
      "eval_samples_per_second": 1388.623,
      "eval_steps_per_second": 2.715,
      "step": 2401
    },
    {
      "epoch": 1.0412414080399917,
      "grad_norm": 0.2936543487056633,
      "learning_rate": 4.999735579817769e-06,
      "loss": 0.1807,
      "step": 2500
    },
    {
      "epoch": 1.082899395959175,
      "grad_norm": 0.2809875255295402,
      "learning_rate": 4.998942375205502e-06,
      "loss": 0.1801,
      "step": 2600
    },
    {
      "epoch": 1.1245573838783587,
      "grad_norm": 0.2760622198201079,
      "learning_rate": 4.997620553954645e-06,
      "loss": 0.1801,
      "step": 2700
    },
    {
      "epoch": 1.166215371797542,
      "grad_norm": 0.2710350326429577,
      "learning_rate": 4.995770395678171e-06,
      "loss": 0.1803,
      "step": 2800
    },
    {
      "epoch": 1.2078733597167257,
      "grad_norm": 0.20931696168572392,
      "learning_rate": 4.993392291751431e-06,
      "loss": 0.1803,
      "step": 2900
    },
    {
      "epoch": 1.2495313476359091,
      "grad_norm": 0.24323887106839603,
      "learning_rate": 4.990486745229364e-06,
      "loss": 0.1799,
      "step": 3000
    },
    {
      "epoch": 1.2911893355550927,
      "grad_norm": 0.2815796357302052,
      "learning_rate": 4.9870543707400835e-06,
      "loss": 0.1798,
      "step": 3100
    },
    {
      "epoch": 1.3328473234742761,
      "grad_norm": 0.23664820561946712,
      "learning_rate": 4.983095894354858e-06,
      "loss": 0.1801,
      "step": 3200
    },
    {
      "epoch": 1.3745053113934598,
      "grad_norm": 0.3083911955290968,
      "learning_rate": 4.978612153434527e-06,
      "loss": 0.1801,
      "step": 3300
    },
    {
      "epoch": 1.4161632993126432,
      "grad_norm": 0.24337206279187154,
      "learning_rate": 4.973604096452361e-06,
      "loss": 0.1799,
      "step": 3400
    },
    {
      "epoch": 1.4578212872318268,
      "grad_norm": 0.2691338598173961,
      "learning_rate": 4.968072782793436e-06,
      "loss": 0.1798,
      "step": 3500
    },
    {
      "epoch": 1.4994792751510102,
      "grad_norm": 0.1859964729302664,
      "learning_rate": 4.962019382530521e-06,
      "loss": 0.18,
      "step": 3600
    },
    {
      "epoch": 1.5411372630701936,
      "grad_norm": 0.29588302582709847,
      "learning_rate": 4.955445176176577e-06,
      "loss": 0.18,
      "step": 3700
    },
    {
      "epoch": 1.5827952509893772,
      "grad_norm": 0.24224751463035848,
      "learning_rate": 4.948351554413879e-06,
      "loss": 0.1993,
      "step": 3800
    },
    {
      "epoch": 1.6244532389085609,
      "grad_norm": 0.24926986804364754,
      "learning_rate": 4.9407400177998335e-06,
      "loss": 0.1799,
      "step": 3900
    },
    {
      "epoch": 1.6661112268277443,
      "grad_norm": 0.26907499271712193,
      "learning_rate": 4.93261217644956e-06,
      "loss": 0.1796,
      "step": 4000
    },
    {
      "epoch": 1.7077692147469277,
      "grad_norm": 0.24652167596434857,
      "learning_rate": 4.9239697496952904e-06,
      "loss": 0.1797,
      "step": 4100
    },
    {
      "epoch": 1.7494272026661113,
      "grad_norm": 0.26360641338937,
      "learning_rate": 4.914814565722671e-06,
      "loss": 0.1797,
      "step": 4200
    },
    {
      "epoch": 1.7910851905852947,
      "grad_norm": 0.21211424396568565,
      "learning_rate": 4.905148561184033e-06,
      "loss": 0.1798,
      "step": 4300
    },
    {
      "epoch": 1.832743178504478,
      "grad_norm": 0.23174306094818595,
      "learning_rate": 4.894973780788722e-06,
      "loss": 0.1798,
      "step": 4400
    },
    {
      "epoch": 1.8744011664236617,
      "grad_norm": 0.20239856810705756,
      "learning_rate": 4.884292376870567e-06,
      "loss": 0.1797,
      "step": 4500
    },
    {
      "epoch": 1.9160591543428453,
      "grad_norm": 0.20895880362963307,
      "learning_rate": 4.873106608932585e-06,
      "loss": 0.1796,
      "step": 4600
    },
    {
      "epoch": 1.9577171422620288,
      "grad_norm": 0.2341875351736524,
      "learning_rate": 4.861418843169012e-06,
      "loss": 0.1797,
      "step": 4700
    },
    {
      "epoch": 1.9993751301812122,
      "grad_norm": 0.20045835157915606,
      "learning_rate": 4.849231551964771e-06,
      "loss": 0.1796,
      "step": 4800
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.17972978949546814,
      "eval_runtime": 196.3636,
      "eval_samples_per_second": 1390.777,
      "eval_steps_per_second": 2.719,
      "step": 4802
    },
    {
      "epoch": 2.0408248281607997,
      "grad_norm": 0.21309941078379252,
      "learning_rate": 4.836547313372472e-06,
      "loss": 0.1795,
      "step": 4900
    },
    {
      "epoch": 2.0824828160799833,
      "grad_norm": 0.19717578427183138,
      "learning_rate": 4.823368810567056e-06,
      "loss": 0.1794,
      "step": 5000
    },
    {
      "epoch": 2.124140803999167,
      "grad_norm": 0.23023011075724995,
      "learning_rate": 4.809698831278217e-06,
      "loss": 0.1802,
      "step": 5100
    },
    {
      "epoch": 2.16579879191835,
      "grad_norm": 0.21578484379978355,
      "learning_rate": 4.7955402672006855e-06,
      "loss": 0.18,
      "step": 5200
    },
    {
      "epoch": 2.2074567798375337,
      "grad_norm": 0.21410225528440446,
      "learning_rate": 4.780896113382536e-06,
      "loss": 0.1798,
      "step": 5300
    },
    {
      "epoch": 2.2491147677567174,
      "grad_norm": 0.24923656549560563,
      "learning_rate": 4.765769467591626e-06,
      "loss": 0.1796,
      "step": 5400
    },
    {
      "epoch": 2.290772755675901,
      "grad_norm": 0.27043973727195314,
      "learning_rate": 4.750163529660303e-06,
      "loss": 0.1799,
      "step": 5500
    },
    {
      "epoch": 2.332430743595084,
      "grad_norm": 0.20084508849747548,
      "learning_rate": 4.734081600808531e-06,
      "loss": 0.1796,
      "step": 5600
    },
    {
      "epoch": 2.374088731514268,
      "grad_norm": 0.17037675166345598,
      "learning_rate": 4.717527082945555e-06,
      "loss": 0.1797,
      "step": 5700
    },
    {
      "epoch": 2.4157467194334514,
      "grad_norm": 0.20792174660657012,
      "learning_rate": 4.700503477950278e-06,
      "loss": 0.1797,
      "step": 5800
    },
    {
      "epoch": 2.457404707352635,
      "grad_norm": 0.20444912332175158,
      "learning_rate": 4.6830143869304904e-06,
      "loss": 0.1799,
      "step": 5900
    },
    {
      "epoch": 2.4990626952718182,
      "grad_norm": 0.2160441899332462,
      "learning_rate": 4.665063509461098e-06,
      "loss": 0.1797,
      "step": 6000
    },
    {
      "epoch": 2.540720683191002,
      "grad_norm": 0.25556787549882387,
      "learning_rate": 4.646654642801533e-06,
      "loss": 0.1794,
      "step": 6100
    },
    {
      "epoch": 2.5823786711101855,
      "grad_norm": 0.22198410769602075,
      "learning_rate": 4.627791681092499e-06,
      "loss": 0.1794,
      "step": 6200
    },
    {
      "epoch": 2.624036659029369,
      "grad_norm": 0.19549701905963526,
      "learning_rate": 4.608478614532215e-06,
      "loss": 0.1795,
      "step": 6300
    },
    {
      "epoch": 2.6656946469485523,
      "grad_norm": 0.24454736703986502,
      "learning_rate": 4.588719528532342e-06,
      "loss": 0.1797,
      "step": 6400
    },
    {
      "epoch": 2.707352634867736,
      "grad_norm": 0.20111965276500102,
      "learning_rate": 4.568518602853776e-06,
      "loss": 0.1797,
      "step": 6500
    },
    {
      "epoch": 2.7490106227869195,
      "grad_norm": 0.2155615827433472,
      "learning_rate": 4.54788011072248e-06,
      "loss": 0.1796,
      "step": 6600
    },
    {
      "epoch": 2.7906686107061027,
      "grad_norm": 0.23518049751986453,
      "learning_rate": 4.526808417925531e-06,
      "loss": 0.1796,
      "step": 6700
    },
    {
      "epoch": 2.8323265986252864,
      "grad_norm": 0.2088881277827675,
      "learning_rate": 4.50530798188761e-06,
      "loss": 0.1795,
      "step": 6800
    },
    {
      "epoch": 2.87398458654447,
      "grad_norm": 0.22027451607755855,
      "learning_rate": 4.4833833507280884e-06,
      "loss": 0.1794,
      "step": 6900
    },
    {
      "epoch": 2.9156425744636536,
      "grad_norm": 0.20366425013850817,
      "learning_rate": 4.46103916229894e-06,
      "loss": 0.1793,
      "step": 7000
    },
    {
      "epoch": 2.957300562382837,
      "grad_norm": 0.2718663681076218,
      "learning_rate": 4.438280143203665e-06,
      "loss": 0.1796,
      "step": 7100
    },
    {
      "epoch": 2.9989585503020204,
      "grad_norm": 0.19182709064421555,
      "learning_rate": 4.415111107797445e-06,
      "loss": 0.1794,
      "step": 7200
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.1794959157705307,
      "eval_runtime": 196.4289,
      "eval_samples_per_second": 1390.315,
      "eval_steps_per_second": 2.719,
      "step": 7203
    },
    {
      "epoch": 3.040408248281608,
      "grad_norm": 0.195058367609666,
      "learning_rate": 4.391536957168733e-06,
      "loss": 0.1798,
      "step": 7300
    },
    {
      "epoch": 3.0820662362007916,
      "grad_norm": 0.2256357073328012,
      "learning_rate": 4.367562678102491e-06,
      "loss": 0.1795,
      "step": 7400
    },
    {
      "epoch": 3.123724224119975,
      "grad_norm": 0.2129481809880029,
      "learning_rate": 4.34319334202531e-06,
      "loss": 0.1795,
      "step": 7500
    },
    {
      "epoch": 3.1653822120391584,
      "grad_norm": 0.1689665633552094,
      "learning_rate": 4.318434103932622e-06,
      "loss": 0.1795,
      "step": 7600
    },
    {
      "epoch": 3.207040199958342,
      "grad_norm": 0.18434140023135,
      "learning_rate": 4.293290201298224e-06,
      "loss": 0.1796,
      "step": 7700
    },
    {
      "epoch": 3.2486981878775256,
      "grad_norm": 0.2103528683280332,
      "learning_rate": 4.267766952966369e-06,
      "loss": 0.1793,
      "step": 7800
    },
    {
      "epoch": 3.290356175796709,
      "grad_norm": 0.16087446181904855,
      "learning_rate": 4.241869758026638e-06,
      "loss": 0.1794,
      "step": 7900
    },
    {
      "epoch": 3.3320141637158924,
      "grad_norm": 0.22569144057534085,
      "learning_rate": 4.215604094671835e-06,
      "loss": 0.1792,
      "step": 8000
    },
    {
      "epoch": 3.373672151635076,
      "grad_norm": 0.19990473196998446,
      "learning_rate": 4.188975519039151e-06,
      "loss": 0.1794,
      "step": 8100
    },
    {
      "epoch": 3.4153301395542597,
      "grad_norm": 0.1902243355455867,
      "learning_rate": 4.161989664034844e-06,
      "loss": 0.1794,
      "step": 8200
    },
    {
      "epoch": 3.456988127473443,
      "grad_norm": 0.18824118604006632,
      "learning_rate": 4.134652238142674e-06,
      "loss": 0.1794,
      "step": 8300
    },
    {
      "epoch": 3.4986461153926265,
      "grad_norm": 0.19597204875441573,
      "learning_rate": 4.106969024216348e-06,
      "loss": 0.1794,
      "step": 8400
    },
    {
      "epoch": 3.54030410331181,
      "grad_norm": 0.17674897479656335,
      "learning_rate": 4.078945878256244e-06,
      "loss": 0.1793,
      "step": 8500
    },
    {
      "epoch": 3.5819620912309933,
      "grad_norm": 0.19658906636767987,
      "learning_rate": 4.0505887281706505e-06,
      "loss": 0.1794,
      "step": 8600
    },
    {
      "epoch": 3.623620079150177,
      "grad_norm": 0.1607909455989355,
      "learning_rate": 4.021903572521802e-06,
      "loss": 0.1794,
      "step": 8700
    },
    {
      "epoch": 3.6652780670693605,
      "grad_norm": 0.18982136425367155,
      "learning_rate": 3.992896479256966e-06,
      "loss": 0.1793,
      "step": 8800
    },
    {
      "epoch": 3.706936054988544,
      "grad_norm": 0.18212426964310202,
      "learning_rate": 3.963573584424852e-06,
      "loss": 0.1794,
      "step": 8900
    },
    {
      "epoch": 3.748594042907728,
      "grad_norm": 0.18731109638030716,
      "learning_rate": 3.933941090877615e-06,
      "loss": 0.1799,
      "step": 9000
    },
    {
      "epoch": 3.790252030826911,
      "grad_norm": 0.2243920924541318,
      "learning_rate": 3.9040052669587325e-06,
      "loss": 0.1863,
      "step": 9100
    },
    {
      "epoch": 3.8319100187460946,
      "grad_norm": 0.19665494095424324,
      "learning_rate": 3.8737724451770155e-06,
      "loss": 0.1793,
      "step": 9200
    },
    {
      "epoch": 3.8735680066652782,
      "grad_norm": 0.1709097835399287,
      "learning_rate": 3.8432490208670605e-06,
      "loss": 0.1792,
      "step": 9300
    },
    {
      "epoch": 3.9152259945844614,
      "grad_norm": 0.1519558310026607,
      "learning_rate": 3.8124414508364005e-06,
      "loss": 0.1792,
      "step": 9400
    },
    {
      "epoch": 3.956883982503645,
      "grad_norm": 0.18615584510557248,
      "learning_rate": 3.7813562519996633e-06,
      "loss": 0.1791,
      "step": 9500
    },
    {
      "epoch": 3.9985419704228287,
      "grad_norm": 0.14216906700933155,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.1792,
      "step": 9600
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.17919312417507172,
      "eval_runtime": 196.5199,
      "eval_samples_per_second": 1389.671,
      "eval_steps_per_second": 2.717,
      "step": 9604
    },
    {
      "epoch": 4.039991668402416,
      "grad_norm": 0.1981373334933009,
      "learning_rate": 3.7183793278181063e-06,
      "loss": 0.1793,
      "step": 9700
    },
    {
      "epoch": 4.081649656321599,
      "grad_norm": 0.1796707844873524,
      "learning_rate": 3.6865009243691015e-06,
      "loss": 0.1791,
      "step": 9800
    },
    {
      "epoch": 4.123307644240783,
      "grad_norm": 0.21582792834146144,
      "learning_rate": 3.654371533087586e-06,
      "loss": 0.1792,
      "step": 9900
    },
    {
      "epoch": 4.164965632159967,
      "grad_norm": 0.22285894509633086,
      "learning_rate": 3.621997950501156e-06,
      "loss": 0.179,
      "step": 10000
    },
    {
      "epoch": 4.20662362007915,
      "grad_norm": 0.1947839176316504,
      "learning_rate": 3.5893870247926986e-06,
      "loss": 0.1792,
      "step": 10100
    },
    {
      "epoch": 4.248281607998334,
      "grad_norm": 0.18044045004936568,
      "learning_rate": 3.556545654351749e-06,
      "loss": 0.1791,
      "step": 10200
    },
    {
      "epoch": 4.2899395959175175,
      "grad_norm": 0.21629122720481903,
      "learning_rate": 3.5234807863152316e-06,
      "loss": 0.1793,
      "step": 10300
    },
    {
      "epoch": 4.3315975838367,
      "grad_norm": 0.15404290423986947,
      "learning_rate": 3.4901994150978926e-06,
      "loss": 0.1791,
      "step": 10400
    },
    {
      "epoch": 4.373255571755884,
      "grad_norm": 0.16032922618842949,
      "learning_rate": 3.4567085809127247e-06,
      "loss": 0.1791,
      "step": 10500
    },
    {
      "epoch": 4.4149135596750675,
      "grad_norm": 0.1495191719599753,
      "learning_rate": 3.4230153682817112e-06,
      "loss": 0.1791,
      "step": 10600
    },
    {
      "epoch": 4.456571547594251,
      "grad_norm": 0.19697439856186114,
      "learning_rate": 3.389126904537192e-06,
      "loss": 0.1791,
      "step": 10700
    },
    {
      "epoch": 4.498229535513435,
      "grad_norm": 0.17156322418134476,
      "learning_rate": 3.3550503583141726e-06,
      "loss": 0.1791,
      "step": 10800
    },
    {
      "epoch": 4.539887523432618,
      "grad_norm": 0.1561878142062692,
      "learning_rate": 3.3207929380339034e-06,
      "loss": 0.1792,
      "step": 10900
    },
    {
      "epoch": 4.581545511351802,
      "grad_norm": 0.1828679685381653,
      "learning_rate": 3.2863618903790346e-06,
      "loss": 0.1791,
      "step": 11000
    },
    {
      "epoch": 4.623203499270986,
      "grad_norm": 0.1802733896031037,
      "learning_rate": 3.2517644987606827e-06,
      "loss": 0.1792,
      "step": 11100
    },
    {
      "epoch": 4.664861487190168,
      "grad_norm": 0.15579534435978112,
      "learning_rate": 3.217008081777726e-06,
      "loss": 0.1791,
      "step": 11200
    },
    {
      "epoch": 4.706519475109352,
      "grad_norm": 0.16638908065693153,
      "learning_rate": 3.182099991668653e-06,
      "loss": 0.1791,
      "step": 11300
    },
    {
      "epoch": 4.748177463028536,
      "grad_norm": 0.18397163828033228,
      "learning_rate": 3.147047612756302e-06,
      "loss": 0.1792,
      "step": 11400
    },
    {
      "epoch": 4.789835450947719,
      "grad_norm": 0.17751483450519995,
      "learning_rate": 3.1118583598858097e-06,
      "loss": 0.179,
      "step": 11500
    },
    {
      "epoch": 4.831493438866903,
      "grad_norm": 0.1808778224251496,
      "learning_rate": 3.0765396768561005e-06,
      "loss": 0.179,
      "step": 11600
    },
    {
      "epoch": 4.8731514267860865,
      "grad_norm": 0.17593346330767928,
      "learning_rate": 3.0410990348452572e-06,
      "loss": 0.1793,
      "step": 11700
    },
    {
      "epoch": 4.91480941470527,
      "grad_norm": 0.15824861181745342,
      "learning_rate": 3.0055439308300954e-06,
      "loss": 0.1791,
      "step": 11800
    },
    {
      "epoch": 4.956467402624453,
      "grad_norm": 0.21055777806239853,
      "learning_rate": 2.96988188600028e-06,
      "loss": 0.1792,
      "step": 11900
    },
    {
      "epoch": 4.9981253905436365,
      "grad_norm": 0.15352806003656314,
      "learning_rate": 2.9341204441673267e-06,
      "loss": 0.1791,
      "step": 12000
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.17911389470100403,
      "eval_runtime": 196.4564,
      "eval_samples_per_second": 1390.12,
      "eval_steps_per_second": 2.718,
      "step": 12005
    },
    {
      "epoch": 5.0395750885232244,
      "grad_norm": 0.1891820592041876,
      "learning_rate": 2.898267170168807e-06,
      "loss": 0.1791,
      "step": 12100
    },
    {
      "epoch": 5.081233076442408,
      "grad_norm": 0.14302405130068518,
      "learning_rate": 2.862329648268117e-06,
      "loss": 0.1789,
      "step": 12200
    },
    {
      "epoch": 5.122891064361592,
      "grad_norm": 0.2215960599158716,
      "learning_rate": 2.82631548055013e-06,
      "loss": 0.1792,
      "step": 12300
    },
    {
      "epoch": 5.164549052280774,
      "grad_norm": 0.1566593937408507,
      "learning_rate": 2.7902322853130758e-06,
      "loss": 0.179,
      "step": 12400
    },
    {
      "epoch": 5.206207040199958,
      "grad_norm": 0.15513379693358573,
      "learning_rate": 2.754087695457005e-06,
      "loss": 0.1791,
      "step": 12500
    },
    {
      "epoch": 5.247865028119142,
      "grad_norm": 0.14968722299942713,
      "learning_rate": 2.717889356869146e-06,
      "loss": 0.179,
      "step": 12600
    },
    {
      "epoch": 5.289523016038325,
      "grad_norm": 0.2097123380235341,
      "learning_rate": 2.681644926806527e-06,
      "loss": 0.179,
      "step": 12700
    },
    {
      "epoch": 5.331181003957509,
      "grad_norm": 0.19315969222642626,
      "learning_rate": 2.6453620722761897e-06,
      "loss": 0.179,
      "step": 12800
    },
    {
      "epoch": 5.372838991876693,
      "grad_norm": 0.2209634744371871,
      "learning_rate": 2.6090484684133406e-06,
      "loss": 0.1791,
      "step": 12900
    },
    {
      "epoch": 5.414496979795876,
      "grad_norm": 0.20430693758591473,
      "learning_rate": 2.572711796857779e-06,
      "loss": 0.179,
      "step": 13000
    },
    {
      "epoch": 5.45615496771506,
      "grad_norm": 0.18903967369853375,
      "learning_rate": 2.5363597441289574e-06,
      "loss": 0.179,
      "step": 13100
    },
    {
      "epoch": 5.4978129556342425,
      "grad_norm": 0.15616083753477006,
      "learning_rate": 2.5e-06,
      "loss": 0.179,
      "step": 13200
    },
    {
      "epoch": 5.539470943553426,
      "grad_norm": 0.1507559008561688,
      "learning_rate": 2.4636402558710434e-06,
      "loss": 0.1791,
      "step": 13300
    },
    {
      "epoch": 5.58112893147261,
      "grad_norm": 0.16640062646644058,
      "learning_rate": 2.4272882031422216e-06,
      "loss": 0.179,
      "step": 13400
    },
    {
      "epoch": 5.622786919391793,
      "grad_norm": 0.1824434916593794,
      "learning_rate": 2.3909515315866606e-06,
      "loss": 0.1791,
      "step": 13500
    },
    {
      "epoch": 5.664444907310977,
      "grad_norm": 0.2004975100759413,
      "learning_rate": 2.3546379277238107e-06,
      "loss": 0.179,
      "step": 13600
    },
    {
      "epoch": 5.706102895230161,
      "grad_norm": 0.17154522514366766,
      "learning_rate": 2.318355073193474e-06,
      "loss": 0.1791,
      "step": 13700
    },
    {
      "epoch": 5.747760883149343,
      "grad_norm": 0.13248550006328844,
      "learning_rate": 2.2821106431308546e-06,
      "loss": 0.179,
      "step": 13800
    },
    {
      "epoch": 5.789418871068527,
      "grad_norm": 0.1915171020600886,
      "learning_rate": 2.2459123045429953e-06,
      "loss": 0.1792,
      "step": 13900
    },
    {
      "epoch": 5.831076858987711,
      "grad_norm": 0.16235356856597902,
      "learning_rate": 2.2097677146869242e-06,
      "loss": 0.1791,
      "step": 14000
    },
    {
      "epoch": 5.872734846906894,
      "grad_norm": 0.1627140490119954,
      "learning_rate": 2.173684519449872e-06,
      "loss": 0.1789,
      "step": 14100
    },
    {
      "epoch": 5.914392834826078,
      "grad_norm": 0.16466884224746445,
      "learning_rate": 2.1376703517318835e-06,
      "loss": 0.179,
      "step": 14200
    },
    {
      "epoch": 5.9560508227452615,
      "grad_norm": 0.20611687756993843,
      "learning_rate": 2.101732829831194e-06,
      "loss": 0.179,
      "step": 14300
    },
    {
      "epoch": 5.997708810664445,
      "grad_norm": 0.16559158144998481,
      "learning_rate": 2.0658795558326745e-06,
      "loss": 0.179,
      "step": 14400
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.17907121777534485,
      "eval_runtime": 196.4273,
      "eval_samples_per_second": 1390.326,
      "eval_steps_per_second": 2.719,
      "step": 14406
    },
    {
      "epoch": 6.039158508644032,
      "grad_norm": 0.16927649861039284,
      "learning_rate": 2.0301181139997206e-06,
      "loss": 0.1789,
      "step": 14500
    },
    {
      "epoch": 6.080816496563216,
      "grad_norm": 0.1752142512252337,
      "learning_rate": 1.994456069169906e-06,
      "loss": 0.179,
      "step": 14600
    },
    {
      "epoch": 6.1224744844823995,
      "grad_norm": 0.21170178196900302,
      "learning_rate": 1.958900965154743e-06,
      "loss": 0.1789,
      "step": 14700
    },
    {
      "epoch": 6.164132472401583,
      "grad_norm": 0.21884267966966597,
      "learning_rate": 1.9234603231439e-06,
      "loss": 0.1788,
      "step": 14800
    },
    {
      "epoch": 6.205790460320767,
      "grad_norm": 0.17106948371146288,
      "learning_rate": 1.8881416401141905e-06,
      "loss": 0.1788,
      "step": 14900
    },
    {
      "epoch": 6.24744844823995,
      "grad_norm": 0.174097273230219,
      "learning_rate": 1.852952387243698e-06,
      "loss": 0.1788,
      "step": 15000
    },
    {
      "epoch": 6.289106436159133,
      "grad_norm": 0.20862365699110258,
      "learning_rate": 1.8179000083313483e-06,
      "loss": 0.1788,
      "step": 15100
    },
    {
      "epoch": 6.330764424078317,
      "grad_norm": 0.17885797151549512,
      "learning_rate": 1.7829919182222752e-06,
      "loss": 0.1788,
      "step": 15200
    },
    {
      "epoch": 6.3724224119975,
      "grad_norm": 0.19498914359958716,
      "learning_rate": 1.7482355012393177e-06,
      "loss": 0.1789,
      "step": 15300
    },
    {
      "epoch": 6.414080399916684,
      "grad_norm": 0.1389966716220221,
      "learning_rate": 1.7136381096209665e-06,
      "loss": 0.179,
      "step": 15400
    },
    {
      "epoch": 6.455738387835868,
      "grad_norm": 0.1786092324697337,
      "learning_rate": 1.6792070619660977e-06,
      "loss": 0.179,
      "step": 15500
    },
    {
      "epoch": 6.497396375755051,
      "grad_norm": 0.19161758807721282,
      "learning_rate": 1.6449496416858285e-06,
      "loss": 0.1788,
      "step": 15600
    },
    {
      "epoch": 6.539054363674235,
      "grad_norm": 0.19197303954060144,
      "learning_rate": 1.6108730954628093e-06,
      "loss": 0.1788,
      "step": 15700
    },
    {
      "epoch": 6.580712351593418,
      "grad_norm": 0.16743828588501417,
      "learning_rate": 1.5769846317182894e-06,
      "loss": 0.1787,
      "step": 15800
    },
    {
      "epoch": 6.622370339512601,
      "grad_norm": 0.16492318029574304,
      "learning_rate": 1.5432914190872757e-06,
      "loss": 0.1788,
      "step": 15900
    },
    {
      "epoch": 6.664028327431785,
      "grad_norm": 0.15440438163304784,
      "learning_rate": 1.509800584902108e-06,
      "loss": 0.1789,
      "step": 16000
    },
    {
      "epoch": 6.7056863153509685,
      "grad_norm": 0.17667275704806315,
      "learning_rate": 1.4765192136847686e-06,
      "loss": 0.1789,
      "step": 16100
    },
    {
      "epoch": 6.747344303270152,
      "grad_norm": 0.17904015323124156,
      "learning_rate": 1.443454345648252e-06,
      "loss": 0.1789,
      "step": 16200
    },
    {
      "epoch": 6.789002291189336,
      "grad_norm": 0.16736730033822061,
      "learning_rate": 1.4106129752073023e-06,
      "loss": 0.179,
      "step": 16300
    },
    {
      "epoch": 6.830660279108519,
      "grad_norm": 0.16038102753372047,
      "learning_rate": 1.3780020494988447e-06,
      "loss": 0.179,
      "step": 16400
    },
    {
      "epoch": 6.872318267027703,
      "grad_norm": 0.15315299560909978,
      "learning_rate": 1.3456284669124159e-06,
      "loss": 0.1786,
      "step": 16500
    },
    {
      "epoch": 6.913976254946886,
      "grad_norm": 0.1430660492396621,
      "learning_rate": 1.313499075630899e-06,
      "loss": 0.179,
      "step": 16600
    },
    {
      "epoch": 6.955634242866069,
      "grad_norm": 0.17326024703322063,
      "learning_rate": 1.2816206721818944e-06,
      "loss": 0.1789,
      "step": 16700
    },
    {
      "epoch": 6.997292230785253,
      "grad_norm": 0.14987232796770428,
      "learning_rate": 1.2500000000000007e-06,
      "loss": 0.1787,
      "step": 16800
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.17893224954605103,
      "eval_runtime": 196.4121,
      "eval_samples_per_second": 1390.434,
      "eval_steps_per_second": 2.719,
      "step": 16807
    },
    {
      "epoch": 7.038741928764841,
      "grad_norm": 0.1439804790666206,
      "learning_rate": 1.218643748000337e-06,
      "loss": 0.1787,
      "step": 16900
    },
    {
      "epoch": 7.080399916684025,
      "grad_norm": 0.1820620837643405,
      "learning_rate": 1.1875585491636e-06,
      "loss": 0.1788,
      "step": 17000
    },
    {
      "epoch": 7.122057904603207,
      "grad_norm": 0.1619570282327302,
      "learning_rate": 1.1567509791329402e-06,
      "loss": 0.1786,
      "step": 17100
    },
    {
      "epoch": 7.163715892522391,
      "grad_norm": 0.2470491812569796,
      "learning_rate": 1.1262275548229852e-06,
      "loss": 0.1791,
      "step": 17200
    },
    {
      "epoch": 7.205373880441575,
      "grad_norm": 0.18058952670407366,
      "learning_rate": 1.0959947330412681e-06,
      "loss": 0.1789,
      "step": 17300
    },
    {
      "epoch": 7.247031868360758,
      "grad_norm": 0.20589528394837478,
      "learning_rate": 1.0660589091223854e-06,
      "loss": 0.1786,
      "step": 17400
    },
    {
      "epoch": 7.288689856279942,
      "grad_norm": 0.13562633767825757,
      "learning_rate": 1.0364264155751489e-06,
      "loss": 0.1786,
      "step": 17500
    },
    {
      "epoch": 7.330347844199125,
      "grad_norm": 0.194696644563295,
      "learning_rate": 1.0071035207430352e-06,
      "loss": 0.1787,
      "step": 17600
    },
    {
      "epoch": 7.372005832118309,
      "grad_norm": 0.19213496981753242,
      "learning_rate": 9.780964274781984e-07,
      "loss": 0.1786,
      "step": 17700
    },
    {
      "epoch": 7.413663820037492,
      "grad_norm": 0.19876379595232896,
      "learning_rate": 9.494112718293503e-07,
      "loss": 0.1787,
      "step": 17800
    },
    {
      "epoch": 7.455321807956675,
      "grad_norm": 0.1684329683430977,
      "learning_rate": 9.210541217437566e-07,
      "loss": 0.1787,
      "step": 17900
    },
    {
      "epoch": 7.496979795875859,
      "grad_norm": 0.1823625942631362,
      "learning_rate": 8.930309757836517e-07,
      "loss": 0.1785,
      "step": 18000
    },
    {
      "epoch": 7.538637783795043,
      "grad_norm": 0.18725762365246973,
      "learning_rate": 8.653477618573261e-07,
      "loss": 0.1786,
      "step": 18100
    },
    {
      "epoch": 7.580295771714226,
      "grad_norm": 0.1507247392992477,
      "learning_rate": 8.380103359651554e-07,
      "loss": 0.1787,
      "step": 18200
    },
    {
      "epoch": 7.62195375963341,
      "grad_norm": 0.18505299719524845,
      "learning_rate": 8.110244809608494e-07,
      "loss": 0.1786,
      "step": 18300
    },
    {
      "epoch": 7.663611747552594,
      "grad_norm": 0.12101506184025812,
      "learning_rate": 7.843959053281663e-07,
      "loss": 0.1786,
      "step": 18400
    },
    {
      "epoch": 7.705269735471777,
      "grad_norm": 0.16939344528667466,
      "learning_rate": 7.581302419733633e-07,
      "loss": 0.1785,
      "step": 18500
    },
    {
      "epoch": 7.74692772339096,
      "grad_norm": 0.13840737012325652,
      "learning_rate": 7.322330470336314e-07,
      "loss": 0.1785,
      "step": 18600
    },
    {
      "epoch": 7.7885857113101435,
      "grad_norm": 0.16859264286478876,
      "learning_rate": 7.067097987017762e-07,
      "loss": 0.1787,
      "step": 18700
    },
    {
      "epoch": 7.830243699229327,
      "grad_norm": 0.1897535110592711,
      "learning_rate": 6.815658960673782e-07,
      "loss": 0.1785,
      "step": 18800
    },
    {
      "epoch": 7.871901687148511,
      "grad_norm": 0.18368265058091485,
      "learning_rate": 6.568066579746901e-07,
      "loss": 0.1785,
      "step": 18900
    },
    {
      "epoch": 7.913559675067694,
      "grad_norm": 0.13696515467419504,
      "learning_rate": 6.324373218975105e-07,
      "loss": 0.1786,
      "step": 19000
    },
    {
      "epoch": 7.955217662986878,
      "grad_norm": 0.14354515830035847,
      "learning_rate": 6.084630428312679e-07,
      "loss": 0.1785,
      "step": 19100
    },
    {
      "epoch": 7.996875650906061,
      "grad_norm": 0.15165778139105265,
      "learning_rate": 5.848888922025553e-07,
      "loss": 0.1786,
      "step": 19200
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.17886345088481903,
      "eval_runtime": 196.5554,
      "eval_samples_per_second": 1389.42,
      "eval_steps_per_second": 2.717,
      "step": 19208
    },
    {
      "epoch": 8.03832534888565,
      "grad_norm": 0.15763312404128105,
      "learning_rate": 5.617198567963353e-07,
      "loss": 0.1783,
      "step": 19300
    },
    {
      "epoch": 8.079983336804831,
      "grad_norm": 0.1720429493205497,
      "learning_rate": 5.389608377010608e-07,
      "loss": 0.1783,
      "step": 19400
    },
    {
      "epoch": 8.121641324724015,
      "grad_norm": 0.1690726413308925,
      "learning_rate": 5.166166492719124e-07,
      "loss": 0.1783,
      "step": 19500
    },
    {
      "epoch": 8.163299312643199,
      "grad_norm": 0.17909925356768044,
      "learning_rate": 4.946920181123904e-07,
      "loss": 0.1782,
      "step": 19600
    },
    {
      "epoch": 8.204957300562382,
      "grad_norm": 0.22116088190481087,
      "learning_rate": 4.7319158207446953e-07,
      "loss": 0.1782,
      "step": 19700
    },
    {
      "epoch": 8.246615288481566,
      "grad_norm": 0.16383363990929287,
      "learning_rate": 4.5211988927752026e-07,
      "loss": 0.1782,
      "step": 19800
    },
    {
      "epoch": 8.28827327640075,
      "grad_norm": 0.18255215192836688,
      "learning_rate": 4.3148139714622365e-07,
      "loss": 0.1782,
      "step": 19900
    },
    {
      "epoch": 8.329931264319933,
      "grad_norm": 0.19783668808521335,
      "learning_rate": 4.1128047146765936e-07,
      "loss": 0.1781,
      "step": 20000
    },
    {
      "epoch": 8.371589252239117,
      "grad_norm": 0.1828620345488146,
      "learning_rate": 3.915213854677863e-07,
      "loss": 0.1781,
      "step": 20100
    },
    {
      "epoch": 8.4132472401583,
      "grad_norm": 0.1461266269903454,
      "learning_rate": 3.722083189075007e-07,
      "loss": 0.1782,
      "step": 20200
    },
    {
      "epoch": 8.454905228077484,
      "grad_norm": 0.19063937525748337,
      "learning_rate": 3.5334535719846767e-07,
      "loss": 0.1781,
      "step": 20300
    },
    {
      "epoch": 8.496563215996668,
      "grad_norm": 0.12678778363904367,
      "learning_rate": 3.3493649053890325e-07,
      "loss": 0.1781,
      "step": 20400
    },
    {
      "epoch": 8.538221203915851,
      "grad_norm": 0.15880039262804566,
      "learning_rate": 3.1698561306951065e-07,
      "loss": 0.1782,
      "step": 20500
    },
    {
      "epoch": 8.579879191835035,
      "grad_norm": 0.18763241075198428,
      "learning_rate": 2.9949652204972257e-07,
      "loss": 0.178,
      "step": 20600
    },
    {
      "epoch": 8.621537179754219,
      "grad_norm": 0.1582482612527278,
      "learning_rate": 2.8247291705444575e-07,
      "loss": 0.1778,
      "step": 20700
    },
    {
      "epoch": 8.6631951676734,
      "grad_norm": 0.181992432758085,
      "learning_rate": 2.6591839919146963e-07,
      "loss": 0.178,
      "step": 20800
    },
    {
      "epoch": 8.704853155592584,
      "grad_norm": 0.1463913122272469,
      "learning_rate": 2.4983647033969714e-07,
      "loss": 0.1783,
      "step": 20900
    },
    {
      "epoch": 8.746511143511768,
      "grad_norm": 0.15649171707147957,
      "learning_rate": 2.3423053240837518e-07,
      "loss": 0.1781,
      "step": 21000
    },
    {
      "epoch": 8.788169131430951,
      "grad_norm": 0.16428482803404829,
      "learning_rate": 2.1910388661746495e-07,
      "loss": 0.1782,
      "step": 21100
    },
    {
      "epoch": 8.829827119350135,
      "grad_norm": 0.19349382720192548,
      "learning_rate": 2.044597327993153e-07,
      "loss": 0.1781,
      "step": 21200
    },
    {
      "epoch": 8.871485107269319,
      "grad_norm": 0.1678737628788564,
      "learning_rate": 1.9030116872178317e-07,
      "loss": 0.1781,
      "step": 21300
    },
    {
      "epoch": 8.913143095188502,
      "grad_norm": 0.187501462753097,
      "learning_rate": 1.7663118943294367e-07,
      "loss": 0.1781,
      "step": 21400
    },
    {
      "epoch": 8.954801083107686,
      "grad_norm": 0.17102799413092362,
      "learning_rate": 1.6345268662752904e-07,
      "loss": 0.1781,
      "step": 21500
    },
    {
      "epoch": 8.99645907102687,
      "grad_norm": 0.14591121551272715,
      "learning_rate": 1.507684480352292e-07,
      "loss": 0.1781,
      "step": 21600
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.17907947301864624,
      "eval_runtime": 196.3329,
      "eval_samples_per_second": 1390.995,
      "eval_steps_per_second": 2.72,
      "step": 21609
    },
    {
      "epoch": 9.037908769006457,
      "grad_norm": 0.1816902644971728,
      "learning_rate": 1.3858115683098832e-07,
      "loss": 0.177,
      "step": 21700
    },
    {
      "epoch": 9.07956675692564,
      "grad_norm": 0.18741449385017522,
      "learning_rate": 1.2689339106741529e-07,
      "loss": 0.1767,
      "step": 21800
    },
    {
      "epoch": 9.121224744844824,
      "grad_norm": 0.20197534473429568,
      "learning_rate": 1.1570762312943295e-07,
      "loss": 0.1768,
      "step": 21900
    },
    {
      "epoch": 9.162882732764007,
      "grad_norm": 0.21639195747399645,
      "learning_rate": 1.0502621921127776e-07,
      "loss": 0.1767,
      "step": 22000
    },
    {
      "epoch": 9.204540720683191,
      "grad_norm": 0.18933606645836426,
      "learning_rate": 9.485143881596715e-08,
      "loss": 0.1768,
      "step": 22100
    },
    {
      "epoch": 9.246198708602375,
      "grad_norm": 0.1960648079791721,
      "learning_rate": 8.518543427732951e-08,
      "loss": 0.1767,
      "step": 22200
    },
    {
      "epoch": 9.287856696521558,
      "grad_norm": 0.18056583891057434,
      "learning_rate": 7.603025030471001e-08,
      "loss": 0.1766,
      "step": 22300
    },
    {
      "epoch": 9.329514684440742,
      "grad_norm": 0.18480124722464905,
      "learning_rate": 6.738782355044048e-08,
      "loss": 0.1769,
      "step": 22400
    },
    {
      "epoch": 9.371172672359926,
      "grad_norm": 0.22786425388668805,
      "learning_rate": 5.92599822001666e-08,
      "loss": 0.1767,
      "step": 22500
    },
    {
      "epoch": 9.41283066027911,
      "grad_norm": 0.2205541920741548,
      "learning_rate": 5.164844558612131e-08,
      "loss": 0.1766,
      "step": 22600
    },
    {
      "epoch": 9.454488648198293,
      "grad_norm": 0.2134938008984885,
      "learning_rate": 4.455482382342336e-08,
      "loss": 0.1767,
      "step": 22700
    },
    {
      "epoch": 9.496146636117475,
      "grad_norm": 0.23030736326238382,
      "learning_rate": 3.798061746947995e-08,
      "loss": 0.1767,
      "step": 22800
    },
    {
      "epoch": 9.537804624036658,
      "grad_norm": 0.2214355490299709,
      "learning_rate": 3.1927217206564884e-08,
      "loss": 0.1767,
      "step": 22900
    },
    {
      "epoch": 9.579462611955842,
      "grad_norm": 0.2291392443441154,
      "learning_rate": 2.6395903547638825e-08,
      "loss": 0.1765,
      "step": 23000
    },
    {
      "epoch": 9.621120599875026,
      "grad_norm": 0.22120778210484332,
      "learning_rate": 2.1387846565474047e-08,
      "loss": 0.1765,
      "step": 23100
    },
    {
      "epoch": 9.66277858779421,
      "grad_norm": 0.1927066727358843,
      "learning_rate": 1.6904105645142443e-08,
      "loss": 0.1765,
      "step": 23200
    },
    {
      "epoch": 9.704436575713393,
      "grad_norm": 0.2369391538896648,
      "learning_rate": 1.2945629259917547e-08,
      "loss": 0.1766,
      "step": 23300
    },
    {
      "epoch": 9.746094563632576,
      "grad_norm": 0.21269587694232558,
      "learning_rate": 9.513254770636138e-09,
      "loss": 0.1767,
      "step": 23400
    },
    {
      "epoch": 9.78775255155176,
      "grad_norm": 0.20767475535201343,
      "learning_rate": 6.607708248569378e-09,
      "loss": 0.1766,
      "step": 23500
    },
    {
      "epoch": 9.829410539470944,
      "grad_norm": 0.21058981271348698,
      "learning_rate": 4.229604321829561e-09,
      "loss": 0.1766,
      "step": 23600
    },
    {
      "epoch": 9.871068527390127,
      "grad_norm": 0.18917603463369678,
      "learning_rate": 2.3794460453555046e-09,
      "loss": 0.1766,
      "step": 23700
    },
    {
      "epoch": 9.912726515309311,
      "grad_norm": 0.18145195315540197,
      "learning_rate": 1.0576247944985018e-09,
      "loss": 0.1767,
      "step": 23800
    },
    {
      "epoch": 9.954384503228495,
      "grad_norm": 0.22385123601872012,
      "learning_rate": 2.6442018223132857e-10,
      "loss": 0.1766,
      "step": 23900
    },
    {
      "epoch": 9.996042491147678,
      "grad_norm": 0.22063368359660335,
      "learning_rate": 0.0,
      "loss": 0.1766,
      "step": 24000
    },
    {
      "epoch": 9.996042491147678,
      "eval_loss": 0.18023133277893066,
      "eval_runtime": 196.0313,
      "eval_samples_per_second": 1393.135,
      "eval_steps_per_second": 2.724,
      "step": 24000
    },
    {
      "epoch": 9.996042491147678,
      "step": 24000,
      "total_flos": 5485114750402560.0,
      "train_loss": 0.19645737719535827,
      "train_runtime": 70712.6152,
      "train_samples_per_second": 347.587,
      "train_steps_per_second": 0.339
    }
  ],
  "logging_steps": 100,
  "max_steps": 24000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5485114750402560.0,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}