Training in progress, step 50000

Browse files

Files changed (6) hide show

optimizer.pt +1 -1
rng_state_0.pth +1 -1
rng_state_1.pth +1 -1
runs/Jun07_20-36-29_829f6f605e43/events.out.tfevents.1717792718.829f6f605e43.85.0 +2 -2
scheduler.pt +1 -1
trainer_state.json +1762 -3

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e43e8a50d4de1350724bc9f877e95c1e7ff72228ad261a4df4199eb16d73c44
 size 11230198

 version https://git-lfs.github.com/spec/v1
+oid sha256:1875f0dc76db8717f7a2ebbdf55b28259425b5ec418cf9a61e01ccfc78df1b62
 size 11230198

rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b074bf97f241c2662caa5ce956b03d1249c3cc0713b6aef7796673362754f98
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5aeb0c54903210b6bb77aabf8f4802e4126d4bae40ff815b9d0b63767286cff
 size 14512

rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58aed9e8d78903cb12015375021c729c3f6c5fd1a1e19e7aee6ddde57c3310b9
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:2087fa1159897fc8e7870700fdb75275c4b88dbf7d3cd02c5397018e197c58f1
 size 14512

runs/Jun07_20-36-29_829f6f605e43/events.out.tfevents.1717792718.829f6f605e43.85.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2e485c576bac2b6af5c3f9741f8c0835ea01a8a3f9a06e870b07ea8fe5bbb58
-size 488195

 version https://git-lfs.github.com/spec/v1
+oid sha256:160f7656dc8773a4a4cfb7600f73292b3ce736a95308ca1b31e7de2232bdb074
+size 542274

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ec0094826be0cd8cf7b09c408d8f8426551032a0a5e5ff3db87c3258cb7159e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:73ca23880fe7eefec74f8b2319f74a91041ac4fc69eab046e71d83c57c8c783c
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8144059361143788,
   "eval_steps": 5000,
-  "global_step": 45000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15838,6 +15838,1765 @@
       "eval_samples_per_second": 3575.081,
       "eval_steps_per_second": 3.494,
       "step": 45000
     }
   ],
   "logging_steps": 20,
@@ -15857,7 +17616,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.472629485568e+16,
   "train_batch_size": 512,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.904895484571532,
   "eval_steps": 5000,
+  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3575.081,
       "eval_steps_per_second": 3.494,
       "step": 45000
+    },
+    {
+      "epoch": 0.8147678943082074,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003422030524220305,
+      "loss": 1.1013,
+      "step": 45020
+    },
+    {
+      "epoch": 0.8151298525020361,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003422030524220305,
+      "loss": 0.0,
+      "step": 45040
+    },
+    {
+      "epoch": 0.8154918106958646,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003422030524220305,
+      "loss": 1.0811,
+      "step": 45060
+    },
+    {
+      "epoch": 0.8158537688896932,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003422030524220305,
+      "loss": 0.5771,
+      "step": 45080
+    },
+    {
+      "epoch": 0.8162157270835219,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003422030524220305,
+      "loss": 1.2551,
+      "step": 45100
+    },
+    {
+      "epoch": 0.8165776852773504,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003422573445134825,
+      "loss": 1.5968,
+      "step": 45120
+    },
+    {
+      "epoch": 0.8169396434711791,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003422573445134825,
+      "loss": 0.6273,
+      "step": 45140
+    },
+    {
+      "epoch": 0.8173016016650076,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034231163660493455,
+      "loss": 1.762,
+      "step": 45160
+    },
+    {
+      "epoch": 0.8176635598588363,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034231163660493455,
+      "loss": 0.7482,
+      "step": 45180
+    },
+    {
+      "epoch": 0.8180255180526649,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034231163660493455,
+      "loss": 0.6348,
+      "step": 45200
+    },
+    {
+      "epoch": 0.8183874762464936,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034231163660493455,
+      "loss": 2.9022,
+      "step": 45220
+    },
+    {
+      "epoch": 0.8187494344403221,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034231163660493455,
+      "loss": 3.9902,
+      "step": 45240
+    },
+    {
+      "epoch": 0.8191113926341508,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034231163660493455,
+      "loss": 1.3003,
+      "step": 45260
+    },
+    {
+      "epoch": 0.8194733508279793,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034231163660493455,
+      "loss": 0.7519,
+      "step": 45280
+    },
+    {
+      "epoch": 0.819835309021808,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034231163660493455,
+      "loss": 3.7594,
+      "step": 45300
+    },
+    {
+      "epoch": 0.8201972672156366,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034231163660493455,
+      "loss": 0.5259,
+      "step": 45320
+    },
+    {
+      "epoch": 0.8205592254094652,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 1.3492,
+      "step": 45340
+    },
+    {
+      "epoch": 0.8209211836032938,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 1.8379,
+      "step": 45360
+    },
+    {
+      "epoch": 0.8212831417971225,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 0.9331,
+      "step": 45380
+    },
+    {
+      "epoch": 0.821645099990951,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 1.242,
+      "step": 45400
+    },
+    {
+      "epoch": 0.8220070581847797,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 1.2382,
+      "step": 45420
+    },
+    {
+      "epoch": 0.8223690163786083,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 3.0546,
+      "step": 45440
+    },
+    {
+      "epoch": 0.8227309745724369,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 1.1098,
+      "step": 45460
+    },
+    {
+      "epoch": 0.8230929327662655,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 4.5014,
+      "step": 45480
+    },
+    {
+      "epoch": 0.823454890960094,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 0.8949,
+      "step": 45500
+    },
+    {
+      "epoch": 0.8238168491539227,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 3.0434,
+      "step": 45520
+    },
+    {
+      "epoch": 0.8241788073477513,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 0.8785,
+      "step": 45540
+    },
+    {
+      "epoch": 0.82454076554158,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003423659286963865,
+      "loss": 3.6592,
+      "step": 45560
+    },
+    {
+      "epoch": 0.8249027237354085,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034242022078783855,
+      "loss": 3.3117,
+      "step": 45580
+    },
+    {
+      "epoch": 0.8252646819292372,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034242022078783855,
+      "loss": 0.6415,
+      "step": 45600
+    },
+    {
+      "epoch": 0.8256266401230657,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034242022078783855,
+      "loss": 0.855,
+      "step": 45620
+    },
+    {
+      "epoch": 0.8259885983168944,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034242022078783855,
+      "loss": 5.2258,
+      "step": 45640
+    },
+    {
+      "epoch": 0.826350556510723,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003424745128792906,
+      "loss": 1.9846,
+      "step": 45660
+    },
+    {
+      "epoch": 0.8267125147045516,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003424745128792906,
+      "loss": 0.6199,
+      "step": 45680
+    },
+    {
+      "epoch": 0.8270744728983802,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003424745128792906,
+      "loss": 1.4499,
+      "step": 45700
+    },
+    {
+      "epoch": 0.8274364310922089,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003424745128792906,
+      "loss": 0.9893,
+      "step": 45720
+    },
+    {
+      "epoch": 0.8277983892860374,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003424745128792906,
+      "loss": 1.379,
+      "step": 45740
+    },
+    {
+      "epoch": 0.8281603474798661,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003424745128792906,
+      "loss": 2.8108,
+      "step": 45760
+    },
+    {
+      "epoch": 0.8285223056736947,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003424745128792906,
+      "loss": 3.075,
+      "step": 45780
+    },
+    {
+      "epoch": 0.8288842638675233,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003424745128792906,
+      "loss": 3.9405,
+      "step": 45800
+    },
+    {
+      "epoch": 0.8292462220613519,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003424745128792906,
+      "loss": 3.0244,
+      "step": 45820
+    },
+    {
+      "epoch": 0.8296081802551806,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003424745128792906,
+      "loss": 0.9193,
+      "step": 45840
+    },
+    {
+      "epoch": 0.8299701384490091,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003424745128792906,
+      "loss": 2.2784,
+      "step": 45860
+    },
+    {
+      "epoch": 0.8303320966428378,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 5.6385,
+      "step": 45880
+    },
+    {
+      "epoch": 0.8306940548366664,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 0.6865,
+      "step": 45900
+    },
+    {
+      "epoch": 0.831056013030495,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 0.6382,
+      "step": 45920
+    },
+    {
+      "epoch": 0.8314179712243236,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 2.9461,
+      "step": 45940
+    },
+    {
+      "epoch": 0.8317799294181522,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 0.5432,
+      "step": 45960
+    },
+    {
+      "epoch": 0.8321418876119808,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 0.3098,
+      "step": 45980
+    },
+    {
+      "epoch": 0.8325038458058094,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 0.7931,
+      "step": 46000
+    },
+    {
+      "epoch": 0.832865803999638,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 1.3182,
+      "step": 46020
+    },
+    {
+      "epoch": 0.8332277621934666,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 0.883,
+      "step": 46040
+    },
+    {
+      "epoch": 0.8335897203872953,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 0.8214,
+      "step": 46060
+    },
+    {
+      "epoch": 0.8339516785811238,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 1.4961,
+      "step": 46080
+    },
+    {
+      "epoch": 0.8343136367749525,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003425830970621946,
+      "loss": 1.9674,
+      "step": 46100
+    },
+    {
+      "epoch": 0.8346755949687811,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426373891536466,
+      "loss": 2.7082,
+      "step": 46120
+    },
+    {
+      "epoch": 0.8350375531626097,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426373891536466,
+      "loss": 4.7325,
+      "step": 46140
+    },
+    {
+      "epoch": 0.8353995113564383,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426373891536466,
+      "loss": 3.6999,
+      "step": 46160
+    },
+    {
+      "epoch": 0.835761469550267,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426373891536466,
+      "loss": 1.4293,
+      "step": 46180
+    },
+    {
+      "epoch": 0.8361234277440955,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426373891536466,
+      "loss": 2.882,
+      "step": 46200
+    },
+    {
+      "epoch": 0.8364853859379242,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426373891536466,
+      "loss": 1.5639,
+      "step": 46220
+    },
+    {
+      "epoch": 0.8368473441317528,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426373891536466,
+      "loss": 3.3409,
+      "step": 46240
+    },
+    {
+      "epoch": 0.8372093023255814,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426373891536466,
+      "loss": 2.6536,
+      "step": 46260
+    },
+    {
+      "epoch": 0.83757126051941,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426373891536466,
+      "loss": 1.5417,
+      "step": 46280
+    },
+    {
+      "epoch": 0.8379332187132387,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426916812450986,
+      "loss": 1.6685,
+      "step": 46300
+    },
+    {
+      "epoch": 0.8382951769070672,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426916812450986,
+      "loss": 2.3909,
+      "step": 46320
+    },
+    {
+      "epoch": 0.8386571351008959,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426916812450986,
+      "loss": 0.3746,
+      "step": 46340
+    },
+    {
+      "epoch": 0.8390190932947245,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426916812450986,
+      "loss": 2.5086,
+      "step": 46360
+    },
+    {
+      "epoch": 0.839381051488553,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426916812450986,
+      "loss": 0.5264,
+      "step": 46380
+    },
+    {
+      "epoch": 0.8397430096823817,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426916812450986,
+      "loss": 1.46,
+      "step": 46400
+    },
+    {
+      "epoch": 0.8401049678762103,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426916812450986,
+      "loss": 3.4459,
+      "step": 46420
+    },
+    {
+      "epoch": 0.8404669260700389,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426916812450986,
+      "loss": 3.2337,
+      "step": 46440
+    },
+    {
+      "epoch": 0.8408288842638675,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003426916812450986,
+      "loss": 2.0381,
+      "step": 46460
+    },
+    {
+      "epoch": 0.8411908424576962,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 1.5477,
+      "step": 46480
+    },
+    {
+      "epoch": 0.8415528006515247,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 2.866,
+      "step": 46500
+    },
+    {
+      "epoch": 0.8419147588453534,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 0.0,
+      "step": 46520
+    },
+    {
+      "epoch": 0.8422767170391819,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 0.6529,
+      "step": 46540
+    },
+    {
+      "epoch": 0.8426386752330106,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 1.8621,
+      "step": 46560
+    },
+    {
+      "epoch": 0.8430006334268392,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 1.5342,
+      "step": 46580
+    },
+    {
+      "epoch": 0.8433625916206678,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 0.3288,
+      "step": 46600
+    },
+    {
+      "epoch": 0.8437245498144964,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 2.7671,
+      "step": 46620
+    },
+    {
+      "epoch": 0.8440865080083251,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 4.344,
+      "step": 46640
+    },
+    {
+      "epoch": 0.8444484662021536,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 1.3153,
+      "step": 46660
+    },
+    {
+      "epoch": 0.8448104243959823,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 0.0,
+      "step": 46680
+    },
+    {
+      "epoch": 0.8451723825898109,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 3.0078,
+      "step": 46700
+    },
+    {
+      "epoch": 0.8455343407836395,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 2.3489,
+      "step": 46720
+    },
+    {
+      "epoch": 0.8458962989774681,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 1.9476,
+      "step": 46740
+    },
+    {
+      "epoch": 0.8462582571712968,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 0.0,
+      "step": 46760
+    },
+    {
+      "epoch": 0.8466202153651253,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 1.507,
+      "step": 46780
+    },
+    {
+      "epoch": 0.8469821735589539,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003427459733365506,
+      "loss": 4.0155,
+      "step": 46800
+    },
+    {
+      "epoch": 0.8473441317527826,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034280026542800264,
+      "loss": 6.1755,
+      "step": 46820
+    },
+    {
+      "epoch": 0.8477060899466111,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034280026542800264,
+      "loss": 2.4112,
+      "step": 46840
+    },
+    {
+      "epoch": 0.8480680481404398,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034280026542800264,
+      "loss": 0.2907,
+      "step": 46860
+    },
+    {
+      "epoch": 0.8484300063342683,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034280026542800264,
+      "loss": 3.5964,
+      "step": 46880
+    },
+    {
+      "epoch": 0.848791964528097,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034280026542800264,
+      "loss": 0.3755,
+      "step": 46900
+    },
+    {
+      "epoch": 0.8491539227219256,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034280026542800264,
+      "loss": 0.8192,
+      "step": 46920
+    },
+    {
+      "epoch": 0.8495158809157543,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034280026542800264,
+      "loss": 2.625,
+      "step": 46940
+    },
+    {
+      "epoch": 0.8498778391095828,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034285455751945467,
+      "loss": 3.4662,
+      "step": 46960
+    },
+    {
+      "epoch": 0.8502397973034115,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034285455751945467,
+      "loss": 0.3487,
+      "step": 46980
+    },
+    {
+      "epoch": 0.85060175549724,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034285455751945467,
+      "loss": 1.3247,
+      "step": 47000
+    },
+    {
+      "epoch": 0.8509637136910687,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034285455751945467,
+      "loss": 2.4207,
+      "step": 47020
+    },
+    {
+      "epoch": 0.8513256718848973,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034285455751945467,
+      "loss": 3.5487,
+      "step": 47040
+    },
+    {
+      "epoch": 0.8516876300787259,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034285455751945467,
+      "loss": 2.8014,
+      "step": 47060
+    },
+    {
+      "epoch": 0.8520495882725545,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034285455751945467,
+      "loss": 0.8827,
+      "step": 47080
+    },
+    {
+      "epoch": 0.8524115464663832,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034285455751945467,
+      "loss": 1.686,
+      "step": 47100
+    },
+    {
+      "epoch": 0.8527735046602117,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 3.4005,
+      "step": 47120
+    },
+    {
+      "epoch": 0.8531354628540404,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 4.9585,
+      "step": 47140
+    },
+    {
+      "epoch": 0.853497421047869,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 0.7554,
+      "step": 47160
+    },
+    {
+      "epoch": 0.8538593792416976,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 1.6588,
+      "step": 47180
+    },
+    {
+      "epoch": 0.8542213374355262,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 0.8945,
+      "step": 47200
+    },
+    {
+      "epoch": 0.8545832956293548,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 1.9265,
+      "step": 47220
+    },
+    {
+      "epoch": 0.8549452538231834,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 1.0519,
+      "step": 47240
+    },
+    {
+      "epoch": 0.855307212017012,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 0.7737,
+      "step": 47260
+    },
+    {
+      "epoch": 0.8556691702108407,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 1.9628,
+      "step": 47280
+    },
+    {
+      "epoch": 0.8560311284046692,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 2.8813,
+      "step": 47300
+    },
+    {
+      "epoch": 0.8563930865984979,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 0.3755,
+      "step": 47320
+    },
+    {
+      "epoch": 0.8567550447923264,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 0.3112,
+      "step": 47340
+    },
+    {
+      "epoch": 0.8571170029861551,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003429088496109067,
+      "loss": 0.2919,
+      "step": 47360
+    },
+    {
+      "epoch": 0.8574789611799837,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003430174337938107,
+      "loss": 3.1259,
+      "step": 47380
+    },
+    {
+      "epoch": 0.8578409193738123,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034307172588526273,
+      "loss": 2.6819,
+      "step": 47400
+    },
+    {
+      "epoch": 0.8582028775676409,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034307172588526273,
+      "loss": 0.0,
+      "step": 47420
+    },
+    {
+      "epoch": 0.8585648357614696,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034307172588526273,
+      "loss": 3.8217,
+      "step": 47440
+    },
+    {
+      "epoch": 0.8589267939552981,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003431260179767147,
+      "loss": 4.0489,
+      "step": 47460
+    },
+    {
+      "epoch": 0.8592887521491268,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003431260179767147,
+      "loss": 5.597,
+      "step": 47480
+    },
+    {
+      "epoch": 0.8596507103429554,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003431260179767147,
+      "loss": 0.8297,
+      "step": 47500
+    },
+    {
+      "epoch": 0.860012668536784,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003431260179767147,
+      "loss": 0.9444,
+      "step": 47520
+    },
+    {
+      "epoch": 0.8603746267306126,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003431260179767147,
+      "loss": 0.0,
+      "step": 47540
+    },
+    {
+      "epoch": 0.8607365849244413,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003431260179767147,
+      "loss": 0.911,
+      "step": 47560
+    },
+    {
+      "epoch": 0.8610985431182698,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003431260179767147,
+      "loss": 2.627,
+      "step": 47580
+    },
+    {
+      "epoch": 0.8614605013120985,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003431260179767147,
+      "loss": 2.7942,
+      "step": 47600
+    },
+    {
+      "epoch": 0.8618224595059271,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034318031006816673,
+      "loss": 1.1399,
+      "step": 47620
+    },
+    {
+      "epoch": 0.8621844176997556,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034318031006816673,
+      "loss": 0.0,
+      "step": 47640
+    },
+    {
+      "epoch": 0.8625463758935843,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034318031006816673,
+      "loss": 1.3527,
+      "step": 47660
+    },
+    {
+      "epoch": 0.8629083340874129,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034318031006816673,
+      "loss": 0.9181,
+      "step": 47680
+    },
+    {
+      "epoch": 0.8632702922812415,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034323460215961876,
+      "loss": 3.826,
+      "step": 47700
+    },
+    {
+      "epoch": 0.8636322504750701,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034323460215961876,
+      "loss": 1.3246,
+      "step": 47720
+    },
+    {
+      "epoch": 0.8639942086688988,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034323460215961876,
+      "loss": 0.9301,
+      "step": 47740
+    },
+    {
+      "epoch": 0.8643561668627273,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034328889425107073,
+      "loss": 2.455,
+      "step": 47760
+    },
+    {
+      "epoch": 0.864718125056556,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034328889425107073,
+      "loss": 0.3296,
+      "step": 47780
+    },
+    {
+      "epoch": 0.8650800832503845,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034328889425107073,
+      "loss": 3.0621,
+      "step": 47800
+    },
+    {
+      "epoch": 0.8654420414442132,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034328889425107073,
+      "loss": 1.9652,
+      "step": 47820
+    },
+    {
+      "epoch": 0.8658039996380418,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034328889425107073,
+      "loss": 2.605,
+      "step": 47840
+    },
+    {
+      "epoch": 0.8661659578318704,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034328889425107073,
+      "loss": 2.629,
+      "step": 47860
+    },
+    {
+      "epoch": 0.866527916025699,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034328889425107073,
+      "loss": 0.5865,
+      "step": 47880
+    },
+    {
+      "epoch": 0.8668898742195277,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034328889425107073,
+      "loss": 2.0123,
+      "step": 47900
+    },
+    {
+      "epoch": 0.8672518324133562,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034328889425107073,
+      "loss": 1.215,
+      "step": 47920
+    },
+    {
+      "epoch": 0.8676137906071849,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034328889425107073,
+      "loss": 2.0918,
+      "step": 47940
+    },
+    {
+      "epoch": 0.8679757488010135,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034328889425107073,
+      "loss": 0.4018,
+      "step": 47960
+    },
+    {
+      "epoch": 0.8683377069948421,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034334318634252276,
+      "loss": 6.8876,
+      "step": 47980
+    },
+    {
+      "epoch": 0.8686996651886707,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034334318634252276,
+      "loss": 3.6365,
+      "step": 48000
+    },
+    {
+      "epoch": 0.8690616233824994,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034334318634252276,
+      "loss": 1.1087,
+      "step": 48020
+    },
+    {
+      "epoch": 0.8694235815763279,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034334318634252276,
+      "loss": 0.7051,
+      "step": 48040
+    },
+    {
+      "epoch": 0.8697855397701566,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034334318634252276,
+      "loss": 0.0,
+      "step": 48060
+    },
+    {
+      "epoch": 0.8701474979639852,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034334318634252276,
+      "loss": 0.0,
+      "step": 48080
+    },
+    {
+      "epoch": 0.8705094561578137,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034334318634252276,
+      "loss": 2.3614,
+      "step": 48100
+    },
+    {
+      "epoch": 0.8708714143516424,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034334318634252276,
+      "loss": 2.1832,
+      "step": 48120
+    },
+    {
+      "epoch": 0.871233372545471,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034334318634252276,
+      "loss": 1.172,
+      "step": 48140
+    },
+    {
+      "epoch": 0.8715953307392996,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003433974784339748,
+      "loss": 2.1687,
+      "step": 48160
+    },
+    {
+      "epoch": 0.8719572889331282,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003433974784339748,
+      "loss": 0.786,
+      "step": 48180
+    },
+    {
+      "epoch": 0.8723192471269569,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003433974784339748,
+      "loss": 0.4405,
+      "step": 48200
+    },
+    {
+      "epoch": 0.8726812053207854,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003433974784339748,
+      "loss": 0.5855,
+      "step": 48220
+    },
+    {
+      "epoch": 0.8730431635146141,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003433974784339748,
+      "loss": 0.8813,
+      "step": 48240
+    },
+    {
+      "epoch": 0.8734051217084426,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003435060626168788,
+      "loss": 2.8654,
+      "step": 48260
+    },
+    {
+      "epoch": 0.8737670799022713,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003435060626168788,
+      "loss": 0.7883,
+      "step": 48280
+    },
+    {
+      "epoch": 0.8741290380960999,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003435060626168788,
+      "loss": 1.6977,
+      "step": 48300
+    },
+    {
+      "epoch": 0.8744909962899285,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003435060626168788,
+      "loss": 0.6638,
+      "step": 48320
+    },
+    {
+      "epoch": 0.8748529544837571,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003435060626168788,
+      "loss": 0.5823,
+      "step": 48340
+    },
+    {
+      "epoch": 0.8752149126775858,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003435060626168788,
+      "loss": 0.8745,
+      "step": 48360
+    },
+    {
+      "epoch": 0.8755768708714143,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003435060626168788,
+      "loss": 2.6587,
+      "step": 48380
+    },
+    {
+      "epoch": 0.875938829065243,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003435603547083308,
+      "loss": 1.6498,
+      "step": 48400
+    },
+    {
+      "epoch": 0.8763007872590716,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003435603547083308,
+      "loss": 1.0264,
+      "step": 48420
+    },
+    {
+      "epoch": 0.8766627454529002,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003435603547083308,
+      "loss": 4.9079,
+      "step": 48440
+    },
+    {
+      "epoch": 0.8770247036467288,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003435603547083308,
+      "loss": 0.5742,
+      "step": 48460
+    },
+    {
+      "epoch": 0.8773866618405575,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003436146467997828,
+      "loss": 3.0971,
+      "step": 48480
+    },
+    {
+      "epoch": 0.877748620034386,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003436146467997828,
+      "loss": 1.5435,
+      "step": 48500
+    },
+    {
+      "epoch": 0.8781105782282146,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003436146467997828,
+      "loss": 0.8805,
+      "step": 48520
+    },
+    {
+      "epoch": 0.8784725364220433,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003436146467997828,
+      "loss": 1.0995,
+      "step": 48540
+    },
+    {
+      "epoch": 0.8788344946158718,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003436689388912348,
+      "loss": 2.2358,
+      "step": 48560
+    },
+    {
+      "epoch": 0.8791964528097005,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003436689388912348,
+      "loss": 1.6608,
+      "step": 48580
+    },
+    {
+      "epoch": 0.879558411003529,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003436689388912348,
+      "loss": 2.8619,
+      "step": 48600
+    },
+    {
+      "epoch": 0.8799203691973577,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003436689388912348,
+      "loss": 0.9254,
+      "step": 48620
+    },
+    {
+      "epoch": 0.8802823273911863,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034372323098268685,
+      "loss": 4.944,
+      "step": 48640
+    },
+    {
+      "epoch": 0.880644285585015,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034372323098268685,
+      "loss": 1.3753,
+      "step": 48660
+    },
+    {
+      "epoch": 0.8810062437788435,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034372323098268685,
+      "loss": 1.2057,
+      "step": 48680
+    },
+    {
+      "epoch": 0.8813682019726722,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034372323098268685,
+      "loss": 0.8484,
+      "step": 48700
+    },
+    {
+      "epoch": 0.8817301601665007,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034372323098268685,
+      "loss": 1.9288,
+      "step": 48720
+    },
+    {
+      "epoch": 0.8820921183603294,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 2.7616,
+      "step": 48740
+    },
+    {
+      "epoch": 0.882454076554158,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 1.1404,
+      "step": 48760
+    },
+    {
+      "epoch": 0.8828160347479866,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 0.9172,
+      "step": 48780
+    },
+    {
+      "epoch": 0.8831779929418152,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 0.4789,
+      "step": 48800
+    },
+    {
+      "epoch": 0.8835399511356439,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 2.6007,
+      "step": 48820
+    },
+    {
+      "epoch": 0.8839019093294724,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 2.2257,
+      "step": 48840
+    },
+    {
+      "epoch": 0.8842638675233011,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 1.0041,
+      "step": 48860
+    },
+    {
+      "epoch": 0.8846258257171297,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 0.4423,
+      "step": 48880
+    },
+    {
+      "epoch": 0.8849877839109583,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 0.2653,
+      "step": 48900
+    },
+    {
+      "epoch": 0.8853497421047869,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 2.8073,
+      "step": 48920
+    },
+    {
+      "epoch": 0.8857117002986155,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 1.0093,
+      "step": 48940
+    },
+    {
+      "epoch": 0.8860736584924441,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 0.0,
+      "step": 48960
+    },
+    {
+      "epoch": 0.8864356166862727,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 0.2918,
+      "step": 48980
+    },
+    {
+      "epoch": 0.8867975748801014,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003437775230741388,
+      "loss": 0.4383,
+      "step": 49000
+    },
+    {
+      "epoch": 0.8871595330739299,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 2.0041,
+      "step": 49020
+    },
+    {
+      "epoch": 0.8875214912677586,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.1767,
+      "step": 49040
+    },
+    {
+      "epoch": 0.8878834494615871,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.8047,
+      "step": 49060
+    },
+    {
+      "epoch": 0.8882454076554158,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 0.7776,
+      "step": 49080
+    },
+    {
+      "epoch": 0.8886073658492444,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 2.9128,
+      "step": 49100
+    },
+    {
+      "epoch": 0.888969324043073,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 3.8472,
+      "step": 49120
+    },
+    {
+      "epoch": 0.8893312822369016,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.9238,
+      "step": 49140
+    },
+    {
+      "epoch": 0.8896932404307303,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 0.8734,
+      "step": 49160
+    },
+    {
+      "epoch": 0.8900551986245588,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.8095,
+      "step": 49180
+    },
+    {
+      "epoch": 0.8904171568183875,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 3.3127,
+      "step": 49200
+    },
+    {
+      "epoch": 0.8907791150122161,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 0.3799,
+      "step": 49220
+    },
+    {
+      "epoch": 0.8911410732060447,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.4065,
+      "step": 49240
+    },
+    {
+      "epoch": 0.8915030313998733,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.4969,
+      "step": 49260
+    },
+    {
+      "epoch": 0.891864989593702,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.4145,
+      "step": 49280
+    },
+    {
+      "epoch": 0.8922269477875305,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.1898,
+      "step": 49300
+    },
+    {
+      "epoch": 0.8925889059813592,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 0.3764,
+      "step": 49320
+    },
+    {
+      "epoch": 0.8929508641751878,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.0612,
+      "step": 49340
+    },
+    {
+      "epoch": 0.8933128223690163,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 0.6792,
+      "step": 49360
+    },
+    {
+      "epoch": 0.893674780562845,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.563,
+      "step": 49380
+    },
+    {
+      "epoch": 0.8940367387566736,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.8383,
+      "step": 49400
+    },
+    {
+      "epoch": 0.8943986969505022,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 2.0042,
+      "step": 49420
+    },
+    {
+      "epoch": 0.8947606551443308,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.3138,
+      "step": 49440
+    },
+    {
+      "epoch": 0.8951226133381595,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 2.119,
+      "step": 49460
+    },
+    {
+      "epoch": 0.895484571531988,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034383181516559085,
+      "loss": 1.8186,
+      "step": 49480
+    },
+    {
+      "epoch": 0.8958465297258167,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003438861072570429,
+      "loss": 0.7511,
+      "step": 49500
+    },
+    {
+      "epoch": 0.8962084879196452,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003438861072570429,
+      "loss": 1.9937,
+      "step": 49520
+    },
+    {
+      "epoch": 0.8965704461134739,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003438861072570429,
+      "loss": 1.9893,
+      "step": 49540
+    },
+    {
+      "epoch": 0.8969324043073025,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 0.5879,
+      "step": 49560
+    },
+    {
+      "epoch": 0.8972943625011311,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 0.0,
+      "step": 49580
+    },
+    {
+      "epoch": 0.8976563206949597,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 1.9287,
+      "step": 49600
+    },
+    {
+      "epoch": 0.8980182788887884,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 2.0609,
+      "step": 49620
+    },
+    {
+      "epoch": 0.8983802370826169,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 2.6145,
+      "step": 49640
+    },
+    {
+      "epoch": 0.8987421952764456,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 3.2522,
+      "step": 49660
+    },
+    {
+      "epoch": 0.8991041534702742,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 2.7444,
+      "step": 49680
+    },
+    {
+      "epoch": 0.8994661116641028,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 4.5388,
+      "step": 49700
+    },
+    {
+      "epoch": 0.8998280698579314,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 1.8448,
+      "step": 49720
+    },
+    {
+      "epoch": 0.9001900280517601,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 1.514,
+      "step": 49740
+    },
+    {
+      "epoch": 0.9005519862455886,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 2.3255,
+      "step": 49760
+    },
+    {
+      "epoch": 0.9009139444394173,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 0.3116,
+      "step": 49780
+    },
+    {
+      "epoch": 0.9012759026332459,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 2.52,
+      "step": 49800
+    },
+    {
+      "epoch": 0.9016378608270744,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 3.8961,
+      "step": 49820
+    },
+    {
+      "epoch": 0.9019998190209031,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 2.786,
+      "step": 49840
+    },
+    {
+      "epoch": 0.9023617772147317,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 0.263,
+      "step": 49860
+    },
+    {
+      "epoch": 0.9027237354085603,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 1.4603,
+      "step": 49880
+    },
+    {
+      "epoch": 0.9030856936023889,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 2.8763,
+      "step": 49900
+    },
+    {
+      "epoch": 0.9034476517962176,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003439403993484949,
+      "loss": 2.9407,
+      "step": 49920
+    },
+    {
+      "epoch": 0.9038096099900461,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034399469143994694,
+      "loss": 3.1258,
+      "step": 49940
+    },
+    {
+      "epoch": 0.9041715681838748,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034399469143994694,
+      "loss": 0.8813,
+      "step": 49960
+    },
+    {
+      "epoch": 0.9045335263777033,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034399469143994694,
+      "loss": 1.0321,
+      "step": 49980
+    },
+    {
+      "epoch": 0.904895484571532,
+      "grad_norm": NaN,
+      "learning_rate": 0.00034399469143994694,
+      "loss": 3.1083,
+      "step": 50000
+    },
+    {
+      "epoch": 0.904895484571532,
+      "eval_accuracy": 4.551287535289588e-05,
+      "eval_loss": NaN,
+      "eval_runtime": 170.9007,
+      "eval_samples_per_second": 3556.686,
+      "eval_steps_per_second": 3.476,
+      "step": 50000
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 7.19181053952e+16,
   "train_batch_size": 512,
   "trial_name": null,
   "trial_params": null