Training in progress, step 10000

Browse files

Files changed (7) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state_0.pth +1 -1
rng_state_1.pth +1 -1
runs/Jun07_20-36-29_829f6f605e43/events.out.tfevents.1717792718.829f6f605e43.85.0 +2 -2
scheduler.pt +1 -1
trainer_state.json +1763 -4

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8abaa42d3463b1fade9c9a8962318359c17b20036209deee3f1533c022f6ff45
 size 44644496

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ba74cf25c786c33ab51f49853610332c7c6fac2a629cf396b37bb2a5daf3218
 size 44644496

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82254252c8439c400690d9e912a9b41091500366183fc979cee1cef9b2d35ddb
 size 11230198

 version https://git-lfs.github.com/spec/v1
+oid sha256:307f93c818fe9e997251c586a4bbef0f98546328ebc4260c26d059dbb40e19bc
 size 11230198

rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cb795a5cea0baa625c50007a6c9da09c6bbb5c16b560424070384a479e7d8a6
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:34bcae41c589c7e4cab7b2ef263b878c90c2741404a6af11994dc31537b2319b
 size 14512

rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f19604377bd828eb366c68946ad997a4ff4d69beaeea93ee58915135768ec63
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:d05dc84075e8f7dd1191c36f3be9dda12073208e12f7d2cef433c38d6336774a
 size 14512

runs/Jun07_20-36-29_829f6f605e43/events.out.tfevents.1717792718.829f6f605e43.85.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5f5a58aa39d257803087286f6970f617b220fb828688a142a7a6f6b2ebe0a9a
-size 57851

 version https://git-lfs.github.com/spec/v1
+oid sha256:91a8415078fc8a593e4dafbb625bc6e914226237ff615cf5f31057d766f26011
+size 110924

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe25b65e375d09c26af85ce4a53e5909be64fae7753341d624d8971238990a51
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:751d576a2eea45359933cc7817354c80776613355e39eb96453c641164eefa3f
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0904895484571532,
   "eval_steps": 5000,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1766,6 +1766,1765 @@
       "eval_samples_per_second": 3517.479,
       "eval_steps_per_second": 3.437,
       "step": 5000
     }
   ],
   "logging_steps": 20,
@@ -1779,13 +3538,13 @@
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
-        "should_save": false,
         "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 7191810539520000.0,
   "train_batch_size": 512,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1809790969143064,
   "eval_steps": 5000,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3517.479,
       "eval_steps_per_second": 3.437,
       "step": 5000
+    },
+    {
+      "epoch": 0.09085150665098181,
+      "grad_norm": 4.571134567260742,
+      "learning_rate": 0.00027227483863183924,
+      "loss": 8.0411,
+      "step": 5020
+    },
+    {
+      "epoch": 0.09121346484481042,
+      "grad_norm": 5.403674602508545,
+      "learning_rate": 0.0002733606804608795,
+      "loss": 8.0345,
+      "step": 5040
+    },
+    {
+      "epoch": 0.09157542303863904,
+      "grad_norm": 4.911813259124756,
+      "learning_rate": 0.0002744465222899197,
+      "loss": 8.0946,
+      "step": 5060
+    },
+    {
+      "epoch": 0.09193738123246765,
+      "grad_norm": 5.051859378814697,
+      "learning_rate": 0.00027553236411895996,
+      "loss": 8.0794,
+      "step": 5080
+    },
+    {
+      "epoch": 0.09229933942629626,
+      "grad_norm": 5.029412746429443,
+      "learning_rate": 0.0002766182059480002,
+      "loss": 8.0873,
+      "step": 5100
+    },
+    {
+      "epoch": 0.09266129762012487,
+      "grad_norm": 4.249423503875732,
+      "learning_rate": 0.00027770404777704044,
+      "loss": 8.098,
+      "step": 5120
+    },
+    {
+      "epoch": 0.09302325581395349,
+      "grad_norm": 4.305202960968018,
+      "learning_rate": 0.0002787898896060807,
+      "loss": 8.0734,
+      "step": 5140
+    },
+    {
+      "epoch": 0.0933852140077821,
+      "grad_norm": 5.8397345542907715,
+      "learning_rate": 0.0002798757314351209,
+      "loss": 8.12,
+      "step": 5160
+    },
+    {
+      "epoch": 0.09374717220161072,
+      "grad_norm": 4.833122253417969,
+      "learning_rate": 0.00028096157326416117,
+      "loss": 8.0778,
+      "step": 5180
+    },
+    {
+      "epoch": 0.09410913039543933,
+      "grad_norm": 3.883317232131958,
+      "learning_rate": 0.0002820474150932014,
+      "loss": 8.0997,
+      "step": 5200
+    },
+    {
+      "epoch": 0.09447108858926793,
+      "grad_norm": 4.111331939697266,
+      "learning_rate": 0.00028313325692224165,
+      "loss": 8.1039,
+      "step": 5220
+    },
+    {
+      "epoch": 0.09483304678309655,
+      "grad_norm": 3.988339424133301,
+      "learning_rate": 0.0002842190987512819,
+      "loss": 8.0941,
+      "step": 5240
+    },
+    {
+      "epoch": 0.09519500497692517,
+      "grad_norm": 3.9682798385620117,
+      "learning_rate": 0.0002853049405803221,
+      "loss": 8.0477,
+      "step": 5260
+    },
+    {
+      "epoch": 0.09555696317075378,
+      "grad_norm": 5.8604655265808105,
+      "learning_rate": 0.0002863907824093623,
+      "loss": 8.077,
+      "step": 5280
+    },
+    {
+      "epoch": 0.0959189213645824,
+      "grad_norm": 4.823431015014648,
+      "learning_rate": 0.00028747662423840256,
+      "loss": 8.0723,
+      "step": 5300
+    },
+    {
+      "epoch": 0.096280879558411,
+      "grad_norm": 8.868093490600586,
+      "learning_rate": 0.0002885624660674428,
+      "loss": 8.312,
+      "step": 5320
+    },
+    {
+      "epoch": 0.09664283775223961,
+      "grad_norm": 3.8635661602020264,
+      "learning_rate": 0.00028964830789648304,
+      "loss": 8.1751,
+      "step": 5340
+    },
+    {
+      "epoch": 0.09700479594606823,
+      "grad_norm": 4.368812084197998,
+      "learning_rate": 0.0002907341497255233,
+      "loss": 8.0755,
+      "step": 5360
+    },
+    {
+      "epoch": 0.09736675413989684,
+      "grad_norm": 4.956539154052734,
+      "learning_rate": 0.0002918199915545635,
+      "loss": 8.0912,
+      "step": 5380
+    },
+    {
+      "epoch": 0.09772871233372546,
+      "grad_norm": 4.059233665466309,
+      "learning_rate": 0.00029290583338360376,
+      "loss": 8.0815,
+      "step": 5400
+    },
+    {
+      "epoch": 0.09809067052755406,
+      "grad_norm": 4.747849464416504,
+      "learning_rate": 0.000293991675212644,
+      "loss": 8.0874,
+      "step": 5420
+    },
+    {
+      "epoch": 0.09845262872138268,
+      "grad_norm": 4.266099452972412,
+      "learning_rate": 0.00029507751704168424,
+      "loss": 8.0662,
+      "step": 5440
+    },
+    {
+      "epoch": 0.09881458691521129,
+      "grad_norm": 4.489388465881348,
+      "learning_rate": 0.0002961633588707245,
+      "loss": 8.0817,
+      "step": 5460
+    },
+    {
+      "epoch": 0.09917654510903991,
+      "grad_norm": 4.930331230163574,
+      "learning_rate": 0.0002972492006997647,
+      "loss": 8.0799,
+      "step": 5480
+    },
+    {
+      "epoch": 0.09953850330286852,
+      "grad_norm": 5.424180030822754,
+      "learning_rate": 0.00029833504252880496,
+      "loss": 8.065,
+      "step": 5500
+    },
+    {
+      "epoch": 0.09990046149669714,
+      "grad_norm": 4.461760520935059,
+      "learning_rate": 0.0002994208843578452,
+      "loss": 8.0738,
+      "step": 5520
+    },
+    {
+      "epoch": 0.10026241969052574,
+      "grad_norm": 3.7566046714782715,
+      "learning_rate": 0.0003005067261868854,
+      "loss": 8.0848,
+      "step": 5540
+    },
+    {
+      "epoch": 0.10062437788435435,
+      "grad_norm": 6.27786111831665,
+      "learning_rate": 0.00030159256801592563,
+      "loss": 8.088,
+      "step": 5560
+    },
+    {
+      "epoch": 0.10098633607818297,
+      "grad_norm": 4.437178134918213,
+      "learning_rate": 0.00030267840984496587,
+      "loss": 8.068,
+      "step": 5580
+    },
+    {
+      "epoch": 0.10134829427201159,
+      "grad_norm": 4.757803440093994,
+      "learning_rate": 0.0003037642516740061,
+      "loss": 8.0712,
+      "step": 5600
+    },
+    {
+      "epoch": 0.1017102524658402,
+      "grad_norm": 4.162949085235596,
+      "learning_rate": 0.00030485009350304635,
+      "loss": 8.0941,
+      "step": 5620
+    },
+    {
+      "epoch": 0.1020722106596688,
+      "grad_norm": 5.036799430847168,
+      "learning_rate": 0.0003059359353320866,
+      "loss": 8.1277,
+      "step": 5640
+    },
+    {
+      "epoch": 0.10243416885349742,
+      "grad_norm": 6.508123397827148,
+      "learning_rate": 0.00030702177716112683,
+      "loss": 8.1014,
+      "step": 5660
+    },
+    {
+      "epoch": 0.10279612704732603,
+      "grad_norm": 4.099546432495117,
+      "learning_rate": 0.0003081076189901671,
+      "loss": 8.1013,
+      "step": 5680
+    },
+    {
+      "epoch": 0.10315808524115465,
+      "grad_norm": 5.094971656799316,
+      "learning_rate": 0.0003091934608192073,
+      "loss": 8.0943,
+      "step": 5700
+    },
+    {
+      "epoch": 0.10352004343498326,
+      "grad_norm": 3.8019566535949707,
+      "learning_rate": 0.00031027930264824756,
+      "loss": 8.0894,
+      "step": 5720
+    },
+    {
+      "epoch": 0.10388200162881188,
+      "grad_norm": 5.287724494934082,
+      "learning_rate": 0.0003113651444772878,
+      "loss": 8.0937,
+      "step": 5740
+    },
+    {
+      "epoch": 0.10424395982264048,
+      "grad_norm": 4.729523658752441,
+      "learning_rate": 0.00031245098630632804,
+      "loss": 8.1002,
+      "step": 5760
+    },
+    {
+      "epoch": 0.1046059180164691,
+      "grad_norm": 4.7321319580078125,
+      "learning_rate": 0.0003135368281353683,
+      "loss": 8.0607,
+      "step": 5780
+    },
+    {
+      "epoch": 0.10496787621029771,
+      "grad_norm": 5.564339637756348,
+      "learning_rate": 0.0003146226699644085,
+      "loss": 8.1031,
+      "step": 5800
+    },
+    {
+      "epoch": 0.10532983440412633,
+      "grad_norm": 3.883352041244507,
+      "learning_rate": 0.00031570851179344876,
+      "loss": 8.0864,
+      "step": 5820
+    },
+    {
+      "epoch": 0.10569179259795494,
+      "grad_norm": 6.192608833312988,
+      "learning_rate": 0.000316794353622489,
+      "loss": 8.0805,
+      "step": 5840
+    },
+    {
+      "epoch": 0.10605375079178354,
+      "grad_norm": 3.4210565090179443,
+      "learning_rate": 0.00031788019545152924,
+      "loss": 8.104,
+      "step": 5860
+    },
+    {
+      "epoch": 0.10641570898561216,
+      "grad_norm": 5.195882797241211,
+      "learning_rate": 0.0003189660372805695,
+      "loss": 8.0621,
+      "step": 5880
+    },
+    {
+      "epoch": 0.10677766717944077,
+      "grad_norm": 4.863924980163574,
+      "learning_rate": 0.0003200518791096097,
+      "loss": 8.2223,
+      "step": 5900
+    },
+    {
+      "epoch": 0.10713962537326939,
+      "grad_norm": 6.122769355773926,
+      "learning_rate": 0.00032113772093864996,
+      "loss": 8.1023,
+      "step": 5920
+    },
+    {
+      "epoch": 0.107501583567098,
+      "grad_norm": 10.902450561523438,
+      "learning_rate": 0.00032222356276769015,
+      "loss": 8.1196,
+      "step": 5940
+    },
+    {
+      "epoch": 0.1078635417609266,
+      "grad_norm": 35.497840881347656,
+      "learning_rate": 0.0003233094045967304,
+      "loss": 8.1074,
+      "step": 5960
+    },
+    {
+      "epoch": 0.10822549995475522,
+      "grad_norm": 4.4585862159729,
+      "learning_rate": 0.00032417807805996257,
+      "loss": 8.9866,
+      "step": 5980
+    },
+    {
+      "epoch": 0.10858745814858384,
+      "grad_norm": 7.580636024475098,
+      "learning_rate": 0.0003252639198890028,
+      "loss": 9.1972,
+      "step": 6000
+    },
+    {
+      "epoch": 0.10894941634241245,
+      "grad_norm": 4.390789031982422,
+      "learning_rate": 0.00032634976171804305,
+      "loss": 10.38,
+      "step": 6020
+    },
+    {
+      "epoch": 0.10931137453624107,
+      "grad_norm": 3.9264190196990967,
+      "learning_rate": 0.0003274356035470833,
+      "loss": 9.9821,
+      "step": 6040
+    },
+    {
+      "epoch": 0.10967333273006968,
+      "grad_norm": 4.207955837249756,
+      "learning_rate": 0.00032852144537612354,
+      "loss": 9.7519,
+      "step": 6060
+    },
+    {
+      "epoch": 0.11003529092389829,
+      "grad_norm": 3.7314298152923584,
+      "learning_rate": 0.0003292815346564517,
+      "loss": 9.4857,
+      "step": 6080
+    },
+    {
+      "epoch": 0.1103972491177269,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003296072872051638,
+      "loss": 8.6937,
+      "step": 6100
+    },
+    {
+      "epoch": 0.11075920731155552,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003296072872051638,
+      "loss": 4.8707,
+      "step": 6120
+    },
+    {
+      "epoch": 0.11112116550538413,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003296072872051638,
+      "loss": 4.4629,
+      "step": 6140
+    },
+    {
+      "epoch": 0.11148312369921275,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297158713880678,
+      "loss": 4.7899,
+      "step": 6160
+    },
+    {
+      "epoch": 0.11184508189304135,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297158713880678,
+      "loss": 4.5487,
+      "step": 6180
+    },
+    {
+      "epoch": 0.11220704008686996,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297158713880678,
+      "loss": 0.3068,
+      "step": 6200
+    },
+    {
+      "epoch": 0.11256899828069858,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 3.6855,
+      "step": 6220
+    },
+    {
+      "epoch": 0.1129309564745272,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 1.1705,
+      "step": 6240
+    },
+    {
+      "epoch": 0.11329291466835581,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 4.775,
+      "step": 6260
+    },
+    {
+      "epoch": 0.11365487286218441,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 1.8774,
+      "step": 6280
+    },
+    {
+      "epoch": 0.11401683105601303,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 1.6138,
+      "step": 6300
+    },
+    {
+      "epoch": 0.11437878924984164,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 4.092,
+      "step": 6320
+    },
+    {
+      "epoch": 0.11474074744367026,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 1.877,
+      "step": 6340
+    },
+    {
+      "epoch": 0.11510270563749887,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 0.0,
+      "step": 6360
+    },
+    {
+      "epoch": 0.11546466383132749,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 1.4496,
+      "step": 6380
+    },
+    {
+      "epoch": 0.11582662202515609,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 0.8283,
+      "step": 6400
+    },
+    {
+      "epoch": 0.1161885802189847,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 1.0648,
+      "step": 6420
+    },
+    {
+      "epoch": 0.11655053841281332,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 1.5593,
+      "step": 6440
+    },
+    {
+      "epoch": 0.11691249660664194,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 0.3318,
+      "step": 6460
+    },
+    {
+      "epoch": 0.11727445480047055,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 0.2933,
+      "step": 6480
+    },
+    {
+      "epoch": 0.11763641299429915,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 0.8112,
+      "step": 6500
+    },
+    {
+      "epoch": 0.11799837118812777,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 0.9949,
+      "step": 6520
+    },
+    {
+      "epoch": 0.11836032938195638,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 1.0499,
+      "step": 6540
+    },
+    {
+      "epoch": 0.118722287575785,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 1.1902,
+      "step": 6560
+    },
+    {
+      "epoch": 0.11908424576961361,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 4.6519,
+      "step": 6580
+    },
+    {
+      "epoch": 0.11944620396344222,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 3.6229,
+      "step": 6600
+    },
+    {
+      "epoch": 0.11980816215727083,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003297701634795198,
+      "loss": 0.0,
+      "step": 6620
+    },
+    {
+      "epoch": 0.12017012035109945,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032982445557097183,
+      "loss": 1.116,
+      "step": 6640
+    },
+    {
+      "epoch": 0.12053207854492806,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032987874766242386,
+      "loss": 2.6337,
+      "step": 6660
+    },
+    {
+      "epoch": 0.12089403673875668,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032987874766242386,
+      "loss": 2.4189,
+      "step": 6680
+    },
+    {
+      "epoch": 0.12125599493258529,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032987874766242386,
+      "loss": 0.0,
+      "step": 6700
+    },
+    {
+      "epoch": 0.1216179531264139,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032993303975387584,
+      "loss": 5.334,
+      "step": 6720
+    },
+    {
+      "epoch": 0.12197991132024251,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032993303975387584,
+      "loss": 1.2443,
+      "step": 6740
+    },
+    {
+      "epoch": 0.12234186951407112,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032993303975387584,
+      "loss": 4.497,
+      "step": 6760
+    },
+    {
+      "epoch": 0.12270382770789974,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032993303975387584,
+      "loss": 1.03,
+      "step": 6780
+    },
+    {
+      "epoch": 0.12306578590172836,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032993303975387584,
+      "loss": 0.5876,
+      "step": 6800
+    },
+    {
+      "epoch": 0.12342774409555696,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032993303975387584,
+      "loss": 3.1744,
+      "step": 6820
+    },
+    {
+      "epoch": 0.12378970228938557,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032993303975387584,
+      "loss": 1.7883,
+      "step": 6840
+    },
+    {
+      "epoch": 0.12415166048321419,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032993303975387584,
+      "loss": 0.6097,
+      "step": 6860
+    },
+    {
+      "epoch": 0.1245136186770428,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032993303975387584,
+      "loss": 2.116,
+      "step": 6880
+    },
+    {
+      "epoch": 0.12487557687087142,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032993303975387584,
+      "loss": 1.1183,
+      "step": 6900
+    },
+    {
+      "epoch": 0.12523753506470003,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032998733184532787,
+      "loss": 2.0884,
+      "step": 6920
+    },
+    {
+      "epoch": 0.12559949325852865,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032998733184532787,
+      "loss": 0.0,
+      "step": 6940
+    },
+    {
+      "epoch": 0.12596145145235726,
+      "grad_norm": NaN,
+      "learning_rate": 0.00032998733184532787,
+      "loss": 3.2805,
+      "step": 6960
+    },
+    {
+      "epoch": 0.12632340964618585,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003300416239367799,
+      "loss": 2.9308,
+      "step": 6980
+    },
+    {
+      "epoch": 0.12668536784001447,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003300416239367799,
+      "loss": 0.2905,
+      "step": 7000
+    },
+    {
+      "epoch": 0.12704732603384308,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003300416239367799,
+      "loss": 1.5342,
+      "step": 7020
+    },
+    {
+      "epoch": 0.1274092842276717,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003300416239367799,
+      "loss": 2.1439,
+      "step": 7040
+    },
+    {
+      "epoch": 0.12777124242150031,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003300416239367799,
+      "loss": 1.8486,
+      "step": 7060
+    },
+    {
+      "epoch": 0.12813320061532893,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003300416239367799,
+      "loss": 2.2983,
+      "step": 7080
+    },
+    {
+      "epoch": 0.12849515880915754,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033009591602823187,
+      "loss": 5.8454,
+      "step": 7100
+    },
+    {
+      "epoch": 0.12885711700298616,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033009591602823187,
+      "loss": 0.0,
+      "step": 7120
+    },
+    {
+      "epoch": 0.12921907519681478,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033009591602823187,
+      "loss": 3.4919,
+      "step": 7140
+    },
+    {
+      "epoch": 0.1295810333906434,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033009591602823187,
+      "loss": 0.0,
+      "step": 7160
+    },
+    {
+      "epoch": 0.129942991584472,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003301502081196839,
+      "loss": 1.6828,
+      "step": 7180
+    },
+    {
+      "epoch": 0.1303049497783006,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302045002111359,
+      "loss": 2.8762,
+      "step": 7200
+    },
+    {
+      "epoch": 0.1306669079721292,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302045002111359,
+      "loss": 0.995,
+      "step": 7220
+    },
+    {
+      "epoch": 0.13102886616595782,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302045002111359,
+      "loss": 3.0309,
+      "step": 7240
+    },
+    {
+      "epoch": 0.13139082435978644,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302045002111359,
+      "loss": 2.1536,
+      "step": 7260
+    },
+    {
+      "epoch": 0.13175278255361506,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302045002111359,
+      "loss": 1.7328,
+      "step": 7280
+    },
+    {
+      "epoch": 0.13211474074744367,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302045002111359,
+      "loss": 1.4516,
+      "step": 7300
+    },
+    {
+      "epoch": 0.1324766989412723,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302045002111359,
+      "loss": 2.3328,
+      "step": 7320
+    },
+    {
+      "epoch": 0.1328386571351009,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302045002111359,
+      "loss": 5.0458,
+      "step": 7340
+    },
+    {
+      "epoch": 0.13320061532892952,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302045002111359,
+      "loss": 0.6658,
+      "step": 7360
+    },
+    {
+      "epoch": 0.13356257352275813,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 3.0189,
+      "step": 7380
+    },
+    {
+      "epoch": 0.13392453171658675,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 1.0563,
+      "step": 7400
+    },
+    {
+      "epoch": 0.13428648991041534,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 0.2771,
+      "step": 7420
+    },
+    {
+      "epoch": 0.13464844810424395,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 2.2785,
+      "step": 7440
+    },
+    {
+      "epoch": 0.13501040629807257,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 3.2136,
+      "step": 7460
+    },
+    {
+      "epoch": 0.13537236449190118,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 0.4388,
+      "step": 7480
+    },
+    {
+      "epoch": 0.1357343226857298,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 1.5316,
+      "step": 7500
+    },
+    {
+      "epoch": 0.1360962808795584,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 4.91,
+      "step": 7520
+    },
+    {
+      "epoch": 0.13645823907338703,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 0.6,
+      "step": 7540
+    },
+    {
+      "epoch": 0.13682019726721564,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 1.3436,
+      "step": 7560
+    },
+    {
+      "epoch": 0.13718215546104426,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 0.971,
+      "step": 7580
+    },
+    {
+      "epoch": 0.13754411365487287,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 0.9318,
+      "step": 7600
+    },
+    {
+      "epoch": 0.13790607184870146,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 1.9039,
+      "step": 7620
+    },
+    {
+      "epoch": 0.13826803004253008,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 1.7444,
+      "step": 7640
+    },
+    {
+      "epoch": 0.1386299882363587,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 1.1124,
+      "step": 7660
+    },
+    {
+      "epoch": 0.1389919464301873,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 2.8302,
+      "step": 7680
+    },
+    {
+      "epoch": 0.13935390462401592,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 4.0674,
+      "step": 7700
+    },
+    {
+      "epoch": 0.13971586281784454,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 0.275,
+      "step": 7720
+    },
+    {
+      "epoch": 0.14007782101167315,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 2.7992,
+      "step": 7740
+    },
+    {
+      "epoch": 0.14043977920550177,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 3.474,
+      "step": 7760
+    },
+    {
+      "epoch": 0.14080173739933038,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 2.9148,
+      "step": 7780
+    },
+    {
+      "epoch": 0.141163695593159,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 0.2909,
+      "step": 7800
+    },
+    {
+      "epoch": 0.14152565378698762,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 2.1936,
+      "step": 7820
+    },
+    {
+      "epoch": 0.1418876119808162,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003302587923025879,
+      "loss": 4.1645,
+      "step": 7840
+    },
+    {
+      "epoch": 0.14224957017464482,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003303130843940399,
+      "loss": 4.7352,
+      "step": 7860
+    },
+    {
+      "epoch": 0.14261152836847343,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003303130843940399,
+      "loss": 0.9052,
+      "step": 7880
+    },
+    {
+      "epoch": 0.14297348656230205,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003303130843940399,
+      "loss": 3.5735,
+      "step": 7900
+    },
+    {
+      "epoch": 0.14333544475613066,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003303130843940399,
+      "loss": 0.4788,
+      "step": 7920
+    },
+    {
+      "epoch": 0.14369740294995928,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 2.5942,
+      "step": 7940
+    },
+    {
+      "epoch": 0.1440593611437879,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 0.5562,
+      "step": 7960
+    },
+    {
+      "epoch": 0.1444213193376165,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 1.268,
+      "step": 7980
+    },
+    {
+      "epoch": 0.14478327753144513,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 2.5866,
+      "step": 8000
+    },
+    {
+      "epoch": 0.14514523572527374,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 0.0,
+      "step": 8020
+    },
+    {
+      "epoch": 0.14550719391910236,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 1.2675,
+      "step": 8040
+    },
+    {
+      "epoch": 0.14586915211293094,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 0.407,
+      "step": 8060
+    },
+    {
+      "epoch": 0.14623111030675956,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 0.0,
+      "step": 8080
+    },
+    {
+      "epoch": 0.14659306850058818,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 1.6142,
+      "step": 8100
+    },
+    {
+      "epoch": 0.1469550266944168,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 0.6237,
+      "step": 8120
+    },
+    {
+      "epoch": 0.1473169848882454,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 1.5398,
+      "step": 8140
+    },
+    {
+      "epoch": 0.14767894308207402,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 0.4752,
+      "step": 8160
+    },
+    {
+      "epoch": 0.14804090127590264,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 2.9843,
+      "step": 8180
+    },
+    {
+      "epoch": 0.14840285946973125,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 1.2889,
+      "step": 8200
+    },
+    {
+      "epoch": 0.14876481766355987,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 0.0,
+      "step": 8220
+    },
+    {
+      "epoch": 0.14912677585738848,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 1.5344,
+      "step": 8240
+    },
+    {
+      "epoch": 0.1494887340512171,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 4.309,
+      "step": 8260
+    },
+    {
+      "epoch": 0.14985069224504569,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 4.7959,
+      "step": 8280
+    },
+    {
+      "epoch": 0.1502126504388743,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 0.2643,
+      "step": 8300
+    },
+    {
+      "epoch": 0.15057460863270292,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 1.5931,
+      "step": 8320
+    },
+    {
+      "epoch": 0.15093656682653153,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 3.252,
+      "step": 8340
+    },
+    {
+      "epoch": 0.15129852502036015,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 0.4066,
+      "step": 8360
+    },
+    {
+      "epoch": 0.15166048321418876,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 1.5006,
+      "step": 8380
+    },
+    {
+      "epoch": 0.15202244140801738,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 1.7442,
+      "step": 8400
+    },
+    {
+      "epoch": 0.152384399601846,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 0.4045,
+      "step": 8420
+    },
+    {
+      "epoch": 0.1527463577956746,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 1.252,
+      "step": 8440
+    },
+    {
+      "epoch": 0.15310831598950322,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033036737648549196,
+      "loss": 1.0349,
+      "step": 8460
+    },
+    {
+      "epoch": 0.1534702741833318,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033042166857694393,
+      "loss": 0.5888,
+      "step": 8480
+    },
+    {
+      "epoch": 0.15383223237716043,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033047596066839596,
+      "loss": 1.9747,
+      "step": 8500
+    },
+    {
+      "epoch": 0.15419419057098904,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033047596066839596,
+      "loss": 1.1524,
+      "step": 8520
+    },
+    {
+      "epoch": 0.15455614876481766,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033047596066839596,
+      "loss": 3.9692,
+      "step": 8540
+    },
+    {
+      "epoch": 0.15491810695864627,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033047596066839596,
+      "loss": 2.6825,
+      "step": 8560
+    },
+    {
+      "epoch": 0.1552800651524749,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033047596066839596,
+      "loss": 2.5432,
+      "step": 8580
+    },
+    {
+      "epoch": 0.1556420233463035,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330530252759848,
+      "loss": 3.0545,
+      "step": 8600
+    },
+    {
+      "epoch": 0.15600398154013212,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 1.709,
+      "step": 8620
+    },
+    {
+      "epoch": 0.15636593973396073,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 1.1557,
+      "step": 8640
+    },
+    {
+      "epoch": 0.15672789792778935,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 1.9568,
+      "step": 8660
+    },
+    {
+      "epoch": 0.15708985612161797,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 0.4101,
+      "step": 8680
+    },
+    {
+      "epoch": 0.15745181431544655,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 1.0798,
+      "step": 8700
+    },
+    {
+      "epoch": 0.15781377250927517,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 0.9417,
+      "step": 8720
+    },
+    {
+      "epoch": 0.15817573070310378,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 0.3268,
+      "step": 8740
+    },
+    {
+      "epoch": 0.1585376888969324,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 2.7045,
+      "step": 8760
+    },
+    {
+      "epoch": 0.15889964709076101,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 3.1654,
+      "step": 8780
+    },
+    {
+      "epoch": 0.15926160528458963,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 3.7107,
+      "step": 8800
+    },
+    {
+      "epoch": 0.15962356347841825,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 1.1776,
+      "step": 8820
+    },
+    {
+      "epoch": 0.15998552167224686,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033058454485129996,
+      "loss": 0.7538,
+      "step": 8840
+    },
+    {
+      "epoch": 0.16034747986607548,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330638836942752,
+      "loss": 5.9555,
+      "step": 8860
+    },
+    {
+      "epoch": 0.1607094380599041,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 2.4652,
+      "step": 8880
+    },
+    {
+      "epoch": 0.1610713962537327,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 0.6042,
+      "step": 8900
+    },
+    {
+      "epoch": 0.1614333544475613,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 2.164,
+      "step": 8920
+    },
+    {
+      "epoch": 0.1617953126413899,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 1.5732,
+      "step": 8940
+    },
+    {
+      "epoch": 0.16215727083521853,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 0.7035,
+      "step": 8960
+    },
+    {
+      "epoch": 0.16251922902904714,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 1.3199,
+      "step": 8980
+    },
+    {
+      "epoch": 0.16288118722287576,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 2.9008,
+      "step": 9000
+    },
+    {
+      "epoch": 0.16324314541670437,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 2.8915,
+      "step": 9020
+    },
+    {
+      "epoch": 0.163605103610533,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 0.6013,
+      "step": 9040
+    },
+    {
+      "epoch": 0.1639670618043616,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 0.7603,
+      "step": 9060
+    },
+    {
+      "epoch": 0.16432901999819022,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 2.1826,
+      "step": 9080
+    },
+    {
+      "epoch": 0.16469097819201883,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 3.9643,
+      "step": 9100
+    },
+    {
+      "epoch": 0.16505293638584742,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 1.6171,
+      "step": 9120
+    },
+    {
+      "epoch": 0.16541489457967604,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 0.5245,
+      "step": 9140
+    },
+    {
+      "epoch": 0.16577685277350465,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 2.243,
+      "step": 9160
+    },
+    {
+      "epoch": 0.16613881096733327,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330693129034204,
+      "loss": 2.6442,
+      "step": 9180
+    },
+    {
+      "epoch": 0.16650076916116188,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330747421125656,
+      "loss": 1.4556,
+      "step": 9200
+    },
+    {
+      "epoch": 0.1668627273549905,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330747421125656,
+      "loss": 2.888,
+      "step": 9220
+    },
+    {
+      "epoch": 0.1672246855488191,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330747421125656,
+      "loss": 0.8837,
+      "step": 9240
+    },
+    {
+      "epoch": 0.16758664374264773,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330747421125656,
+      "loss": 3.352,
+      "step": 9260
+    },
+    {
+      "epoch": 0.16794860193647634,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330747421125656,
+      "loss": 1.1593,
+      "step": 9280
+    },
+    {
+      "epoch": 0.16831056013030496,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330801713217108,
+      "loss": 1.2725,
+      "step": 9300
+    },
+    {
+      "epoch": 0.16867251832413357,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330801713217108,
+      "loss": 2.86,
+      "step": 9320
+    },
+    {
+      "epoch": 0.16903447651796216,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330801713217108,
+      "loss": 1.3259,
+      "step": 9340
+    },
+    {
+      "epoch": 0.16939643471179078,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330801713217108,
+      "loss": 1.9639,
+      "step": 9360
+    },
+    {
+      "epoch": 0.1697583929056194,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330801713217108,
+      "loss": 1.0361,
+      "step": 9380
+    },
+    {
+      "epoch": 0.170120351099448,
+      "grad_norm": NaN,
+      "learning_rate": 0.000330801713217108,
+      "loss": 0.8044,
+      "step": 9400
+    },
+    {
+      "epoch": 0.17048230929327662,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 2.3303,
+      "step": 9420
+    },
+    {
+      "epoch": 0.17084426748710524,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 2.9078,
+      "step": 9440
+    },
+    {
+      "epoch": 0.17120622568093385,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 0.4421,
+      "step": 9460
+    },
+    {
+      "epoch": 0.17156818387476247,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 5.0288,
+      "step": 9480
+    },
+    {
+      "epoch": 0.17193014206859109,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 0.8455,
+      "step": 9500
+    },
+    {
+      "epoch": 0.1722921002624197,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 3.2879,
+      "step": 9520
+    },
+    {
+      "epoch": 0.17265405845624832,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 3.2948,
+      "step": 9540
+    },
+    {
+      "epoch": 0.1730160166500769,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 1.6391,
+      "step": 9560
+    },
+    {
+      "epoch": 0.17337797484390552,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 0.8699,
+      "step": 9580
+    },
+    {
+      "epoch": 0.17373993303773413,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 0.3308,
+      "step": 9600
+    },
+    {
+      "epoch": 0.17410189123156275,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 0.5138,
+      "step": 9620
+    },
+    {
+      "epoch": 0.17446384942539137,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 2.5083,
+      "step": 9640
+    },
+    {
+      "epoch": 0.17482580761921998,
+      "grad_norm": NaN,
+      "learning_rate": 0.00033085600530856005,
+      "loss": 2.8029,
+      "step": 9660
+    },
+    {
+      "epoch": 0.1751877658130486,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309102974000121,
+      "loss": 2.2681,
+      "step": 9680
+    },
+    {
+      "epoch": 0.1755497240068772,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309102974000121,
+      "loss": 0.0,
+      "step": 9700
+    },
+    {
+      "epoch": 0.17591168220070583,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309102974000121,
+      "loss": 0.7887,
+      "step": 9720
+    },
+    {
+      "epoch": 0.17627364039453444,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309102974000121,
+      "loss": 3.1913,
+      "step": 9740
+    },
+    {
+      "epoch": 0.17663559858836306,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309102974000121,
+      "loss": 0.0,
+      "step": 9760
+    },
+    {
+      "epoch": 0.17699755678219165,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309102974000121,
+      "loss": 0.4424,
+      "step": 9780
+    },
+    {
+      "epoch": 0.17735951497602026,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309102974000121,
+      "loss": 2.4798,
+      "step": 9800
+    },
+    {
+      "epoch": 0.17772147316984888,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309645894914641,
+      "loss": 2.4174,
+      "step": 9820
+    },
+    {
+      "epoch": 0.1780834313636775,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309645894914641,
+      "loss": 1.3177,
+      "step": 9840
+    },
+    {
+      "epoch": 0.1784453895575061,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309645894914641,
+      "loss": 3.8794,
+      "step": 9860
+    },
+    {
+      "epoch": 0.17880734775133472,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309645894914641,
+      "loss": 1.0543,
+      "step": 9880
+    },
+    {
+      "epoch": 0.17916930594516334,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309645894914641,
+      "loss": 1.4625,
+      "step": 9900
+    },
+    {
+      "epoch": 0.17953126413899195,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309645894914641,
+      "loss": 3.5846,
+      "step": 9920
+    },
+    {
+      "epoch": 0.17989322233282057,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309645894914641,
+      "loss": 1.6589,
+      "step": 9940
+    },
+    {
+      "epoch": 0.18025518052664918,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309645894914641,
+      "loss": 3.6713,
+      "step": 9960
+    },
+    {
+      "epoch": 0.18061713872047777,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309645894914641,
+      "loss": 0.0,
+      "step": 9980
+    },
+    {
+      "epoch": 0.1809790969143064,
+      "grad_norm": NaN,
+      "learning_rate": 0.0003309645894914641,
+      "loss": 0.404,
+      "step": 10000
+    },
+    {
+      "epoch": 0.1809790969143064,
+      "eval_accuracy": 4.7270488930998444e-05,
+      "eval_loss": NaN,
+      "eval_runtime": 168.7884,
+      "eval_samples_per_second": 3601.195,
+      "eval_steps_per_second": 3.519,
+      "step": 10000
     }
   ],
   "logging_steps": 20,
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
+        "should_save": true,
         "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.438362107904e+16,
   "train_batch_size": 512,
   "trial_name": null,
   "trial_params": null