Training in progress, step 570000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:047de29e872fa886935b0856cae368679a5024ec78d3b02056971d0dafe03f46
 size 586828837

 version https://git-lfs.github.com/spec/v1
+oid sha256:fffdc57df6cba4aecc5d537199d05d28768deaf925b41240f122bcbc526d6c4d
 size 586828837

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2db06e17c94930e25ba4fa153fb1d09bc548975dd61b046eadd4ef82210ad5b
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc99a917e1b327405a8f3c276c96d3252b44e706de05260c86fdfb67a8ea2ba1
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6925d15f0ca8b085673c2a9c495fa03dd265589a6d0e5da63276f20be7165697
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9eb8cd28c207e550a8e102ab438e79bd35b1834dd9eb8b97b0c0f9aab456235f
 size 14503

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1866493c6437f9be9b061bda7fb54561f6f075e18eb8ff9def3d978f033c740
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8cfba3a731feb83ca65973baf77fc04cbf64fea750132892e69c52d95de7113
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f637d7b8ff1440e6b42939ee3d5db1515f248a64a9ccc57bfd7e929c8ce06320
 size 733555848

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2425d50b58bd1bce863056a07fbed7929c2c0bfeef559ef18326c302aae672a
 size 733555848

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.4064596251939134,
-  "global_step": 560000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -16806,11 +16806,311 @@
       "learning_rate": 0.006970335826120932,
       "loss": 8.046,
       "step": 560000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 5,
-  "total_flos": 8.925433954352456e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.4494321185009476,
+  "global_step": 570000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.006970335826120932,
       "loss": 8.046,
       "step": 560000
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.006966210216011318,
+      "loss": 8.0551,
+      "step": 560200
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.0069620830217777575,
+      "loss": 8.0548,
+      "step": 560400
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.006957954246745461,
+      "loss": 8.0485,
+      "step": 560600
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.006953823894240906,
+      "loss": 8.0603,
+      "step": 560800
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.0069496919675918435,
+      "loss": 8.051,
+      "step": 561000
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.006945558470127292,
+      "loss": 8.0569,
+      "step": 561200
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.006941423405177537,
+      "loss": 8.0389,
+      "step": 561400
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.0069372867760741225,
+      "loss": 8.0413,
+      "step": 561600
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.006933148586149858,
+      "loss": 8.0455,
+      "step": 561800
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.006929008838738809,
+      "loss": 8.0532,
+      "step": 562000
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.006924867537176294,
+      "loss": 8.0524,
+      "step": 562200
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.006920724684798886,
+      "loss": 8.0644,
+      "step": 562400
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.006916580284944404,
+      "loss": 8.0491,
+      "step": 562600
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.006912434340951918,
+      "loss": 8.0658,
+      "step": 562800
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.006908286856161741,
+      "loss": 8.0541,
+      "step": 563000
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.006904137833915425,
+      "loss": 8.0429,
+      "step": 563200
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.006900008034148137,
+      "loss": 8.047,
+      "step": 563400
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.006895855954664682,
+      "loss": 8.0523,
+      "step": 563600
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.006891702347740443,
+      "loss": 8.0611,
+      "step": 563800
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0068875472167219025,
+      "loss": 8.0624,
+      "step": 564000
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.006883390564956777,
+      "loss": 8.0618,
+      "step": 564200
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.006879232395794005,
+      "loss": 8.0637,
+      "step": 564400
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.006875072712583748,
+      "loss": 8.0495,
+      "step": 564600
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.00687091151867739,
+      "loss": 8.0603,
+      "step": 564800
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.006866748817427526,
+      "loss": 8.0579,
+      "step": 565000
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.006862584612187971,
+      "loss": 8.0629,
+      "step": 565200
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.006858439738570398,
+      "loss": 8.0601,
+      "step": 565400
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.006854293382593129,
+      "loss": 8.0478,
+      "step": 565600
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.00685012470044207,
+      "loss": 8.06,
+      "step": 565800
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.006845954527695071,
+      "loss": 8.0508,
+      "step": 566000
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.006841782867711967,
+      "loss": 8.0748,
+      "step": 566200
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.006837609723853784,
+      "loss": 8.0635,
+      "step": 566400
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0068334350994827524,
+      "loss": 8.0627,
+      "step": 566600
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.0068292589979622904,
+      "loss": 8.0511,
+      "step": 566800
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.006825081422657008,
+      "loss": 8.0495,
+      "step": 567000
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.0068209023769327005,
+      "loss": 8.0555,
+      "step": 567200
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.006816721864156354,
+      "loss": 8.0548,
+      "step": 567400
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.006812539887696127,
+      "loss": 8.0487,
+      "step": 567600
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.006808356450921365,
+      "loss": 8.0457,
+      "step": 567800
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.0068041715572025865,
+      "loss": 8.0417,
+      "step": 568000
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.006799985209911487,
+      "loss": 8.0564,
+      "step": 568200
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.0067957974124209265,
+      "loss": 8.0481,
+      "step": 568400
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.0067916081681049425,
+      "loss": 8.0318,
+      "step": 568600
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.00678741748033873,
+      "loss": 8.0717,
+      "step": 568800
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.006783225352498653,
+      "loss": 8.0506,
+      "step": 569000
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.0067790317879622315,
+      "loss": 8.0453,
+      "step": 569200
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.006774836790108145,
+      "loss": 8.0478,
+      "step": 569400
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.006770661348006565,
+      "loss": 8.0587,
+      "step": 569600
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.006766463500782177,
+      "loss": 8.0524,
+      "step": 569800
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.006762285230252838,
+      "loss": 8.0655,
+      "step": 570000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 5,
+  "total_flos": 9.084816952573256e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2db06e17c94930e25ba4fa153fb1d09bc548975dd61b046eadd4ef82210ad5b
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc99a917e1b327405a8f3c276c96d3252b44e706de05260c86fdfb67a8ea2ba1
 size 146774203