Training in progress, step 80000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c390c19518ce2505f6a86ec1e2f47d0d41f2396b4d8d3b3070b634f49cd1065d
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:a30131a362734b1f942b271b7aca1732aab5c321492d56bcb252385a39f1b68d
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fec60f3309de39871877c86c47238ea77b026c2a586d001d07ccd4e052fc5ce
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcbde3d756560955fbfc66085573e8eef27e478ece9f50dd82562f9061c96fc6
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:456f6e75773c2103858da7be2712eb3dc4e020101d1bbc59dc5323b907e2cfa7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:456f6e75773c2103858da7be2712eb3dc4e020101d1bbc59dc5323b907e2cfa7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:456f6e75773c2103858da7be2712eb3dc4e020101d1bbc59dc5323b907e2cfa7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:456f6e75773c2103858da7be2712eb3dc4e020101d1bbc59dc5323b907e2cfa7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:456f6e75773c2103858da7be2712eb3dc4e020101d1bbc59dc5323b907e2cfa7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:456f6e75773c2103858da7be2712eb3dc4e020101d1bbc59dc5323b907e2cfa7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:456f6e75773c2103858da7be2712eb3dc4e020101d1bbc59dc5323b907e2cfa7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:456f6e75773c2103858da7be2712eb3dc4e020101d1bbc59dc5323b907e2cfa7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d89de13f8c844c8306762a31aff6dac5ffaadd95c6501762d83dc7939ed9eace
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a3f000e1c939912bb1fea4c3fda9ca6e80fe563342ccf4a59cb3d0b46d78187
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.122769450392577,
-  "global_step": 70000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1406,11 +1406,211 @@
       "eval_samples_per_second": 1067.405,
       "eval_steps_per_second": 16.729,
       "step": 70000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
-  "total_flos": 1.1211546241141079e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.5688793718772307,
+  "global_step": 80000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1067.405,
       "eval_steps_per_second": 16.729,
       "step": 70000
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 0.0005173557775693715,
+      "loss": 0.4528,
+      "step": 70500
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 0.0005159968305957235,
+      "loss": 0.4507,
+      "step": 71000
+    },
+    {
+      "epoch": 3.17,
+      "eval_loss": 0.42597973346710205,
+      "eval_runtime": 2.1768,
+      "eval_samples_per_second": 1055.242,
+      "eval_steps_per_second": 16.538,
+      "step": 71000
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 0.0005146286539371703,
+      "loss": 0.4489,
+      "step": 71500
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 0.0005132513074421913,
+      "loss": 0.4468,
+      "step": 72000
+    },
+    {
+      "epoch": 3.21,
+      "eval_loss": 0.4192256033420563,
+      "eval_runtime": 2.2165,
+      "eval_samples_per_second": 1036.301,
+      "eval_steps_per_second": 16.242,
+      "step": 72000
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 0.0005118648513603841,
+      "loss": 0.445,
+      "step": 72500
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 0.0005104693463398293,
+      "loss": 0.4432,
+      "step": 73000
+    },
+    {
+      "epoch": 3.26,
+      "eval_loss": 0.4161074459552765,
+      "eval_runtime": 2.2735,
+      "eval_samples_per_second": 1010.341,
+      "eval_steps_per_second": 15.835,
+      "step": 73000
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 0.0005090648534244371,
+      "loss": 0.4415,
+      "step": 73500
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 0.0005076514340512776,
+      "loss": 0.44,
+      "step": 74000
+    },
+    {
+      "epoch": 3.3,
+      "eval_loss": 0.41528481245040894,
+      "eval_runtime": 2.1341,
+      "eval_samples_per_second": 1076.31,
+      "eval_steps_per_second": 16.869,
+      "step": 74000
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 0.0005062291500478931,
+      "loss": 0.4386,
+      "step": 74500
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 0.0005047980636295937,
+      "loss": 0.4367,
+      "step": 75000
+    },
+    {
+      "epoch": 3.35,
+      "eval_loss": 0.4101610779762268,
+      "eval_runtime": 2.2225,
+      "eval_samples_per_second": 1033.52,
+      "eval_steps_per_second": 16.198,
+      "step": 75000
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 0.0005033582373967348,
+      "loss": 0.4351,
+      "step": 75500
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 0.0005019097343319809,
+      "loss": 0.4337,
+      "step": 76000
+    },
+    {
+      "epoch": 3.39,
+      "eval_loss": 0.40619799494743347,
+      "eval_runtime": 2.1631,
+      "eval_samples_per_second": 1061.919,
+      "eval_steps_per_second": 16.643,
+      "step": 76000
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 0.0005004526177975481,
+      "loss": 0.4322,
+      "step": 76500
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 0.0004989869515324342,
+      "loss": 0.4311,
+      "step": 77000
+    },
+    {
+      "epoch": 3.44,
+      "eval_loss": 0.4019022583961487,
+      "eval_runtime": 2.2694,
+      "eval_samples_per_second": 1012.161,
+      "eval_steps_per_second": 15.863,
+      "step": 77000
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 0.0004975127996496297,
+      "loss": 0.4294,
+      "step": 77500
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 0.0004960302266333135,
+      "loss": 0.4286,
+      "step": 78000
+    },
+    {
+      "epoch": 3.48,
+      "eval_loss": 0.40067020058631897,
+      "eval_runtime": 2.31,
+      "eval_samples_per_second": 994.37,
+      "eval_steps_per_second": 15.584,
+      "step": 78000
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 0.0004945392973360323,
+      "loss": 0.427,
+      "step": 78500
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 0.0004930400769758634,
+      "loss": 0.4259,
+      "step": 79000
+    },
+    {
+      "epoch": 3.52,
+      "eval_loss": 0.3996644616127014,
+      "eval_runtime": 2.1788,
+      "eval_samples_per_second": 1054.255,
+      "eval_steps_per_second": 16.523,
+      "step": 79000
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 0.0004915326311335622,
+      "loss": 0.425,
+      "step": 79500
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 0.0004900170257496933,
+      "loss": 0.4239,
+      "step": 80000
+    },
+    {
+      "epoch": 3.57,
+      "eval_loss": 0.3968483507633209,
+      "eval_runtime": 2.2257,
+      "eval_samples_per_second": 1032.02,
+      "eval_steps_per_second": 16.174,
+      "step": 80000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
+  "total_flos": 1.281322626979912e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fec60f3309de39871877c86c47238ea77b026c2a586d001d07ccd4e052fc5ce
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcbde3d756560955fbfc66085573e8eef27e478ece9f50dd82562f9061c96fc6
 size 25761253