Training in progress, step 110000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2756bd704606cd6c5c35ea5f45a21e975a94f7ac54bd0802ebe8750dfbd1eba8
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bb8f4ee9932432a287ea513e3af3b078520ad61de1f8f7e44c83962a189c305
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fc703713a0fad50a78f7cc73423f660e122486f1451ea9412d49c8df9646af6
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:692f0849f73d31d0d7ef6f2f2af3ccd645c1956f15cf41f9debc0106e2cea5be
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b2eacfeedd0bf9408bd36cab2e1c6eae31897175ab967af2fed6efe328f2b5f
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b2eacfeedd0bf9408bd36cab2e1c6eae31897175ab967af2fed6efe328f2b5f
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b2eacfeedd0bf9408bd36cab2e1c6eae31897175ab967af2fed6efe328f2b5f
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b2eacfeedd0bf9408bd36cab2e1c6eae31897175ab967af2fed6efe328f2b5f
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b2eacfeedd0bf9408bd36cab2e1c6eae31897175ab967af2fed6efe328f2b5f
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b2eacfeedd0bf9408bd36cab2e1c6eae31897175ab967af2fed6efe328f2b5f
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b2eacfeedd0bf9408bd36cab2e1c6eae31897175ab967af2fed6efe328f2b5f
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b2eacfeedd0bf9408bd36cab2e1c6eae31897175ab967af2fed6efe328f2b5f
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d85ea74361bfabc4dca40ed2a4dec24f25124d91f625a1176acad7044d70175
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe4bb2f202e1c5bfac6f58d7d7aff54991c6919cce0ee2976f31297f1718992f
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.461099214846538,
-  "global_step": 100000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2006,11 +2006,211 @@
       "eval_samples_per_second": 1041.22,
       "eval_steps_per_second": 16.319,
       "step": 100000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
-  "total_flos": 1.6016515007293466e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.907209136331192,
+  "global_step": 110000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1041.22,
       "eval_steps_per_second": 16.319,
       "step": 100000
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 0.00042171081131341917,
+      "loss": 0.3996,
+      "step": 100500
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 0.00041991636704523497,
+      "loss": 0.3995,
+      "step": 101000
+    },
+    {
+      "epoch": 4.51,
+      "eval_loss": 0.37412840127944946,
+      "eval_runtime": 2.2118,
+      "eval_samples_per_second": 1038.514,
+      "eval_steps_per_second": 16.276,
+      "step": 101000
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 0.00041811689596287893,
+      "loss": 0.3989,
+      "step": 101500
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 0.0004163124767810454,
+      "loss": 0.3985,
+      "step": 102000
+    },
+    {
+      "epoch": 4.55,
+      "eval_loss": 0.37019699811935425,
+      "eval_runtime": 2.207,
+      "eval_samples_per_second": 1040.78,
+      "eval_steps_per_second": 16.312,
+      "step": 102000
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 0.00041450318843087506,
+      "loss": 0.3983,
+      "step": 102500
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 0.00041268911005650166,
+      "loss": 0.3981,
+      "step": 103000
+    },
+    {
+      "epoch": 4.59,
+      "eval_loss": 0.3799527883529663,
+      "eval_runtime": 2.7041,
+      "eval_samples_per_second": 849.448,
+      "eval_steps_per_second": 13.313,
+      "step": 103000
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 0.00041087032101159006,
+      "loss": 0.3978,
+      "step": 103500
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 0.00040904690085586515,
+      "loss": 0.3986,
+      "step": 104000
+    },
+    {
+      "epoch": 4.64,
+      "eval_loss": 0.3734039068222046,
+      "eval_runtime": 2.2569,
+      "eval_samples_per_second": 1017.749,
+      "eval_steps_per_second": 15.951,
+      "step": 104000
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 0.0004072189293516316,
+      "loss": 0.3969,
+      "step": 104500
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 0.0004053864864602847,
+      "loss": 0.3966,
+      "step": 105000
+    },
+    {
+      "epoch": 4.68,
+      "eval_loss": 0.37050846219062805,
+      "eval_runtime": 2.2224,
+      "eval_samples_per_second": 1033.581,
+      "eval_steps_per_second": 16.199,
+      "step": 105000
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 0.00040354965233881297,
+      "loss": 0.3961,
+      "step": 105500
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 0.0004017085073362913,
+      "loss": 0.3957,
+      "step": 106000
+    },
+    {
+      "epoch": 4.73,
+      "eval_loss": 0.36802881956100464,
+      "eval_runtime": 2.2556,
+      "eval_samples_per_second": 1018.364,
+      "eval_steps_per_second": 15.96,
+      "step": 106000
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 0.00039986313199036664,
+      "loss": 0.3956,
+      "step": 106500
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 0.00039801360702373484,
+      "loss": 0.3957,
+      "step": 107000
+    },
+    {
+      "epoch": 4.77,
+      "eval_loss": 0.3662741482257843,
+      "eval_runtime": 2.5144,
+      "eval_samples_per_second": 913.525,
+      "eval_steps_per_second": 14.317,
+      "step": 107000
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 0.00039616001334060954,
+      "loss": 0.3951,
+      "step": 107500
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 0.00039430243202318314,
+      "loss": 0.3948,
+      "step": 108000
+    },
+    {
+      "epoch": 4.82,
+      "eval_loss": 0.36831599473953247,
+      "eval_runtime": 2.2146,
+      "eval_samples_per_second": 1037.206,
+      "eval_steps_per_second": 16.256,
+      "step": 108000
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 0.00039244094432808034,
+      "loss": 0.3945,
+      "step": 108500
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 0.0003905756316828033,
+      "loss": 0.3943,
+      "step": 109000
+    },
+    {
+      "epoch": 4.86,
+      "eval_loss": 0.36974549293518066,
+      "eval_runtime": 2.1759,
+      "eval_samples_per_second": 1055.667,
+      "eval_steps_per_second": 16.545,
+      "step": 109000
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 0.00038870657568216963,
+      "loss": 0.3939,
+      "step": 109500
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 0.00038683385808474416,
+      "loss": 0.3936,
+      "step": 110000
+    },
+    {
+      "epoch": 4.91,
+      "eval_loss": 0.3671797811985016,
+      "eval_runtime": 2.2064,
+      "eval_samples_per_second": 1041.083,
+      "eval_steps_per_second": 16.316,
+      "step": 110000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
+  "total_flos": 1.7618195035951506e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fc703713a0fad50a78f7cc73423f660e122486f1451ea9412d49c8df9646af6
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:692f0849f73d31d0d7ef6f2f2af3ccd645c1956f15cf41f9debc0106e2cea5be
 size 25761253