Training in progress, step 960000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:555f1620da14174bf24cf8a2c50966c673718f13caf9ff9216cb282d58986be2
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:04f217d4f2435c53b27b3ffb23b807fa09f40f06e34bfe7a070589d6890dd66f
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92c3d51ab918ac4532e1d6eeab8c0b6a6ea719ff69a5dc804d4995968ab632fc
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b5376abe825ff6d04d360831bbfd37e2e2d959d6e490763218e7e38b5c10ca1
 size 449471589

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f56e4ab7d580b4bb483b5af1e3c9da40dee5bbb1c90ae3bbc38d37f787d0e30
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b07a1641f2eb1fc754b2daa11b1bd54bb7066b815cea15a3f40a26c5bed3d59
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f56e4ab7d580b4bb483b5af1e3c9da40dee5bbb1c90ae3bbc38d37f787d0e30
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b07a1641f2eb1fc754b2daa11b1bd54bb7066b815cea15a3f40a26c5bed3d59
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f56e4ab7d580b4bb483b5af1e3c9da40dee5bbb1c90ae3bbc38d37f787d0e30
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b07a1641f2eb1fc754b2daa11b1bd54bb7066b815cea15a3f40a26c5bed3d59
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f56e4ab7d580b4bb483b5af1e3c9da40dee5bbb1c90ae3bbc38d37f787d0e30
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b07a1641f2eb1fc754b2daa11b1bd54bb7066b815cea15a3f40a26c5bed3d59
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f56e4ab7d580b4bb483b5af1e3c9da40dee5bbb1c90ae3bbc38d37f787d0e30
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b07a1641f2eb1fc754b2daa11b1bd54bb7066b815cea15a3f40a26c5bed3d59
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f56e4ab7d580b4bb483b5af1e3c9da40dee5bbb1c90ae3bbc38d37f787d0e30
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b07a1641f2eb1fc754b2daa11b1bd54bb7066b815cea15a3f40a26c5bed3d59
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f56e4ab7d580b4bb483b5af1e3c9da40dee5bbb1c90ae3bbc38d37f787d0e30
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b07a1641f2eb1fc754b2daa11b1bd54bb7066b815cea15a3f40a26c5bed3d59
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f56e4ab7d580b4bb483b5af1e3c9da40dee5bbb1c90ae3bbc38d37f787d0e30
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b07a1641f2eb1fc754b2daa11b1bd54bb7066b815cea15a3f40a26c5bed3d59
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76d771b6aa86b6db5c1d3a18a5ba01d5f7ff8a339c98c29586734738700dc44c
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:351338e637aa543d98ac6400f2e05e86270a6a5900e20a3e790dbfa3cb26dbef
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.238091520471098,
-  "global_step": 950000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -19006,11 +19006,211 @@
       "eval_samples_per_second": 878.965,
       "eval_steps_per_second": 13.776,
       "step": 950000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
-  "total_flos": 6.6594700334078225e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.349620244694021,
+  "global_step": 960000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 878.965,
       "eval_steps_per_second": 13.776,
       "step": 950000
+    },
+    {
+      "epoch": 10.24,
+      "learning_rate": 1.0935752500982175e-05,
+      "loss": 0.1805,
+      "step": 950500
+    },
+    {
+      "epoch": 10.25,
+      "learning_rate": 1.091698505917036e-05,
+      "loss": 0.1804,
+      "step": 951000
+    },
+    {
+      "epoch": 10.25,
+      "eval_loss": 0.1698637306690216,
+      "eval_runtime": 2.5965,
+      "eval_samples_per_second": 884.656,
+      "eval_steps_per_second": 13.865,
+      "step": 951000
+    },
+    {
+      "epoch": 10.25,
+      "learning_rate": 1.0898406487683472e-05,
+      "loss": 0.1805,
+      "step": 951500
+    },
+    {
+      "epoch": 10.26,
+      "learning_rate": 1.0880016837314599e-05,
+      "loss": 0.1803,
+      "step": 952000
+    },
+    {
+      "epoch": 10.26,
+      "eval_loss": 0.17085076868534088,
+      "eval_runtime": 2.596,
+      "eval_samples_per_second": 884.806,
+      "eval_steps_per_second": 13.867,
+      "step": 952000
+    },
+    {
+      "epoch": 10.27,
+      "learning_rate": 1.0861816158340365e-05,
+      "loss": 0.1807,
+      "step": 952500
+    },
+    {
+      "epoch": 10.27,
+      "learning_rate": 1.084380450052071e-05,
+      "loss": 0.1803,
+      "step": 953000
+    },
+    {
+      "epoch": 10.27,
+      "eval_loss": 0.17190536856651306,
+      "eval_runtime": 2.595,
+      "eval_samples_per_second": 885.153,
+      "eval_steps_per_second": 13.873,
+      "step": 953000
+    },
+    {
+      "epoch": 10.28,
+      "learning_rate": 1.0825981913098828e-05,
+      "loss": 0.1799,
+      "step": 953500
+    },
+    {
+      "epoch": 10.28,
+      "learning_rate": 1.0808348444801e-05,
+      "loss": 0.1802,
+      "step": 954000
+    },
+    {
+      "epoch": 10.28,
+      "eval_loss": 0.16949187219142914,
+      "eval_runtime": 2.6166,
+      "eval_samples_per_second": 877.869,
+      "eval_steps_per_second": 13.758,
+      "step": 954000
+    },
+    {
+      "epoch": 10.29,
+      "learning_rate": 1.0790904143836438e-05,
+      "loss": 0.1804,
+      "step": 954500
+    },
+    {
+      "epoch": 10.29,
+      "learning_rate": 1.0773649057897206e-05,
+      "loss": 0.1802,
+      "step": 955000
+    },
+    {
+      "epoch": 10.29,
+      "eval_loss": 0.16995471715927124,
+      "eval_runtime": 2.6165,
+      "eval_samples_per_second": 877.886,
+      "eval_steps_per_second": 13.759,
+      "step": 955000
+    },
+    {
+      "epoch": 10.3,
+      "learning_rate": 1.0756583234158057e-05,
+      "loss": 0.1799,
+      "step": 955500
+    },
+    {
+      "epoch": 10.31,
+      "learning_rate": 1.073970671927628e-05,
+      "loss": 0.1802,
+      "step": 956000
+    },
+    {
+      "epoch": 10.31,
+      "eval_loss": 0.17191793024539948,
+      "eval_runtime": 2.6164,
+      "eval_samples_per_second": 877.931,
+      "eval_steps_per_second": 13.759,
+      "step": 956000
+    },
+    {
+      "epoch": 10.31,
+      "learning_rate": 1.0723019559391643e-05,
+      "loss": 0.1804,
+      "step": 956500
+    },
+    {
+      "epoch": 10.32,
+      "learning_rate": 1.0706521800126198e-05,
+      "loss": 0.18,
+      "step": 957000
+    },
+    {
+      "epoch": 10.32,
+      "eval_loss": 0.17065568268299103,
+      "eval_runtime": 2.6326,
+      "eval_samples_per_second": 872.521,
+      "eval_steps_per_second": 13.675,
+      "step": 957000
+    },
+    {
+      "epoch": 10.32,
+      "learning_rate": 1.0690213486584175e-05,
+      "loss": 0.18,
+      "step": 957500
+    },
+    {
+      "epoch": 10.33,
+      "learning_rate": 1.0674094663351906e-05,
+      "loss": 0.18,
+      "step": 958000
+    },
+    {
+      "epoch": 10.33,
+      "eval_loss": 0.1698225736618042,
+      "eval_runtime": 2.6744,
+      "eval_samples_per_second": 858.898,
+      "eval_steps_per_second": 13.461,
+      "step": 958000
+    },
+    {
+      "epoch": 10.33,
+      "learning_rate": 1.0658165374497611e-05,
+      "loss": 0.1804,
+      "step": 958500
+    },
+    {
+      "epoch": 10.34,
+      "learning_rate": 1.0642425663571383e-05,
+      "loss": 0.1802,
+      "step": 959000
+    },
+    {
+      "epoch": 10.34,
+      "eval_loss": 0.17188780009746552,
+      "eval_runtime": 2.6352,
+      "eval_samples_per_second": 871.663,
+      "eval_steps_per_second": 13.661,
+      "step": 959000
+    },
+    {
+      "epoch": 10.34,
+      "learning_rate": 1.062687557360497e-05,
+      "loss": 0.1802,
+      "step": 959500
+    },
+    {
+      "epoch": 10.35,
+      "learning_rate": 1.0611515147111736e-05,
+      "loss": 0.1802,
+      "step": 960000
+    },
+    {
+      "epoch": 10.35,
+      "eval_loss": 0.16846837103366852,
+      "eval_runtime": 2.7425,
+      "eval_samples_per_second": 837.549,
+      "eval_steps_per_second": 13.127,
+      "step": 960000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
+  "total_flos": 6.72957029443817e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92c3d51ab918ac4532e1d6eeab8c0b6a6ea719ff69a5dc804d4995968ab632fc
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b5376abe825ff6d04d360831bbfd37e2e2d959d6e490763218e7e38b5c10ca1
 size 449471589