Training in progress, step 340000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a22ef790a0c2f4f62e66619584ea27ceb6ef6b7c3985ca2d9f4be0901d33fb7e
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bc8c307e09c2ee7140e86493006e9375ce3828ae419bfd73dd8e77040dc9432
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91c8cb7bfe62bed4ad754b48993f10b7da9c98b6075ef529d78d9d2d0a013fff
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:db82336fde2ca798cca2552947b8f10e1dae6da490a1f40a713b479f4e821a2d
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d377ee122e46b8fa76b1d2b74be365b9135d1e8e6cede7fa0fe3ff751bb7334
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c78bed16f0847936846c879bca5d8a536a9a3a59d08245d05fbfcc52edb347e
+size 14439

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a10a546cee3b4518e4cb32764590234884d4cbc2be79dd9856924e21cdd3fd8
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c8b7b2390f7d5ddc6390197696d6aa0925d05d2ef38d7290149a060e461ae44
+size 14439

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a33a6a869db9bf49441e17af5679e56376e6e829633250eded5937f47c2020aa
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9313e219a1869a99c69734744312a0517c71c6052de358efa7a1080ce122046c
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03c277499f6406d581d5a424d585bc71aa0cb5fc2c33d575b72b1f53a009a2c5
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:416722c1edd0afe1ceb2e8573cb1ac6a96bfc6996efd996f3b5e077d838af66f
+size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b59b474b08b06647b657ae7d97ae9d06a436e1b6da58f15374f2b25278144cf8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d09f85aaae937e7534df6bd43ac24aa3578e31af78965f5ed61081b83c1046da
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d0b7236bb0eefa8365b0f6eccaff3b57014a0d4fca20545eaa932daadd82f47
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d4e2a6a930e95dd4bd770a07c72d2fac11a8c63fc0f19ad213c91a2d9c6320b
+size 14439

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ec7b72e871e355904aa3d42031ed74fefb8d0ce9e7a1a82df41ead92a13bbee
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c68c66e599d0d64dd47fb2d9ad7cf41ba596f6439d733b5b753368eb3156e13
+size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a490aaf46199ae217198d1b46bb5a0022da5901da5b5a0d9b96059f1a94a188
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c12b1e861045ff9922be9ad05050d7efb0f92e7378cdd8573f5012b3fb1b1b30
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:636cb28fce30ad56f68aface20193360fd815697da4c2ec39f5ca647b5e6b45b
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a0f100ea6da4a9ff03fc2cc9b0cbbba13b42ccc41293a1d6143e5a081a97f70
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.110603878795306,
-  "global_step": 330000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6606,11 +6606,211 @@
       "eval_samples_per_second": 1925.383,
       "eval_steps_per_second": 30.806,
       "step": 330000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.0542995700038742e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.416985814516377,
+  "global_step": 340000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1925.383,
       "eval_steps_per_second": 30.806,
       "step": 330000
+    },
+    {
+      "epoch": 10.13,
+      "learning_rate": 9.196345158526793e-05,
+      "loss": 0.3267,
+      "step": 330500
+    },
+    {
+      "epoch": 10.14,
+      "learning_rate": 9.153197361721149e-05,
+      "loss": 0.3258,
+      "step": 331000
+    },
+    {
+      "epoch": 10.14,
+      "eval_loss": 0.7773971557617188,
+      "eval_runtime": 0.5057,
+      "eval_samples_per_second": 1977.448,
+      "eval_steps_per_second": 31.639,
+      "step": 331000
+    },
+    {
+      "epoch": 10.16,
+      "learning_rate": 9.110118972532302e-05,
+      "loss": 0.3259,
+      "step": 331500
+    },
+    {
+      "epoch": 10.17,
+      "learning_rate": 9.067110462058634e-05,
+      "loss": 0.3261,
+      "step": 332000
+    },
+    {
+      "epoch": 10.17,
+      "eval_loss": 0.7772080302238464,
+      "eval_runtime": 0.512,
+      "eval_samples_per_second": 1953.287,
+      "eval_steps_per_second": 31.253,
+      "step": 332000
+    },
+    {
+      "epoch": 10.19,
+      "learning_rate": 9.024172300634305e-05,
+      "loss": 0.3258,
+      "step": 332500
+    },
+    {
+      "epoch": 10.2,
+      "learning_rate": 8.981304957824182e-05,
+      "loss": 0.3257,
+      "step": 333000
+    },
+    {
+      "epoch": 10.2,
+      "eval_loss": 0.7775481939315796,
+      "eval_runtime": 0.4889,
+      "eval_samples_per_second": 2045.391,
+      "eval_steps_per_second": 32.726,
+      "step": 333000
+    },
+    {
+      "epoch": 10.22,
+      "learning_rate": 8.938508902418643e-05,
+      "loss": 0.326,
+      "step": 333500
+    },
+    {
+      "epoch": 10.23,
+      "learning_rate": 8.89578460242851e-05,
+      "loss": 0.3277,
+      "step": 334000
+    },
+    {
+      "epoch": 10.23,
+      "eval_loss": 0.7818301916122437,
+      "eval_runtime": 0.5001,
+      "eval_samples_per_second": 1999.531,
+      "eval_steps_per_second": 31.992,
+      "step": 334000
+    },
+    {
+      "epoch": 10.25,
+      "learning_rate": 8.85313252507988e-05,
+      "loss": 0.3257,
+      "step": 334500
+    },
+    {
+      "epoch": 10.26,
+      "learning_rate": 8.810553136809027e-05,
+      "loss": 0.3258,
+      "step": 335000
+    },
+    {
+      "epoch": 10.26,
+      "eval_loss": 0.7805637121200562,
+      "eval_runtime": 0.5114,
+      "eval_samples_per_second": 1955.493,
+      "eval_steps_per_second": 31.288,
+      "step": 335000
+    },
+    {
+      "epoch": 10.28,
+      "learning_rate": 8.76804690325733e-05,
+      "loss": 0.3257,
+      "step": 335500
+    },
+    {
+      "epoch": 10.29,
+      "learning_rate": 8.725614289266137e-05,
+      "loss": 0.3257,
+      "step": 336000
+    },
+    {
+      "epoch": 10.29,
+      "eval_loss": 0.7819052934646606,
+      "eval_runtime": 0.5066,
+      "eval_samples_per_second": 1974.06,
+      "eval_steps_per_second": 31.585,
+      "step": 336000
+    },
+    {
+      "epoch": 10.31,
+      "learning_rate": 8.683255758871734e-05,
+      "loss": 0.3258,
+      "step": 336500
+    },
+    {
+      "epoch": 10.33,
+      "learning_rate": 8.640971775300207e-05,
+      "loss": 0.3259,
+      "step": 337000
+    },
+    {
+      "epoch": 10.33,
+      "eval_loss": 0.7828894257545471,
+      "eval_runtime": 0.4948,
+      "eval_samples_per_second": 2020.994,
+      "eval_steps_per_second": 32.336,
+      "step": 337000
+    },
+    {
+      "epoch": 10.34,
+      "learning_rate": 8.598762800962431e-05,
+      "loss": 0.325,
+      "step": 337500
+    },
+    {
+      "epoch": 10.36,
+      "learning_rate": 8.55662929744899e-05,
+      "loss": 0.3253,
+      "step": 338000
+    },
+    {
+      "epoch": 10.36,
+      "eval_loss": 0.7842022776603699,
+      "eval_runtime": 0.5086,
+      "eval_samples_per_second": 1966.304,
+      "eval_steps_per_second": 31.461,
+      "step": 338000
+    },
+    {
+      "epoch": 10.37,
+      "learning_rate": 8.514571725525124e-05,
+      "loss": 0.325,
+      "step": 338500
+    },
+    {
+      "epoch": 10.39,
+      "learning_rate": 8.47259054512571e-05,
+      "loss": 0.3252,
+      "step": 339000
+    },
+    {
+      "epoch": 10.39,
+      "eval_loss": 0.7787997722625732,
+      "eval_runtime": 0.5114,
+      "eval_samples_per_second": 1955.232,
+      "eval_steps_per_second": 31.284,
+      "step": 339000
+    },
+    {
+      "epoch": 10.4,
+      "learning_rate": 8.430686215350198e-05,
+      "loss": 0.3253,
+      "step": 339500
+    },
+    {
+      "epoch": 10.42,
+      "learning_rate": 8.388859194457636e-05,
+      "loss": 0.3252,
+      "step": 340000
+    },
+    {
+      "epoch": 10.42,
+      "eval_loss": 0.7811650633811951,
+      "eval_runtime": 0.5039,
+      "eval_samples_per_second": 1984.543,
+      "eval_steps_per_second": 31.753,
+      "step": 340000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.0862482838813242e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91c8cb7bfe62bed4ad754b48993f10b7da9c98b6075ef529d78d9d2d0a013fff
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:db82336fde2ca798cca2552947b8f10e1dae6da490a1f40a713b479f4e821a2d
 size 102501541