Training in progress, step 40000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6126f0ff62ccd2a1bb01472f31242c870de9e3dc53a06aa105077fae41608b79
 size 893438545

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecf293809682bf3798688c407d42afa788d77c5557da4033ee0baeac06cf1302
 size 893438545

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b399c38e921c215c625dfa7144f627f6549650ed1df7e1ef7deb2d863ca674a9
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d5f11aab6f911cbec235d15a3494a5c1ad6a9959fd4ddb8c6370040ccb52d96
 size 449471589

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0eff7bfd19bb5de4a804b312a4895c5e9ec017a31baa7a463d8d86ec7115b34c
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:06b5c694b40cd5a966b5116288c30b2f19979f1058d82965ee57335ae5f1e596
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.33458617266877083,
-  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -606,11 +606,211 @@
       "eval_samples_per_second": 951.902,
       "eval_steps_per_second": 14.919,
       "step": 30000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
-  "total_flos": 2.1030078309104144e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4461148968916945,
+  "global_step": 40000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 951.902,
       "eval_steps_per_second": 14.919,
       "step": 30000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 9.149999999999999e-05,
+      "loss": 0.4509,
+      "step": 30500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 9.3e-05,
+      "loss": 0.4477,
+      "step": 31000
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 0.4341259002685547,
+      "eval_runtime": 2.3655,
+      "eval_samples_per_second": 971.032,
+      "eval_steps_per_second": 15.219,
+      "step": 31000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 9.449999999999999e-05,
+      "loss": 0.4443,
+      "step": 31500
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 9.599999999999999e-05,
+      "loss": 0.4413,
+      "step": 32000
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 0.42718443274497986,
+      "eval_runtime": 2.4008,
+      "eval_samples_per_second": 956.762,
+      "eval_steps_per_second": 14.995,
+      "step": 32000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 9.75e-05,
+      "loss": 0.4376,
+      "step": 32500
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 9.9e-05,
+      "loss": 0.4341,
+      "step": 33000
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.41980886459350586,
+      "eval_runtime": 2.3982,
+      "eval_samples_per_second": 957.813,
+      "eval_steps_per_second": 15.011,
+      "step": 33000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001005,
+      "loss": 0.4312,
+      "step": 33500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.000102,
+      "loss": 0.4289,
+      "step": 34000
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.4122560918331146,
+      "eval_runtime": 2.425,
+      "eval_samples_per_second": 947.221,
+      "eval_steps_per_second": 14.845,
+      "step": 34000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00010349999999999998,
+      "loss": 0.4257,
+      "step": 34500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00010499999999999999,
+      "loss": 0.4224,
+      "step": 35000
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.40835943818092346,
+      "eval_runtime": 2.4071,
+      "eval_samples_per_second": 954.265,
+      "eval_steps_per_second": 14.956,
+      "step": 35000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00010649999999999999,
+      "loss": 0.4202,
+      "step": 35500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00010799999999999998,
+      "loss": 0.4173,
+      "step": 36000
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.40327221155166626,
+      "eval_runtime": 2.3753,
+      "eval_samples_per_second": 967.051,
+      "eval_steps_per_second": 15.156,
+      "step": 36000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00010949999999999999,
+      "loss": 0.4142,
+      "step": 36500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00011099999999999999,
+      "loss": 0.412,
+      "step": 37000
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.39642444252967834,
+      "eval_runtime": 2.4394,
+      "eval_samples_per_second": 941.616,
+      "eval_steps_per_second": 14.758,
+      "step": 37000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001125,
+      "loss": 0.4098,
+      "step": 37500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00011399999999999999,
+      "loss": 0.407,
+      "step": 38000
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.39146095514297485,
+      "eval_runtime": 2.3792,
+      "eval_samples_per_second": 965.449,
+      "eval_steps_per_second": 15.131,
+      "step": 38000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00011549999999999999,
+      "loss": 0.4033,
+      "step": 38500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.000117,
+      "loss": 0.402,
+      "step": 39000
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.3854062259197235,
+      "eval_runtime": 2.4437,
+      "eval_samples_per_second": 939.967,
+      "eval_steps_per_second": 14.732,
+      "step": 39000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001185,
+      "loss": 0.3991,
+      "step": 39500
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00011999999999999999,
+      "loss": 0.3966,
+      "step": 40000
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.3808075189590454,
+      "eval_runtime": 2.4355,
+      "eval_samples_per_second": 943.135,
+      "eval_steps_per_second": 14.781,
+      "step": 40000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
+  "total_flos": 2.804010441213886e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b399c38e921c215c625dfa7144f627f6549650ed1df7e1ef7deb2d863ca674a9
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d5f11aab6f911cbec235d15a3494a5c1ad6a9959fd4ddb8c6370040ccb52d96
 size 449471589