Training in progress, step 5000

Browse files

Files changed (9) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +92 -33
last-checkpoint/training_args.bin +1 -1
pytorch_model.bin +1 -1
training_args.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07f4c191169bdefbf903ed26706aa4d7421568132260ed3c336a7bb1e9b346b7
 size 893438545

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4d1ae83eac6be8f8c2b954c370c8aeadc7267bda680236a7a24a7649af5362c
 size 893438545

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ec70d2781e97f4d329ba4c23b171ff2d9e095d57e1d6f397b53ab37773b559f
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0baba8b4569c45a203ea379a2bd3967765a89b7b77984726e0ce3ce542327d3
 size 449471589

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89bfe126fed4c4ad4dd5e48270f02e29322c35de34e86277f87fea6ea6285c49
 size 15523

 version https://git-lfs.github.com/spec/v1
+oid sha256:b67640377e5e9bee3b80f7da077f845affe0a102a4d4e09d30cfa4a924a22956
 size 15523

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fa4c7be44c959599b8b43bb9bc3371e9e4e5bbc5758b3ab5afcccfda3e72e67
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:dba64a6270ae61fb92642c233ac6acc0599e93af9e8dc843c1040d701d07852c
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a01f1f0436989f1373566c8148c19011dd0ac4c035b4f3ba4538506b2eac4732
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:f84d441103b80fa19700bab6a191373aa187c4bff502da3579fb8fa36762b6ca
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,57 +1,116 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.00810142990237777,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "eval_runtime": 4.2859,
-      "eval_samples_per_second": 11.666,
-      "eval_steps_per_second": 0.467,
-      "step": 100
     },
     {
-      "epoch": 0.0,
-      "eval_runtime": 6.7254,
-      "eval_samples_per_second": 7.435,
-      "eval_steps_per_second": 0.297,
-      "step": 200
     },
     {
-      "epoch": 0.0,
-      "eval_runtime": 4.4562,
-      "eval_samples_per_second": 11.22,
-      "eval_steps_per_second": 0.449,
-      "step": 300
     },
     {
-      "epoch": 0.01,
-      "eval_runtime": 4.3116,
-      "eval_samples_per_second": 11.597,
-      "eval_steps_per_second": 0.464,
-      "step": 400
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 1e-05,
-      "loss": 0.535,
-      "step": 500
     },
     {
-      "epoch": 0.01,
-      "eval_runtime": 4.3937,
-      "eval_samples_per_second": 11.38,
-      "eval_steps_per_second": 0.455,
-      "step": 500
     }
   ],
   "max_steps": 1000000,
-  "num_train_epochs": 17,
-  "total_flos": 4.38126636957696e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4253147329023477,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.04,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.5192,
+      "step": 500
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4978,
+      "step": 1000
     },
     {
+      "epoch": 0.09,
+      "eval_loss": 0.4652232229709625,
+      "eval_runtime": 21.3928,
+      "eval_samples_per_second": 23.372,
+      "eval_steps_per_second": 0.748,
+      "step": 1000
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4877,
+      "step": 1500
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4811,
+      "step": 2000
     },
     {
+      "epoch": 0.17,
+      "eval_loss": 0.4523410201072693,
+      "eval_runtime": 15.3182,
+      "eval_samples_per_second": 32.641,
+      "eval_steps_per_second": 1.045,
+      "step": 2000
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4747,
+      "step": 2500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4714,
+      "step": 3000
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 0.44367074966430664,
+      "eval_runtime": 16.026,
+      "eval_samples_per_second": 31.199,
+      "eval_steps_per_second": 0.998,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4671,
+      "step": 3500
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4648,
+      "step": 4000
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 0.4375583827495575,
+      "eval_runtime": 16.9713,
+      "eval_samples_per_second": 29.461,
+      "eval_steps_per_second": 0.943,
+      "step": 4000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4628,
+      "step": 4500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4611,
+      "step": 5000
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.4329264163970947,
+      "eval_runtime": 20.3173,
+      "eval_samples_per_second": 24.61,
+      "eval_steps_per_second": 0.788,
+      "step": 5000
     }
   ],
   "max_steps": 1000000,
+  "num_train_epochs": 86,
+  "total_flos": 2.300164844027904e+20,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6270bc289a88f0f959604cd35e12f62592ad82a5a0194af541981581f153ae0
 size 5551

 version https://git-lfs.github.com/spec/v1
+oid sha256:06d7793bf7f922dc898c4ecfc820797566f809efb7c64280000f142e6ced9387
 size 5551

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ec70d2781e97f4d329ba4c23b171ff2d9e095d57e1d6f397b53ab37773b559f
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0baba8b4569c45a203ea379a2bd3967765a89b7b77984726e0ce3ce542327d3
 size 449471589

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6270bc289a88f0f959604cd35e12f62592ad82a5a0194af541981581f153ae0
 size 5551

 version https://git-lfs.github.com/spec/v1
+oid sha256:06d7793bf7f922dc898c4ecfc820797566f809efb7c64280000f142e6ced9387
 size 5551