Training in progress, step 870000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15a77d7445b898e81ba1dbf302ad4aa88b3930b40801531ded9875b083edd127
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4a2010561ae6b219703766f77123488046a173556bad32795a979a0714f6e7c
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9da54e69aa4d985aac499cdb17fab8ee1c2bb36a1855c776c5bda5c5106d784
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:f70f0274e15c89ba1e5e2f894493b1d0b23475cd923b06c04110b0afc32880fa
 size 449471589

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44925a24f970524178a5e9134f37953712fa04674397ceaa739828974d03640e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:55186c11fcb4a70528459949af80ac1b2eb9ca8f4193cbb9f48d92b908839fa5
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44925a24f970524178a5e9134f37953712fa04674397ceaa739828974d03640e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:55186c11fcb4a70528459949af80ac1b2eb9ca8f4193cbb9f48d92b908839fa5
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44925a24f970524178a5e9134f37953712fa04674397ceaa739828974d03640e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:55186c11fcb4a70528459949af80ac1b2eb9ca8f4193cbb9f48d92b908839fa5
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44925a24f970524178a5e9134f37953712fa04674397ceaa739828974d03640e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:55186c11fcb4a70528459949af80ac1b2eb9ca8f4193cbb9f48d92b908839fa5
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44925a24f970524178a5e9134f37953712fa04674397ceaa739828974d03640e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:55186c11fcb4a70528459949af80ac1b2eb9ca8f4193cbb9f48d92b908839fa5
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44925a24f970524178a5e9134f37953712fa04674397ceaa739828974d03640e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:55186c11fcb4a70528459949af80ac1b2eb9ca8f4193cbb9f48d92b908839fa5
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44925a24f970524178a5e9134f37953712fa04674397ceaa739828974d03640e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:55186c11fcb4a70528459949af80ac1b2eb9ca8f4193cbb9f48d92b908839fa5
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44925a24f970524178a5e9134f37953712fa04674397ceaa739828974d03640e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:55186c11fcb4a70528459949af80ac1b2eb9ca8f4193cbb9f48d92b908839fa5
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1af16532ed7776301ec2b0d23baf8c67ba74ec07e3f7e0782860705643ea3c80
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:d368f4f79d735aeb82977d11fd8d84913a3919ff8ecbae0982e3d606c331447e
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.234333002464785,
-  "global_step": 860000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -17206,11 +17206,211 @@
       "eval_samples_per_second": 862.261,
       "eval_steps_per_second": 13.514,
       "step": 860000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
-  "total_flos": 6.028573160582214e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.345861726687708,
+  "global_step": 870000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 862.261,
       "eval_steps_per_second": 13.514,
       "step": 860000
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 1.7317340758783407e-05,
+      "loss": 0.1835,
+      "step": 860500
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 1.726590597701708e-05,
+      "loss": 0.1842,
+      "step": 861000
+    },
+    {
+      "epoch": 9.25,
+      "eval_loss": 0.17551767826080322,
+      "eval_runtime": 2.6099,
+      "eval_samples_per_second": 880.108,
+      "eval_steps_per_second": 13.794,
+      "step": 861000
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 1.7214642707868325e-05,
+      "loss": 0.1839,
+      "step": 861500
+    },
+    {
+      "epoch": 9.26,
+      "learning_rate": 1.7163551091488952e-05,
+      "loss": 0.1839,
+      "step": 862000
+    },
+    {
+      "epoch": 9.26,
+      "eval_loss": 0.17372268438339233,
+      "eval_runtime": 2.641,
+      "eval_samples_per_second": 869.76,
+      "eval_steps_per_second": 13.631,
+      "step": 862000
+    },
+    {
+      "epoch": 9.26,
+      "learning_rate": 1.711263126756148e-05,
+      "loss": 0.1841,
+      "step": 862500
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 1.7061883375298788e-05,
+      "loss": 0.1834,
+      "step": 863000
+    },
+    {
+      "epoch": 9.27,
+      "eval_loss": 0.17352163791656494,
+      "eval_runtime": 2.6082,
+      "eval_samples_per_second": 880.7,
+      "eval_steps_per_second": 13.803,
+      "step": 863000
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 1.7011307553443647e-05,
+      "loss": 0.1837,
+      "step": 863500
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 1.6960903940268456e-05,
+      "loss": 0.1836,
+      "step": 864000
+    },
+    {
+      "epoch": 9.28,
+      "eval_loss": 0.17270448803901672,
+      "eval_runtime": 2.6998,
+      "eval_samples_per_second": 850.79,
+      "eval_steps_per_second": 13.334,
+      "step": 864000
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 1.6910672673574746e-05,
+      "loss": 0.1838,
+      "step": 864500
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 1.6860613890692876e-05,
+      "loss": 0.1832,
+      "step": 865000
+    },
+    {
+      "epoch": 9.29,
+      "eval_loss": 0.1736259162425995,
+      "eval_runtime": 2.674,
+      "eval_samples_per_second": 859.019,
+      "eval_steps_per_second": 13.463,
+      "step": 865000
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 1.6810727728481673e-05,
+      "loss": 0.1833,
+      "step": 865500
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 1.6761014323327962e-05,
+      "loss": 0.1835,
+      "step": 866000
+    },
+    {
+      "epoch": 9.3,
+      "eval_loss": 0.17491458356380463,
+      "eval_runtime": 2.6701,
+      "eval_samples_per_second": 860.268,
+      "eval_steps_per_second": 13.483,
+      "step": 866000
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 1.6711473811146333e-05,
+      "loss": 0.1836,
+      "step": 866500
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 1.6662106327378645e-05,
+      "loss": 0.1837,
+      "step": 867000
+    },
+    {
+      "epoch": 9.31,
+      "eval_loss": 0.17311297357082367,
+      "eval_runtime": 2.5749,
+      "eval_samples_per_second": 892.083,
+      "eval_steps_per_second": 13.981,
+      "step": 867000
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 1.6612912006993688e-05,
+      "loss": 0.1835,
+      "step": 867500
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 1.6563890984486884e-05,
+      "loss": 0.1834,
+      "step": 868000
+    },
+    {
+      "epoch": 9.32,
+      "eval_loss": 0.1740087866783142,
+      "eval_runtime": 2.6738,
+      "eval_samples_per_second": 859.085,
+      "eval_steps_per_second": 13.464,
+      "step": 868000
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 1.6515043393879825e-05,
+      "loss": 0.1837,
+      "step": 868500
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 1.6466369368719955e-05,
+      "loss": 0.1834,
+      "step": 869000
+    },
+    {
+      "epoch": 9.33,
+      "eval_loss": 0.17570127546787262,
+      "eval_runtime": 2.6358,
+      "eval_samples_per_second": 871.447,
+      "eval_steps_per_second": 13.658,
+      "step": 869000
+    },
+    {
+      "epoch": 9.34,
+      "learning_rate": 1.641786904208022e-05,
+      "loss": 0.1833,
+      "step": 869500
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 1.6369542546558626e-05,
+      "loss": 0.1835,
+      "step": 870000
+    },
+    {
+      "epoch": 9.35,
+      "eval_loss": 0.17456747591495514,
+      "eval_runtime": 2.7306,
+      "eval_samples_per_second": 841.196,
+      "eval_steps_per_second": 13.184,
+      "step": 870000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
+  "total_flos": 6.098673421612561e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9da54e69aa4d985aac499cdb17fab8ee1c2bb36a1855c776c5bda5c5106d784
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:f70f0274e15c89ba1e5e2f894493b1d0b23475cd923b06c04110b0afc32880fa
 size 449471589