Training in progress, step 27056, checkpoint

Files changed (5) hide show

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4698de0e23f77c43c7d7c19f6112e42a63822002183dc8b1a2ab285ac21f0aa
 size 532568837

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fa9f8158077b301841093e14494740418c7ed23f85bb3a12bff9d61d96227c9
 size 532568837

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be1e1c130d8012bc2aa8497ca7a46fa49a2cc033f88285aeb5bc215484a0b231
 size 266276525

 version https://git-lfs.github.com/spec/v1
+oid sha256:d56456e4607933ddfb6ae28bb6789bd78bd0c9fa782a1e8089a4b8925f0830dc
 size 266276525

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fbd85b5ac578db379ec49d21f17ad20c2076e3867dfd9b5c0f6cde2cb74292b
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:7682d3f2001e37b37753d22113bcd3d790f7d57cddf931598175c9b18c3eb4f3
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:917afbe0ef4f28efbf0be27d57a29021ae93de87ada90c0ec81ec05030e9d7f9
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf54b39ea7fc685cb78099ee828320fc3969e2b58d837edef2ef10533162d734
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.7015177065767286,
   "eval_steps": 500,
-  "global_step": 25632,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -341,13 +341,31 @@
       "learning_rate": 5.206576728499157e-06,
       "loss": 0.007,
       "step": 25500
     }
   ],
   "logging_steps": 500,
   "max_steps": 28464,
   "num_train_epochs": 3,
   "save_steps": 1424,
-  "total_flos": 4.346236176262656e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.851602023608769,
   "eval_steps": 500,
+  "global_step": 27056,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.206576728499157e-06,
       "loss": 0.007,
       "step": 25500
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 4.328274311410905e-06,
+      "loss": 0.0065,
+      "step": 26000
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 3.4499718943226534e-06,
+      "loss": 0.0075,
+      "step": 26500
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 2.5716694772344016e-06,
+      "loss": 0.0062,
+      "step": 27000
     }
   ],
   "logging_steps": 500,
   "max_steps": 28464,
   "num_train_epochs": 3,
   "save_steps": 1424,
+  "total_flos": 4.587700070947123e+17,
   "trial_name": null,
   "trial_params": null
 }