Training in progress, epoch 3, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +96 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:714661aaef8e2af2d7ec7d69e1adb728bae869801f07397b14edb899af2ee9a2
 size 2536

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d8443255dbe8907d8f874fbf532e822863818e1032c5e20d2d0fd038b1d6289
 size 2536

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:435c6f28df4d46a1bb36792295b64bf8fda402d0bd8eeee291d4535762bfc591
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e4e3f2c76c841a93a5381323cca8b4d90b8a05fa008a32306c4211971f113cc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87f68093f64fb3790e94fd47e9bf45be6d11c09381e54b12e7194571e6bc1ba5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c53b3898c69b6a235e7034d7dd7c3ef301e9d5dfd7eac1573b35dbcb2279590
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 596,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -184,6 +184,98 @@
       "eval_samples_per_second": 68.481,
       "eval_steps_per_second": 8.696,
       "step": 596
     }
   ],
   "logging_steps": 25,
@@ -198,12 +290,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.298711528064819e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 894,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 68.481,
       "eval_steps_per_second": 8.696,
       "step": 596
+    },
+    {
+      "epoch": 2.0134228187919465,
+      "grad_norm": 0.0,
+      "learning_rate": 5.1577150720410935e-05,
+      "loss": 4.6935,
+      "step": 600
+    },
+    {
+      "epoch": 2.097315436241611,
+      "grad_norm": 0.0,
+      "learning_rate": 4.386061143408135e-05,
+      "loss": 4.5611,
+      "step": 625
+    },
+    {
+      "epoch": 2.1812080536912752,
+      "grad_norm": 0.0,
+      "learning_rate": 3.660444767984911e-05,
+      "loss": 4.4651,
+      "step": 650
+    },
+    {
+      "epoch": 2.2651006711409396,
+      "grad_norm": 0.0,
+      "learning_rate": 2.9868164207136616e-05,
+      "loss": 4.6059,
+      "step": 675
+    },
+    {
+      "epoch": 2.348993288590604,
+      "grad_norm": 0.0,
+      "learning_rate": 2.370700244566605e-05,
+      "loss": 4.4503,
+      "step": 700
+    },
+    {
+      "epoch": 2.4328859060402683,
+      "grad_norm": 0.0,
+      "learning_rate": 1.8171487493710336e-05,
+      "loss": 4.5825,
+      "step": 725
+    },
+    {
+      "epoch": 2.5167785234899327,
+      "grad_norm": 0.0,
+      "learning_rate": 1.3307013782996235e-05,
+      "loss": 4.6254,
+      "step": 750
+    },
+    {
+      "epoch": 2.600671140939597,
+      "grad_norm": 0.0,
+      "learning_rate": 9.153472818047625e-06,
+      "loss": 4.6237,
+      "step": 775
+    },
+    {
+      "epoch": 2.684563758389262,
+      "grad_norm": 0.0,
+      "learning_rate": 5.74492604272191e-06,
+      "loss": 4.4167,
+      "step": 800
+    },
+    {
+      "epoch": 2.7684563758389262,
+      "grad_norm": 0.0,
+      "learning_rate": 3.1093255166238176e-06,
+      "loss": 4.6393,
+      "step": 825
+    },
+    {
+      "epoch": 2.8523489932885906,
+      "grad_norm": 0.0,
+      "learning_rate": 1.2682846920120227e-06,
+      "loss": 4.6915,
+      "step": 850
+    },
+    {
+      "epoch": 2.936241610738255,
+      "grad_norm": 0.0,
+      "learning_rate": 2.3690117096044628e-07,
+      "loss": 4.7184,
+      "step": 875
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 4.619876861572266,
+      "eval_runtime": 1.8714,
+      "eval_samples_per_second": 67.331,
+      "eval_steps_per_second": 8.55,
+      "step": 894
     }
   ],
   "logging_steps": 25,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.4434735820916736e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null