End of training

Browse files

Files changed (5) hide show

all_results.json +12 -12
eval_results.json +7 -7
runs/May30_07-15-46_3105702ed930/events.out.tfevents.1685437630.3105702ed930.2539.2 +3 -0
train_results.json +5 -5
trainer_state.json +81 -54

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.731570151719994,
-    "eval_loss": 0.9372276663780212,
-    "eval_runtime": 264.4068,
-    "eval_samples": 49327,
-    "eval_samples_per_second": 186.557,
-    "eval_steps_per_second": 2.916,
-    "perplexity": 2.5528941244824197,
-    "train_loss": 2.219597038788229,
-    "train_runtime": 7937.3216,
-    "train_samples": 147965,
-    "train_samples_per_second": 55.925,
-    "train_steps_per_second": 0.874
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.9527164483214212,
+    "eval_loss": 0.30882975459098816,
+    "eval_runtime": 165.0761,
+    "eval_samples": 50092,
+    "eval_samples_per_second": 303.448,
+    "eval_steps_per_second": 4.743,
+    "perplexity": 1.3618305053756028,
+    "train_loss": 0.9907198370619974,
+    "train_runtime": 6301.0396,
+    "train_samples": 150247,
+    "train_samples_per_second": 71.534,
+    "train_steps_per_second": 1.118
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.731570151719994,
-    "eval_loss": 0.9372276663780212,
-    "eval_runtime": 264.4068,
-    "eval_samples": 49327,
-    "eval_samples_per_second": 186.557,
-    "eval_steps_per_second": 2.916,
-    "perplexity": 2.5528941244824197
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.9527164483214212,
+    "eval_loss": 0.30882975459098816,
+    "eval_runtime": 165.0761,
+    "eval_samples": 50092,
+    "eval_samples_per_second": 303.448,
+    "eval_steps_per_second": 4.743,
+    "perplexity": 1.3618305053756028
 }

runs/May30_07-15-46_3105702ed930/events.out.tfevents.1685437630.3105702ed930.2539.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7516315525768811ca4dc24e6d897092ca611322964ac13a7ee60d629b93f242
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 2.219597038788229,
-    "train_runtime": 7937.3216,
-    "train_samples": 147965,
-    "train_samples_per_second": 55.925,
-    "train_steps_per_second": 0.874
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.9907198370619974,
+    "train_runtime": 6301.0396,
+    "train_samples": 150247,
+    "train_samples_per_second": 71.534,
+    "train_steps_per_second": 1.118
 }

trainer_state.json CHANGED Viewed

@@ -2,102 +2,129 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
-  "global_step": 6936,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.22,
-      "learning_rate": 4.639561707035756e-05,
-      "loss": 6.8529,
-      "step": 500
     },
     {
       "epoch": 0.43,
-      "learning_rate": 4.2791234140715114e-05,
-      "loss": 3.542,
       "step": 1000
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 3.9186851211072664e-05,
-      "loss": 2.9635,
-      "step": 1500
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 3.558246828143022e-05,
-      "loss": 2.5274,
       "step": 2000
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 3.1978085351787776e-05,
-      "loss": 2.2054,
-      "step": 2500
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 2.8373702422145332e-05,
-      "loss": 1.9297,
       "step": 3000
     },
     {
-      "epoch": 1.51,
-      "learning_rate": 2.4769319492502884e-05,
-      "loss": 1.7394,
-      "step": 3500
     },
     {
-      "epoch": 1.73,
-      "learning_rate": 2.116493656286044e-05,
-      "loss": 1.5874,
       "step": 4000
     },
     {
-      "epoch": 1.95,
-      "learning_rate": 1.7560553633217993e-05,
-      "loss": 1.4676,
-      "step": 4500
     },
     {
-      "epoch": 2.16,
-      "learning_rate": 1.395617070357555e-05,
-      "loss": 1.3606,
       "step": 5000
     },
     {
-      "epoch": 2.38,
-      "learning_rate": 1.0351787773933102e-05,
-      "loss": 1.2739,
-      "step": 5500
     },
     {
-      "epoch": 2.6,
-      "learning_rate": 6.747404844290659e-06,
-      "loss": 1.2049,
       "step": 6000
     },
     {
-      "epoch": 2.81,
-      "learning_rate": 3.143021914648212e-06,
-      "loss": 1.1527,
-      "step": 6500
     },
     {
       "epoch": 3.0,
-      "step": 6936,
-      "total_flos": 1.9168865726431344e+16,
-      "train_loss": 2.219597038788229,
-      "train_runtime": 7937.3216,
-      "train_samples_per_second": 55.925,
-      "train_steps_per_second": 0.874
     }
   ],
-  "max_steps": 6936,
   "num_train_epochs": 3,
-  "total_flos": 1.9168865726431344e+16,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
+  "global_step": 7044,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.43,
+      "learning_rate": 4.2901760363429874e-05,
+      "loss": 3.9512,
+      "step": 1000
     },
     {
       "epoch": 0.43,
+      "eval_accuracy": 0.6988671808767591,
+      "eval_loss": 1.3428400754928589,
+      "eval_runtime": 171.0039,
+      "eval_samples_per_second": 292.929,
+      "eval_steps_per_second": 4.579,
       "step": 1000
     },
     {
+      "epoch": 0.85,
+      "learning_rate": 3.580352072685974e-05,
+      "loss": 1.0044,
+      "step": 2000
     },
     {
+      "epoch": 0.85,
+      "eval_accuracy": 0.9013550464459579,
+      "eval_loss": 0.5994584560394287,
+      "eval_runtime": 170.4181,
+      "eval_samples_per_second": 293.936,
+      "eval_steps_per_second": 4.595,
       "step": 2000
     },
     {
+      "epoch": 1.28,
+      "learning_rate": 2.8705281090289608e-05,
+      "loss": 0.5483,
+      "step": 3000
     },
     {
+      "epoch": 1.28,
+      "eval_accuracy": 0.9309371495565297,
+      "eval_loss": 0.446216881275177,
+      "eval_runtime": 171.3996,
+      "eval_samples_per_second": 292.253,
+      "eval_steps_per_second": 4.568,
       "step": 3000
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 2.160704145371948e-05,
+      "loss": 0.436,
+      "step": 4000
     },
     {
+      "epoch": 1.7,
+      "eval_accuracy": 0.9376707432277173,
+      "eval_loss": 0.40857475996017456,
+      "eval_runtime": 171.9437,
+      "eval_samples_per_second": 291.328,
+      "eval_steps_per_second": 4.554,
       "step": 4000
     },
     {
+      "epoch": 2.13,
+      "learning_rate": 1.4508801817149347e-05,
+      "loss": 0.3764,
+      "step": 5000
     },
     {
+      "epoch": 2.13,
+      "eval_accuracy": 0.9462951194712761,
+      "eval_loss": 0.3566935658454895,
+      "eval_runtime": 171.3127,
+      "eval_samples_per_second": 292.401,
+      "eval_steps_per_second": 4.571,
       "step": 5000
     },
     {
+      "epoch": 2.56,
+      "learning_rate": 7.410562180579217e-06,
+      "loss": 0.337,
+      "step": 6000
     },
     {
+      "epoch": 2.56,
+      "eval_accuracy": 0.9496153650211422,
+      "eval_loss": 0.3342791795730591,
+      "eval_runtime": 171.713,
+      "eval_samples_per_second": 291.719,
+      "eval_steps_per_second": 4.56,
       "step": 6000
     },
     {
+      "epoch": 2.98,
+      "learning_rate": 3.1232254400908575e-07,
+      "loss": 0.3115,
+      "step": 7000
+    },
+    {
+      "epoch": 2.98,
+      "eval_accuracy": 0.95252108208063,
+      "eval_loss": 0.30891212821006775,
+      "eval_runtime": 171.2387,
+      "eval_samples_per_second": 292.527,
+      "eval_steps_per_second": 4.573,
+      "step": 7000
     },
     {
       "epoch": 3.0,
+      "step": 7044,
+      "total_flos": 1.2593673024207894e+16,
+      "train_loss": 0.9907198370619974,
+      "train_runtime": 6301.0396,
+      "train_samples_per_second": 71.534,
+      "train_steps_per_second": 1.118
     }
   ],
+  "max_steps": 7044,
   "num_train_epochs": 3,
+  "total_flos": 1.2593673024207894e+16,
   "trial_name": null,
   "trial_params": null
 }