End of training

Browse files

Files changed (5) hide show

all_results.json +10 -10
eval_results.json +6 -6
runs/Dec18_15-38-50_129-146-179-188/events.out.tfevents.1671378974.129-146-179-188.133265.2 +3 -0
train_results.json +5 -5
trainer_state.json +152 -14

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 71.43,
-    "eval_loss": 2.310106039047241,
-    "eval_runtime": 206.3711,
-    "eval_samples_per_second": 2.481,
-    "eval_steps_per_second": 0.078,
-    "eval_wer": 485.9866828087167,
-    "train_loss": 0.4595182914733887,
-    "train_runtime": 383.5233,
-    "train_samples_per_second": 83.437,
-    "train_steps_per_second": 1.304
 }

 {
+    "epoch": 100.0,
+    "eval_loss": 2.027944564819336,
+    "eval_runtime": 230.0349,
+    "eval_samples_per_second": 2.226,
+    "eval_steps_per_second": 0.07,
+    "eval_wer": 497.22306295399517,
+    "train_loss": 0.5946499960763114,
+    "train_runtime": 764.6061,
+    "train_samples_per_second": 58.592,
+    "train_steps_per_second": 0.916
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 71.43,
-    "eval_loss": 2.310106039047241,
-    "eval_runtime": 206.3711,
-    "eval_samples_per_second": 2.481,
-    "eval_steps_per_second": 0.078,
-    "eval_wer": 485.9866828087167
 }

 {
+    "epoch": 100.0,
+    "eval_loss": 2.027944564819336,
+    "eval_runtime": 230.0349,
+    "eval_samples_per_second": 2.226,
+    "eval_steps_per_second": 0.07,
+    "eval_wer": 497.22306295399517
 }

runs/Dec18_15-38-50_129-146-179-188/events.out.tfevents.1671378974.129-146-179-188.133265.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d645c14c0b88c954f9b9b9a96365d7eabcd3557f82edaab233f7f427f905a0e5
+size 358

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 71.43,
-    "train_loss": 0.4595182914733887,
-    "train_runtime": 383.5233,
-    "train_samples_per_second": 83.437,
-    "train_steps_per_second": 1.304
 }

 {
+    "epoch": 100.0,
+    "train_loss": 0.5946499960763114,
+    "train_runtime": 764.6061,
+    "train_samples_per_second": 58.592,
+    "train_steps_per_second": 0.916
 }

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 2.310106039047241,
-  "best_model_checkpoint": "./checkpoint-500",
-  "epoch": 71.42857142857143,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -353,18 +353,156 @@
       "step": 500
     },
     {
-      "epoch": 71.43,
-      "step": 500,
-      "total_flos": 7.5808932950016e+17,
-      "train_loss": 0.4595182914733887,
-      "train_runtime": 383.5233,
-      "train_samples_per_second": 83.437,
-      "train_steps_per_second": 1.304
     }
   ],
-  "max_steps": 500,
-  "num_train_epochs": 72,
-  "total_flos": 7.5808932950016e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 2.027944564819336,
+  "best_model_checkpoint": "./checkpoint-700",
+  "epoch": 100.0,
+  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 500
     },
     {
+      "epoch": 72.86,
+      "learning_rate": 2.895e-07,
+      "loss": 2.2567,
+      "step": 510
+    },
+    {
+      "epoch": 74.29,
+      "learning_rate": 2.745e-07,
+      "loss": 2.2426,
+      "step": 520
+    },
+    {
+      "epoch": 75.71,
+      "learning_rate": 2.5949999999999996e-07,
+      "loss": 2.2056,
+      "step": 530
+    },
+    {
+      "epoch": 77.14,
+      "learning_rate": 2.445e-07,
+      "loss": 2.2007,
+      "step": 540
+    },
+    {
+      "epoch": 78.57,
+      "learning_rate": 2.2949999999999998e-07,
+      "loss": 2.1627,
+      "step": 550
+    },
+    {
+      "epoch": 80.0,
+      "learning_rate": 2.1449999999999997e-07,
+      "loss": 2.1338,
+      "step": 560
+    },
+    {
+      "epoch": 81.43,
+      "learning_rate": 1.995e-07,
+      "loss": 2.1042,
+      "step": 570
+    },
+    {
+      "epoch": 82.86,
+      "learning_rate": 1.845e-07,
+      "loss": 2.1054,
+      "step": 580
+    },
+    {
+      "epoch": 84.29,
+      "learning_rate": 1.6949999999999998e-07,
+      "loss": 2.0796,
+      "step": 590
+    },
+    {
+      "epoch": 85.71,
+      "learning_rate": 1.545e-07,
+      "loss": 2.0644,
+      "step": 600
+    },
+    {
+      "epoch": 85.71,
+      "eval_loss": 2.092550039291382,
+      "eval_runtime": 188.6334,
+      "eval_samples_per_second": 2.714,
+      "eval_steps_per_second": 0.085,
+      "eval_wer": 491.48002421307507,
+      "step": 600
+    },
+    {
+      "epoch": 87.14,
+      "learning_rate": 1.395e-07,
+      "loss": 2.0308,
+      "step": 610
+    },
+    {
+      "epoch": 88.57,
+      "learning_rate": 1.2449999999999998e-07,
+      "loss": 2.0388,
+      "step": 620
+    },
+    {
+      "epoch": 90.0,
+      "learning_rate": 1.095e-07,
+      "loss": 2.0281,
+      "step": 630
+    },
+    {
+      "epoch": 91.43,
+      "learning_rate": 9.449999999999999e-08,
+      "loss": 2.0146,
+      "step": 640
+    },
+    {
+      "epoch": 92.86,
+      "learning_rate": 7.95e-08,
+      "loss": 2.0052,
+      "step": 650
+    },
+    {
+      "epoch": 94.29,
+      "learning_rate": 6.45e-08,
+      "loss": 1.998,
+      "step": 660
+    },
+    {
+      "epoch": 95.71,
+      "learning_rate": 4.95e-08,
+      "loss": 1.9969,
+      "step": 670
+    },
+    {
+      "epoch": 97.14,
+      "learning_rate": 3.45e-08,
+      "loss": 1.9842,
+      "step": 680
+    },
+    {
+      "epoch": 98.57,
+      "learning_rate": 1.95e-08,
+      "loss": 1.9933,
+      "step": 690
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 4.5e-09,
+      "loss": 1.9799,
+      "step": 700
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 2.027944564819336,
+      "eval_runtime": 284.3457,
+      "eval_samples_per_second": 1.801,
+      "eval_steps_per_second": 0.056,
+      "eval_wer": 497.22306295399517,
+      "step": 700
+    },
+    {
+      "epoch": 100.0,
+      "step": 700,
+      "total_flos": 1.061073948672e+18,
+      "train_loss": 0.5946499960763114,
+      "train_runtime": 764.6061,
+      "train_samples_per_second": 58.592,
+      "train_steps_per_second": 0.916
     }
   ],
+  "max_steps": 700,
+  "num_train_epochs": 100,
+  "total_flos": 1.061073948672e+18,
   "trial_name": null,
   "trial_params": null
 }