End of training

Browse files

Files changed (6) hide show

all_results.json +9 -9
eval_results.json +5 -5
runs/Dec13_13-15-52_d7f040c448a8/events.out.tfevents.1670939846.d7f040c448a8.37644.2 +3 -0
train.log +6 -0
train_results.json +4 -4
trainer_state.json +253 -97

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 1.0,
-    "eval_loss": 0.6388838291168213,
-    "eval_runtime": 16.8521,
     "eval_samples": 64,
-    "eval_samples_per_second": 3.798,
-    "eval_steps_per_second": 0.119,
-    "eval_wer": 60.07326007326007,
-    "train_loss": 1.0103698587417602,
-    "train_runtime": 873.4716,
-    "train_samples_per_second": 3.664,
-    "train_steps_per_second": 0.114
 }

 {
     "epoch": 1.0,
+    "eval_loss": 0.4685819447040558,
+    "eval_runtime": 16.4606,
     "eval_samples": 64,
+    "eval_samples_per_second": 3.888,
+    "eval_steps_per_second": 0.122,
+    "eval_wer": 51.28205128205128,
+    "train_loss": 0.8012711083889008,
+    "train_runtime": 2053.4009,
+    "train_samples_per_second": 3.117,
+    "train_steps_per_second": 0.097
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.0,
-    "eval_loss": 0.6388838291168213,
-    "eval_runtime": 16.8521,
     "eval_samples": 64,
-    "eval_samples_per_second": 3.798,
-    "eval_steps_per_second": 0.119,
-    "eval_wer": 60.07326007326007
 }

 {
     "epoch": 1.0,
+    "eval_loss": 0.4685819447040558,
+    "eval_runtime": 16.4606,
     "eval_samples": 64,
+    "eval_samples_per_second": 3.888,
+    "eval_steps_per_second": 0.122,
+    "eval_wer": 51.28205128205128
 }

runs/Dec13_13-15-52_d7f040c448a8/events.out.tfevents.1670939846.d7f040c448a8.37644.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4affb727a71a89dc4efa84f8d94dc08a33f65a82e2929b7d98fc5214eb48f452
+size 358

train.log CHANGED Viewed

@@ -209,3 +209,9 @@
 {'loss': 0.4952, 'learning_rate': 1.5789473684210528e-06, 'epoch': 1.0}
 {'eval_loss': 0.4624484181404114, 'eval_wer': 51.46520146520146, 'eval_runtime': 19.165, 'eval_samples_per_second': 3.339, 'eval_steps_per_second': 0.104, 'epoch': 1.0}
 {'train_runtime': 2053.4009, 'train_samples_per_second': 3.117, 'train_steps_per_second': 0.097, 'train_loss': 0.8012711083889008, 'epoch': 1.0}

 {'loss': 0.4952, 'learning_rate': 1.5789473684210528e-06, 'epoch': 1.0}
 {'eval_loss': 0.4624484181404114, 'eval_wer': 51.46520146520146, 'eval_runtime': 19.165, 'eval_samples_per_second': 3.339, 'eval_steps_per_second': 0.104, 'epoch': 1.0}
 {'train_runtime': 2053.4009, 'train_samples_per_second': 3.117, 'train_steps_per_second': 0.097, 'train_loss': 0.8012711083889008, 'epoch': 1.0}
+***** train metrics *****
+  epoch                    =        1.0
+  train_loss               =     0.8013
+  train_runtime            = 0:34:13.40
+  train_samples_per_second =      3.117
+  train_steps_per_second   =      0.097

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 1.0,
-    "train_loss": 1.0103698587417602,
-    "train_runtime": 873.4716,
-    "train_samples_per_second": 3.664,
-    "train_steps_per_second": 0.114
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.8012711083889008,
+    "train_runtime": 2053.4009,
+    "train_samples_per_second": 3.117,
+    "train_steps_per_second": 0.097
 }

trainer_state.json CHANGED Viewed

@@ -1,175 +1,331 @@
 {
-  "best_metric": 60.07326007326007,
-  "best_model_checkpoint": "./checkpoint-70",
   "epoch": 1.0,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.1,
       "learning_rate": 7e-05,
-      "loss": 2.5622,
       "step": 10
     },
     {
-      "epoch": 0.1,
       "eval_loss": 1.5401501655578613,
-      "eval_runtime": 62.3188,
-      "eval_samples_per_second": 1.027,
       "eval_steps_per_second": 0.032,
       "eval_wer": 94.5054945054945,
       "step": 10
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 9.222222222222223e-05,
-      "loss": 1.3719,
       "step": 20
     },
     {
-      "epoch": 0.2,
-      "eval_loss": 1.001212239265442,
-      "eval_runtime": 18.9902,
-      "eval_samples_per_second": 3.37,
-      "eval_steps_per_second": 0.105,
-      "eval_wer": 75.27472527472527,
       "step": 20
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 8.111111111111112e-05,
-      "loss": 0.9898,
       "step": 30
     },
     {
-      "epoch": 0.3,
-      "eval_loss": 0.8217034339904785,
-      "eval_runtime": 17.7847,
-      "eval_samples_per_second": 3.599,
-      "eval_steps_per_second": 0.112,
-      "eval_wer": 72.7106227106227,
       "step": 30
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 7e-05,
-      "loss": 0.9742,
       "step": 40
     },
     {
-      "epoch": 0.4,
-      "eval_loss": 0.7924289107322693,
-      "eval_runtime": 19.063,
-      "eval_samples_per_second": 3.357,
-      "eval_steps_per_second": 0.105,
-      "eval_wer": 72.52747252747253,
       "step": 40
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 5.8888888888888896e-05,
-      "loss": 0.6951,
       "step": 50
     },
     {
-      "epoch": 0.5,
-      "eval_loss": 0.7628086805343628,
-      "eval_runtime": 17.8327,
-      "eval_samples_per_second": 3.589,
-      "eval_steps_per_second": 0.112,
-      "eval_wer": 76.19047619047619,
       "step": 50
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 4.7777777777777784e-05,
-      "loss": 0.7824,
       "step": 60
     },
     {
-      "epoch": 0.6,
-      "eval_loss": 0.6737741231918335,
-      "eval_runtime": 18.8876,
-      "eval_samples_per_second": 3.388,
-      "eval_steps_per_second": 0.106,
-      "eval_wer": 65.38461538461539,
       "step": 60
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 3.6666666666666666e-05,
-      "loss": 0.6818,
       "step": 70
     },
     {
-      "epoch": 0.7,
-      "eval_loss": 0.6388838291168213,
-      "eval_runtime": 18.9502,
-      "eval_samples_per_second": 3.377,
-      "eval_steps_per_second": 0.106,
-      "eval_wer": 60.07326007326007,
       "step": 70
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 2.5555555555555554e-05,
-      "loss": 0.7823,
       "step": 80
     },
     {
-      "epoch": 0.8,
-      "eval_loss": 0.6208388805389404,
-      "eval_runtime": 18.1881,
-      "eval_samples_per_second": 3.519,
-      "eval_steps_per_second": 0.11,
-      "eval_wer": 65.75091575091575,
       "step": 80
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 1.4444444444444444e-05,
-      "loss": 0.5994,
       "step": 90
     },
     {
-      "epoch": 0.9,
-      "eval_loss": 0.5900620818138123,
-      "eval_runtime": 17.489,
-      "eval_samples_per_second": 3.659,
-      "eval_steps_per_second": 0.114,
-      "eval_wer": 61.904761904761905,
       "step": 90
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.6647,
       "step": 100
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.5789934992790222,
-      "eval_runtime": 18.4962,
-      "eval_samples_per_second": 3.46,
-      "eval_steps_per_second": 0.108,
-      "eval_wer": 61.72161172161172,
       "step": 100
     },
     {
       "epoch": 1.0,
-      "step": 100,
-      "total_flos": 7.8780432384e+16,
-      "train_loss": 1.0103698587417602,
-      "train_runtime": 873.4716,
-      "train_samples_per_second": 3.664,
-      "train_steps_per_second": 0.114
     }
   ],
-  "max_steps": 100,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 7.8780432384e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 51.28205128205128,
+  "best_model_checkpoint": "./checkpoint-190",
   "epoch": 1.0,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01,
+      "learning_rate": 0.0,
+      "loss": 2.7922,
+      "step": 1
+    },
+    {
+      "epoch": 0.05,
       "learning_rate": 7e-05,
+      "loss": 2.5366,
       "step": 10
     },
     {
+      "epoch": 0.05,
       "eval_loss": 1.5401501655578613,
+      "eval_runtime": 61.7756,
+      "eval_samples_per_second": 1.036,
       "eval_steps_per_second": 0.032,
       "eval_wer": 94.5054945054945,
       "step": 10
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 9.631578947368421e-05,
+      "loss": 1.3721,
       "step": 20
     },
     {
+      "epoch": 0.1,
+      "eval_loss": 1.0021113157272339,
+      "eval_runtime": 18.2189,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 0.11,
+      "eval_wer": 75.82417582417582,
       "step": 20
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 9.105263157894738e-05,
+      "loss": 0.9921,
       "step": 30
     },
     {
+      "epoch": 0.15,
+      "eval_loss": 0.8322427868843079,
+      "eval_runtime": 18.5377,
+      "eval_samples_per_second": 3.452,
+      "eval_steps_per_second": 0.108,
+      "eval_wer": 75.0915750915751,
       "step": 30
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 8.578947368421054e-05,
+      "loss": 0.9844,
       "step": 40
     },
     {
+      "epoch": 0.2,
+      "eval_loss": 0.8080323338508606,
+      "eval_runtime": 18.3811,
+      "eval_samples_per_second": 3.482,
+      "eval_steps_per_second": 0.109,
+      "eval_wer": 72.89377289377289,
       "step": 40
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 8.052631578947368e-05,
+      "loss": 0.7071,
       "step": 50
     },
     {
+      "epoch": 0.25,
+      "eval_loss": 0.7861990332603455,
+      "eval_runtime": 18.6934,
+      "eval_samples_per_second": 3.424,
+      "eval_steps_per_second": 0.107,
+      "eval_wer": 77.2893772893773,
       "step": 50
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 7.526315789473685e-05,
+      "loss": 0.7998,
       "step": 60
     },
     {
+      "epoch": 0.3,
+      "eval_loss": 0.7052078247070312,
+      "eval_runtime": 18.0962,
+      "eval_samples_per_second": 3.537,
+      "eval_steps_per_second": 0.111,
+      "eval_wer": 68.86446886446886,
       "step": 60
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 7e-05,
+      "loss": 0.6935,
       "step": 70
     },
     {
+      "epoch": 0.35,
+      "eval_loss": 0.6780518889427185,
+      "eval_runtime": 18.1288,
+      "eval_samples_per_second": 3.53,
+      "eval_steps_per_second": 0.11,
+      "eval_wer": 64.28571428571429,
       "step": 70
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 6.473684210526316e-05,
+      "loss": 0.81,
       "step": 80
     },
     {
+      "epoch": 0.4,
+      "eval_loss": 0.6341258883476257,
+      "eval_runtime": 17.5354,
+      "eval_samples_per_second": 3.65,
+      "eval_steps_per_second": 0.114,
+      "eval_wer": 63.55311355311355,
       "step": 80
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 5.9473684210526315e-05,
+      "loss": 0.6133,
       "step": 90
     },
     {
+      "epoch": 0.45,
+      "eval_loss": 0.608344316482544,
+      "eval_runtime": 18.2697,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 0.109,
+      "eval_wer": 62.637362637362635,
       "step": 90
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 5.421052631578948e-05,
+      "loss": 0.6675,
       "step": 100
     },
     {
+      "epoch": 0.5,
+      "eval_loss": 0.585149347782135,
+      "eval_runtime": 18.1531,
+      "eval_samples_per_second": 3.526,
+      "eval_steps_per_second": 0.11,
+      "eval_wer": 62.82051282051282,
       "step": 100
     },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.8947368421052635e-05,
+      "loss": 0.5577,
+      "step": 110
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.5650949478149414,
+      "eval_runtime": 18.781,
+      "eval_samples_per_second": 3.408,
+      "eval_steps_per_second": 0.106,
+      "eval_wer": 59.34065934065934,
+      "step": 110
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.368421052631579e-05,
+      "loss": 0.6473,
+      "step": 120
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.5637935400009155,
+      "eval_runtime": 19.7936,
+      "eval_samples_per_second": 3.233,
+      "eval_steps_per_second": 0.101,
+      "eval_wer": 58.058608058608066,
+      "step": 120
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 3.842105263157895e-05,
+      "loss": 0.6018,
+      "step": 130
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 0.5434007048606873,
+      "eval_runtime": 18.5859,
+      "eval_samples_per_second": 3.443,
+      "eval_steps_per_second": 0.108,
+      "eval_wer": 53.84615384615385,
+      "step": 130
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 3.3157894736842106e-05,
+      "loss": 0.5918,
+      "step": 140
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.5384606719017029,
+      "eval_runtime": 17.6361,
+      "eval_samples_per_second": 3.629,
+      "eval_steps_per_second": 0.113,
+      "eval_wer": 54.94505494505495,
+      "step": 140
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 2.7894736842105263e-05,
+      "loss": 0.5654,
+      "step": 150
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.5200322866439819,
+      "eval_runtime": 19.3669,
+      "eval_samples_per_second": 3.305,
+      "eval_steps_per_second": 0.103,
+      "eval_wer": 58.058608058608066,
+      "step": 150
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 2.2631578947368423e-05,
+      "loss": 0.587,
+      "step": 160
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.4974484145641327,
+      "eval_runtime": 20.073,
+      "eval_samples_per_second": 3.188,
+      "eval_steps_per_second": 0.1,
+      "eval_wer": 57.14285714285714,
+      "step": 160
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.736842105263158e-05,
+      "loss": 0.6157,
+      "step": 170
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 0.483424574136734,
+      "eval_runtime": 20.2725,
+      "eval_samples_per_second": 3.157,
+      "eval_steps_per_second": 0.099,
+      "eval_wer": 53.2967032967033,
+      "step": 170
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.2105263157894737e-05,
+      "loss": 0.6803,
+      "step": 180
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.4851979613304138,
+      "eval_runtime": 17.9572,
+      "eval_samples_per_second": 3.564,
+      "eval_steps_per_second": 0.111,
+      "eval_wer": 55.86080586080586,
+      "step": 180
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 6.842105263157896e-06,
+      "loss": 0.4813,
+      "step": 190
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.4685819447040558,
+      "eval_runtime": 17.9367,
+      "eval_samples_per_second": 3.568,
+      "eval_steps_per_second": 0.112,
+      "eval_wer": 51.28205128205128,
+      "step": 190
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.5789473684210528e-06,
+      "loss": 0.4952,
+      "step": 200
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.4624484181404114,
+      "eval_runtime": 19.165,
+      "eval_samples_per_second": 3.339,
+      "eval_steps_per_second": 0.104,
+      "eval_wer": 51.46520146520146,
+      "step": 200
+    },
     {
       "epoch": 1.0,
+      "step": 200,
+      "total_flos": 1.57560864768e+17,
+      "train_loss": 0.8012711083889008,
+      "train_runtime": 2053.4009,
+      "train_samples_per_second": 3.117,
+      "train_steps_per_second": 0.097
     }
   ],
+  "max_steps": 200,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.57560864768e+17,
   "trial_name": null,
   "trial_params": null
 }