End of training

Browse files

Files changed (6) hide show

all_results.json +9 -9
eval_results.json +5 -5
runs/Dec13_12-46-08_d7f040c448a8/events.out.tfevents.1670936574.d7f040c448a8.26499.2 +3 -0
train.log +6 -0
train_results.json +5 -5
trainer_state.json +86 -395

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 0.33,
-    "eval_loss": 0.5074095726013184,
-    "eval_runtime": 16.8249,
     "eval_samples": 64,
-    "eval_samples_per_second": 3.804,
     "eval_steps_per_second": 0.119,
-    "eval_wer": 52.197802197802204,
-    "train_loss": 0.10702953418095906,
-    "train_runtime": 833.6007,
-    "train_samples_per_second": 11.516,
-    "train_steps_per_second": 0.36
 }

 {
+    "epoch": 1.0,
+    "eval_loss": 0.6388838291168213,
+    "eval_runtime": 16.8521,
     "eval_samples": 64,
+    "eval_samples_per_second": 3.798,
     "eval_steps_per_second": 0.119,
+    "eval_wer": 60.07326007326007,
+    "train_loss": 1.0103698587417602,
+    "train_runtime": 873.4716,
+    "train_samples_per_second": 3.664,
+    "train_steps_per_second": 0.114
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 0.33,
-    "eval_loss": 0.5074095726013184,
-    "eval_runtime": 16.8249,
     "eval_samples": 64,
-    "eval_samples_per_second": 3.804,
     "eval_steps_per_second": 0.119,
-    "eval_wer": 52.197802197802204
 }

 {
+    "epoch": 1.0,
+    "eval_loss": 0.6388838291168213,
+    "eval_runtime": 16.8521,
     "eval_samples": 64,
+    "eval_samples_per_second": 3.798,
     "eval_steps_per_second": 0.119,
+    "eval_wer": 60.07326007326007
 }

runs/Dec13_12-46-08_d7f040c448a8/events.out.tfevents.1670936574.d7f040c448a8.26499.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9dc4f4176fff781850f18b76a70711b2188ca1fa5b1b2b1b0424b1b5a5ad1824
+size 352

train.log CHANGED Viewed

@@ -153,3 +153,9 @@
 {'loss': 0.6647, 'learning_rate': 3.3333333333333333e-06, 'epoch': 1.0}
 {'eval_loss': 0.5789934992790222, 'eval_wer': 61.72161172161172, 'eval_runtime': 18.4962, 'eval_samples_per_second': 3.46, 'eval_steps_per_second': 0.108, 'epoch': 1.0}
 {'train_runtime': 873.4716, 'train_samples_per_second': 3.664, 'train_steps_per_second': 0.114, 'train_loss': 1.0103698587417602, 'epoch': 1.0}

 {'loss': 0.6647, 'learning_rate': 3.3333333333333333e-06, 'epoch': 1.0}
 {'eval_loss': 0.5789934992790222, 'eval_wer': 61.72161172161172, 'eval_runtime': 18.4962, 'eval_samples_per_second': 3.46, 'eval_steps_per_second': 0.108, 'epoch': 1.0}
 {'train_runtime': 873.4716, 'train_samples_per_second': 3.664, 'train_steps_per_second': 0.114, 'train_loss': 1.0103698587417602, 'epoch': 1.0}
+***** train metrics *****
+  epoch                    =        1.0
+  train_loss               =     1.0104
+  train_runtime            = 0:14:33.47
+  train_samples_per_second =      3.664
+  train_steps_per_second   =      0.114

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 0.33,
-    "train_loss": 0.10702953418095906,
-    "train_runtime": 833.6007,
-    "train_samples_per_second": 11.516,
-    "train_steps_per_second": 0.36
 }

 {
+    "epoch": 1.0,
+    "train_loss": 1.0103698587417602,
+    "train_runtime": 873.4716,
+    "train_samples_per_second": 3.664,
+    "train_steps_per_second": 0.114
 }

trainer_state.json CHANGED Viewed

@@ -1,484 +1,175 @@
 {
-  "best_metric": 52.197802197802204,
-  "best_model_checkpoint": "./checkpoint-280",
-  "epoch": 0.3333333333333333,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.5,
-      "learning_rate": 8.666666666666667e-05,
-      "loss": 2.4473,
       "step": 10
     },
     {
-      "epoch": 0.5,
-      "eval_loss": 1.3674653768539429,
-      "eval_runtime": 44.1027,
-      "eval_samples_per_second": 1.451,
-      "eval_steps_per_second": 0.045,
-      "eval_wer": 95.42124542124543,
       "step": 10
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 2e-05,
-      "loss": 1.256,
       "step": 20
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.974454939365387,
-      "eval_runtime": 19.7011,
-      "eval_samples_per_second": 3.249,
-      "eval_steps_per_second": 0.102,
       "eval_wer": 75.27472527472527,
       "step": 20
     },
     {
       "epoch": 0.3,
-      "learning_rate": 7.68421052631579e-05,
-      "loss": 0.9934,
       "step": 30
     },
     {
       "epoch": 0.3,
-      "eval_loss": 0.811407208442688,
-      "eval_runtime": 17.9554,
-      "eval_samples_per_second": 3.564,
-      "eval_steps_per_second": 0.111,
-      "eval_wer": 72.16117216117216,
       "step": 30
     },
     {
       "epoch": 0.4,
-      "learning_rate": 6.631578947368421e-05,
-      "loss": 0.9568,
       "step": 40
     },
     {
       "epoch": 0.4,
-      "eval_loss": 0.7814445495605469,
-      "eval_runtime": 44.1521,
-      "eval_samples_per_second": 1.45,
-      "eval_steps_per_second": 0.045,
-      "eval_wer": 72.7106227106227,
       "step": 40
     },
     {
       "epoch": 0.5,
-      "learning_rate": 5.5789473684210526e-05,
-      "loss": 0.6856,
       "step": 50
     },
     {
       "epoch": 0.5,
-      "eval_loss": 0.7517387866973877,
-      "eval_runtime": 19.7741,
-      "eval_samples_per_second": 3.237,
-      "eval_steps_per_second": 0.101,
-      "eval_wer": 76.92307692307693,
       "step": 50
     },
     {
       "epoch": 0.6,
-      "learning_rate": 4.5263157894736846e-05,
-      "loss": 0.7808,
       "step": 60
     },
     {
       "epoch": 0.6,
-      "eval_loss": 0.6514347195625305,
-      "eval_runtime": 19.745,
-      "eval_samples_per_second": 3.241,
-      "eval_steps_per_second": 0.101,
-      "eval_wer": 63.55311355311355,
       "step": 60
     },
     {
       "epoch": 0.7,
-      "learning_rate": 3.473684210526316e-05,
-      "loss": 0.6826,
       "step": 70
     },
     {
       "epoch": 0.7,
-      "eval_loss": 0.6197173595428467,
-      "eval_runtime": 19.7014,
-      "eval_samples_per_second": 3.248,
-      "eval_steps_per_second": 0.102,
-      "eval_wer": 60.43956043956044,
       "step": 70
     },
     {
       "epoch": 0.8,
-      "learning_rate": 2.4210526315789474e-05,
-      "loss": 0.7832,
       "step": 80
     },
     {
       "epoch": 0.8,
-      "eval_loss": 0.6129069328308105,
-      "eval_runtime": 18.9507,
-      "eval_samples_per_second": 3.377,
-      "eval_steps_per_second": 0.106,
-      "eval_wer": 65.93406593406593,
       "step": 80
     },
     {
       "epoch": 0.9,
-      "learning_rate": 1.3684210526315791e-05,
-      "loss": 0.6031,
       "step": 90
     },
     {
       "epoch": 0.9,
-      "eval_loss": 0.5876654982566833,
-      "eval_runtime": 20.4075,
-      "eval_samples_per_second": 3.136,
-      "eval_steps_per_second": 0.098,
-      "eval_wer": 61.35531135531136,
       "step": 90
     },
     {
       "epoch": 1.0,
-      "learning_rate": 3.1578947368421056e-06,
-      "loss": 0.6678,
       "step": 100
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.5758526921272278,
-      "eval_runtime": 19.5593,
-      "eval_samples_per_second": 3.272,
-      "eval_steps_per_second": 0.102,
-      "eval_wer": 61.53846153846154,
-      "step": 100
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 2.96551724137931e-05,
-      "loss": 0.4611,
-      "step": 110
-    },
-    {
-      "epoch": 0.07,
-      "eval_loss": 0.5625213384628296,
-      "eval_runtime": 19.7626,
-      "eval_samples_per_second": 3.238,
-      "eval_steps_per_second": 0.101,
-      "eval_wer": 57.692307692307686,
-      "step": 110
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 2.2758620689655175e-05,
-      "loss": 0.4451,
-      "step": 120
-    },
-    {
-      "epoch": 0.13,
-      "eval_loss": 0.563637375831604,
-      "eval_runtime": 19.0995,
-      "eval_samples_per_second": 3.351,
-      "eval_steps_per_second": 0.105,
-      "eval_wer": 56.59340659340659,
-      "step": 120
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 1.586206896551724e-05,
-      "loss": 0.3615,
-      "step": 130
-    },
-    {
-      "epoch": 0.2,
-      "eval_loss": 0.5489554405212402,
-      "eval_runtime": 18.5694,
-      "eval_samples_per_second": 3.447,
-      "eval_steps_per_second": 0.108,
-      "eval_wer": 61.172161172161175,
-      "step": 130
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 8.96551724137931e-06,
-      "loss": 0.4055,
-      "step": 140
-    },
-    {
-      "epoch": 0.27,
-      "eval_loss": 0.5382302403450012,
-      "eval_runtime": 22.4274,
-      "eval_samples_per_second": 2.854,
-      "eval_steps_per_second": 0.089,
-      "eval_wer": 55.12820512820513,
-      "step": 140
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 2.0689655172413796e-06,
-      "loss": 0.2946,
-      "step": 150
-    },
-    {
-      "epoch": 0.33,
-      "eval_loss": 0.53872150182724,
-      "eval_runtime": 20.4177,
-      "eval_samples_per_second": 3.135,
-      "eval_steps_per_second": 0.098,
-      "eval_wer": 55.67765567765568,
-      "step": 150
-    },
-    {
-      "epoch": 0.33,
-      "step": 150,
-      "total_flos": 1.18170648576e+17,
-      "train_loss": 0.13119232177734375,
-      "train_runtime": 451.4438,
-      "train_samples_per_second": 10.633,
-      "train_steps_per_second": 0.332
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 9.5e-06,
-      "loss": 0.2716,
-      "step": 160
-    },
-    {
-      "epoch": 0.05,
-      "eval_loss": 0.5364237427711487,
-      "eval_runtime": 16.1176,
-      "eval_samples_per_second": 3.971,
-      "eval_steps_per_second": 0.124,
-      "eval_wer": 54.57875457875458,
-      "step": 160
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 9.050000000000001e-06,
-      "loss": 0.2765,
-      "step": 170
-    },
-    {
-      "epoch": 0.1,
-      "eval_loss": 0.5404230952262878,
-      "eval_runtime": 17.8451,
-      "eval_samples_per_second": 3.586,
-      "eval_steps_per_second": 0.112,
-      "eval_wer": 54.761904761904766,
-      "step": 170
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 8.550000000000001e-06,
-      "loss": 0.2533,
-      "step": 180
-    },
-    {
-      "epoch": 0.15,
-      "eval_loss": 0.53352290391922,
-      "eval_runtime": 17.1042,
-      "eval_samples_per_second": 3.742,
-      "eval_steps_per_second": 0.117,
-      "eval_wer": 55.12820512820513,
-      "step": 180
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 8.050000000000001e-06,
-      "loss": 0.3533,
-      "step": 190
-    },
-    {
-      "epoch": 0.2,
-      "eval_loss": 0.530021071434021,
-      "eval_runtime": 18.1912,
-      "eval_samples_per_second": 3.518,
-      "eval_steps_per_second": 0.11,
-      "eval_wer": 56.59340659340659,
-      "step": 190
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 7.5500000000000006e-06,
-      "loss": 0.2844,
-      "step": 200
-    },
-    {
-      "epoch": 0.25,
-      "eval_loss": 0.5341857671737671,
-      "eval_runtime": 17.7172,
-      "eval_samples_per_second": 3.612,
-      "eval_steps_per_second": 0.113,
-      "eval_wer": 55.311355311355314,
-      "step": 200
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 8.033333333333335e-06,
-      "loss": 0.1922,
-      "step": 210
-    },
-    {
-      "epoch": 0.03,
-      "eval_loss": 0.5239479541778564,
-      "eval_runtime": 16.5572,
-      "eval_samples_per_second": 3.865,
-      "eval_steps_per_second": 0.121,
-      "eval_wer": 55.494505494505496,
-      "step": 210
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 7.7e-06,
-      "loss": 0.2229,
-      "step": 220
-    },
-    {
-      "epoch": 0.07,
-      "eval_loss": 0.5312361717224121,
-      "eval_runtime": 17.8694,
-      "eval_samples_per_second": 3.582,
-      "eval_steps_per_second": 0.112,
-      "eval_wer": 54.395604395604394,
-      "step": 220
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 7.3666666666666676e-06,
-      "loss": 0.1976,
-      "step": 230
-    },
-    {
-      "epoch": 0.1,
-      "eval_loss": 0.5302589535713196,
-      "eval_runtime": 17.0912,
-      "eval_samples_per_second": 3.745,
-      "eval_steps_per_second": 0.117,
-      "eval_wer": 54.02930402930403,
-      "step": 230
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 7.033333333333334e-06,
-      "loss": 0.2823,
-      "step": 240
-    },
-    {
-      "epoch": 0.13,
-      "eval_loss": 0.5269189476966858,
-      "eval_runtime": 17.9989,
-      "eval_samples_per_second": 3.556,
-      "eval_steps_per_second": 0.111,
-      "eval_wer": 54.02930402930403,
-      "step": 240
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 6.700000000000001e-06,
-      "loss": 0.2265,
-      "step": 250
-    },
-    {
-      "epoch": 0.17,
-      "eval_loss": 0.5312862992286682,
-      "eval_runtime": 18.4593,
-      "eval_samples_per_second": 3.467,
       "eval_steps_per_second": 0.108,
-      "eval_wer": 55.67765567765568,
-      "step": 250
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 6.366666666666668e-06,
-      "loss": 0.3728,
-      "step": 260
-    },
-    {
-      "epoch": 0.2,
-      "eval_loss": 0.5128015279769897,
-      "eval_runtime": 18.2249,
-      "eval_samples_per_second": 3.512,
-      "eval_steps_per_second": 0.11,
-      "eval_wer": 53.47985347985348,
-      "step": 260
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 6.033333333333335e-06,
-      "loss": 0.3738,
-      "step": 270
-    },
-    {
-      "epoch": 0.23,
-      "eval_loss": 0.5025143623352051,
-      "eval_runtime": 17.2543,
-      "eval_samples_per_second": 3.709,
-      "eval_steps_per_second": 0.116,
-      "eval_wer": 52.74725274725275,
-      "step": 270
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 5.7e-06,
-      "loss": 0.488,
-      "step": 280
-    },
-    {
-      "epoch": 0.27,
-      "eval_loss": 0.5074095726013184,
-      "eval_runtime": 18.4062,
-      "eval_samples_per_second": 3.477,
-      "eval_steps_per_second": 0.109,
-      "eval_wer": 52.197802197802204,
-      "step": 280
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 5.366666666666666e-06,
-      "loss": 0.4142,
-      "step": 290
-    },
-    {
-      "epoch": 0.3,
-      "eval_loss": 0.5057792663574219,
-      "eval_runtime": 16.5894,
-      "eval_samples_per_second": 3.858,
-      "eval_steps_per_second": 0.121,
-      "eval_wer": 52.56410256410257,
-      "step": 290
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 5.033333333333333e-06,
-      "loss": 0.4407,
-      "step": 300
-    },
-    {
-      "epoch": 0.33,
-      "eval_loss": 0.5046072602272034,
-      "eval_runtime": 17.9261,
-      "eval_samples_per_second": 3.57,
-      "eval_steps_per_second": 0.112,
-      "eval_wer": 53.11355311355312,
-      "step": 300
     },
     {
-      "epoch": 0.33,
-      "step": 300,
-      "total_flos": 2.36341297152e+17,
-      "train_loss": 0.10702953418095906,
-      "train_runtime": 833.6007,
-      "train_samples_per_second": 11.516,
-      "train_steps_per_second": 0.36
     }
   ],
-  "max_steps": 300,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 2.36341297152e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 60.07326007326007,
+  "best_model_checkpoint": "./checkpoint-70",
+  "epoch": 1.0,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.1,
+      "learning_rate": 7e-05,
+      "loss": 2.5622,
       "step": 10
     },
     {
+      "epoch": 0.1,
+      "eval_loss": 1.5401501655578613,
+      "eval_runtime": 62.3188,
+      "eval_samples_per_second": 1.027,
+      "eval_steps_per_second": 0.032,
+      "eval_wer": 94.5054945054945,
       "step": 10
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 9.222222222222223e-05,
+      "loss": 1.3719,
       "step": 20
     },
     {
+      "epoch": 0.2,
+      "eval_loss": 1.001212239265442,
+      "eval_runtime": 18.9902,
+      "eval_samples_per_second": 3.37,
+      "eval_steps_per_second": 0.105,
       "eval_wer": 75.27472527472527,
       "step": 20
     },
     {
       "epoch": 0.3,
+      "learning_rate": 8.111111111111112e-05,
+      "loss": 0.9898,
       "step": 30
     },
     {
       "epoch": 0.3,
+      "eval_loss": 0.8217034339904785,
+      "eval_runtime": 17.7847,
+      "eval_samples_per_second": 3.599,
+      "eval_steps_per_second": 0.112,
+      "eval_wer": 72.7106227106227,
       "step": 30
     },
     {
       "epoch": 0.4,
+      "learning_rate": 7e-05,
+      "loss": 0.9742,
       "step": 40
     },
     {
       "epoch": 0.4,
+      "eval_loss": 0.7924289107322693,
+      "eval_runtime": 19.063,
+      "eval_samples_per_second": 3.357,
+      "eval_steps_per_second": 0.105,
+      "eval_wer": 72.52747252747253,
       "step": 40
     },
     {
       "epoch": 0.5,
+      "learning_rate": 5.8888888888888896e-05,
+      "loss": 0.6951,
       "step": 50
     },
     {
       "epoch": 0.5,
+      "eval_loss": 0.7628086805343628,
+      "eval_runtime": 17.8327,
+      "eval_samples_per_second": 3.589,
+      "eval_steps_per_second": 0.112,
+      "eval_wer": 76.19047619047619,
       "step": 50
     },
     {
       "epoch": 0.6,
+      "learning_rate": 4.7777777777777784e-05,
+      "loss": 0.7824,
       "step": 60
     },
     {
       "epoch": 0.6,
+      "eval_loss": 0.6737741231918335,
+      "eval_runtime": 18.8876,
+      "eval_samples_per_second": 3.388,
+      "eval_steps_per_second": 0.106,
+      "eval_wer": 65.38461538461539,
       "step": 60
     },
     {
       "epoch": 0.7,
+      "learning_rate": 3.6666666666666666e-05,
+      "loss": 0.6818,
       "step": 70
     },
     {
       "epoch": 0.7,
+      "eval_loss": 0.6388838291168213,
+      "eval_runtime": 18.9502,
+      "eval_samples_per_second": 3.377,
+      "eval_steps_per_second": 0.106,
+      "eval_wer": 60.07326007326007,
       "step": 70
     },
     {
       "epoch": 0.8,
+      "learning_rate": 2.5555555555555554e-05,
+      "loss": 0.7823,
       "step": 80
     },
     {
       "epoch": 0.8,
+      "eval_loss": 0.6208388805389404,
+      "eval_runtime": 18.1881,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 0.11,
+      "eval_wer": 65.75091575091575,
       "step": 80
     },
     {
       "epoch": 0.9,
+      "learning_rate": 1.4444444444444444e-05,
+      "loss": 0.5994,
       "step": 90
     },
     {
       "epoch": 0.9,
+      "eval_loss": 0.5900620818138123,
+      "eval_runtime": 17.489,
+      "eval_samples_per_second": 3.659,
+      "eval_steps_per_second": 0.114,
+      "eval_wer": 61.904761904761905,
       "step": 90
     },
     {
       "epoch": 1.0,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.6647,
       "step": 100
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.5789934992790222,
+      "eval_runtime": 18.4962,
+      "eval_samples_per_second": 3.46,
       "eval_steps_per_second": 0.108,
+      "eval_wer": 61.72161172161172,
+      "step": 100
     },
     {
+      "epoch": 1.0,
+      "step": 100,
+      "total_flos": 7.8780432384e+16,
+      "train_loss": 1.0103698587417602,
+      "train_runtime": 873.4716,
+      "train_samples_per_second": 3.664,
+      "train_steps_per_second": 0.114
     }
   ],
+  "max_steps": 100,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 7.8780432384e+16,
   "trial_name": null,
   "trial_params": null
 }