End of training

Browse files

Files changed (5) hide show

README.md +27 -17
config.json +1 -1
model.safetensors +1 -1
trainer_state.json +254 -94
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,9 +17,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/hubert-large-ls960-ft](https://huggingface.co/facebook/hubert-large-ls960-ft) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5404
-- Wer: 0.0859
-- Per: 0.0671
 ## Model description
@@ -45,27 +45,37 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 10
 ### Training results
 | Training Loss | Epoch | Step  | Validation Loss | Wer    | Per    |
 |:-------------:|:-----:|:-----:|:---------------:|:------:|:------:|
-| 6.3943        | 1.0   | 1637  | 1.2722          | 0.4693 | 0.4456 |
-| 0.7962        | 2.0   | 3274  | 0.5990          | 0.1377 | 0.1185 |
-| 0.4245        | 3.0   | 4911  | 0.6075          | 0.0899 | 0.0674 |
-| 0.2898        | 4.0   | 6548  | 0.5285          | 0.0979 | 0.0738 |
-| 0.2262        | 5.0   | 8185  | 0.5600          | 0.0977 | 0.0758 |
-| 0.1803        | 6.0   | 9822  | 0.5504          | 0.0808 | 0.0603 |
-| 0.1488        | 7.0   | 11459 | 0.5854          | 0.0898 | 0.0700 |
-| 0.1267        | 8.0   | 13096 | 0.5438          | 0.0914 | 0.0722 |
-| 0.1156        | 9.0   | 14733 | 0.5395          | 0.0866 | 0.0671 |
-| 0.0993        | 10.0  | 16370 | 0.5404          | 0.0859 | 0.0671 |
 ### Framework versions
-- Transformers 4.35.0
 - Pytorch 2.1.0+cu118
-- Datasets 2.14.6
-- Tokenizers 0.14.1

 This model is a fine-tuned version of [facebook/hubert-large-ls960-ft](https://huggingface.co/facebook/hubert-large-ls960-ft) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3991
+- Wer: 0.0466
+- Per: 0.0363
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 20
 ### Training results
 | Training Loss | Epoch | Step  | Validation Loss | Wer    | Per    |
 |:-------------:|:-----:|:-----:|:---------------:|:------:|:------:|
+| 5.6351        | 1.0   | 1637  | 0.7704          | 0.3277 | 0.3110 |
+| 0.3646        | 2.0   | 3274  | 0.4333          | 0.0673 | 0.0540 |
+| 0.1587        | 3.0   | 4911  | 0.3876          | 0.0710 | 0.0580 |
+| 0.1105        | 4.0   | 6548  | 0.3608          | 0.0670 | 0.0558 |
+| 0.0878        | 5.0   | 8185  | 0.3808          | 0.0678 | 0.0562 |
+| 0.0738        | 6.0   | 9822  | 0.3576          | 0.0639 | 0.0518 |
+| 0.0594        | 7.0   | 11459 | 0.3309          | 0.0617 | 0.0508 |
+| 0.056         | 8.0   | 13096 | 0.3570          | 0.0587 | 0.0467 |
+| 0.0478        | 9.0   | 14733 | 0.3450          | 0.0583 | 0.0473 |
+| 0.0388        | 10.0  | 16370 | 0.3993          | 0.0591 | 0.0480 |
+| 0.0378        | 11.0  | 18007 | 0.4172          | 0.0550 | 0.0437 |
+| 0.0319        | 12.0  | 19644 | 0.3625          | 0.0518 | 0.0413 |
+| 0.0309        | 13.0  | 21281 | 0.3794          | 0.0505 | 0.0392 |
+| 0.0257        | 14.0  | 22918 | 0.3897          | 0.0534 | 0.0426 |
+| 0.0202        | 15.0  | 24555 | 0.4077          | 0.0512 | 0.0404 |
+| 0.0197        | 16.0  | 26192 | 0.3846          | 0.0508 | 0.0411 |
+| 0.016         | 17.0  | 27829 | 0.3808          | 0.0491 | 0.0391 |
+| 0.0157        | 18.0  | 29466 | 0.4060          | 0.0471 | 0.0373 |
+| 0.0131        | 19.0  | 31103 | 0.3925          | 0.0465 | 0.0361 |
+| 0.0115        | 20.0  | 32740 | 0.3991          | 0.0466 | 0.0363 |
 ### Framework versions
+- Transformers 4.35.2
 - Pytorch 2.1.0+cu118
+- Datasets 2.15.0
+- Tokenizers 0.15.0

config.json CHANGED Viewed

@@ -70,7 +70,7 @@
   "num_hidden_layers": 24,
   "pad_token_id": 37,
   "torch_dtype": "float32",
-  "transformers_version": "4.35.0",
   "use_weighted_layer_sum": false,
   "vocab_size": 40
 }

   "num_hidden_layers": 24,
   "pad_token_id": 37,
   "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
   "use_weighted_layer_sum": false,
   "vocab_size": 40
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7e1feb28658dec91aefb393dfcfcb493935e45bb90b786f5599d7b3a49cecc0
 size 1261970648

 version https://git-lfs.github.com/spec/v1
+oid sha256:2969a7623859b9a904b126801a107448526dca244893252958260ce5f33819ac
 size 1261970648

trainer_state.json CHANGED Viewed

@@ -1,188 +1,348 @@
 {
-  "best_metric": 0.5284518003463745,
-  "best_model_checkpoint": "nrshoudi/hubert_arabic_mdd/checkpoint-6548",
-  "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 16370,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 0.0001,
-      "loss": 6.3943,
       "step": 1637
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.2721797227859497,
-      "eval_per": 0.4456091585791011,
-      "eval_runtime": 117.745,
-      "eval_samples_per_second": 6.905,
-      "eval_steps_per_second": 3.457,
-      "eval_wer": 0.4692734823386683,
       "step": 1637
     },
     {
       "epoch": 2.0,
-      "learning_rate": 8.888888888888889e-05,
-      "loss": 0.7962,
       "step": 3274
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.5990138053894043,
-      "eval_per": 0.11846320550268538,
-      "eval_runtime": 118.7347,
-      "eval_samples_per_second": 6.847,
-      "eval_steps_per_second": 3.428,
-      "eval_wer": 0.13774438896925015,
       "step": 3274
     },
     {
       "epoch": 3.0,
-      "learning_rate": 7.777777777777778e-05,
-      "loss": 0.4245,
       "step": 4911
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.6075053811073303,
-      "eval_per": 0.06744087439932159,
-      "eval_runtime": 118.3123,
-      "eval_samples_per_second": 6.872,
-      "eval_steps_per_second": 3.44,
-      "eval_wer": 0.08991647613270495,
       "step": 4911
     },
     {
       "epoch": 4.0,
-      "learning_rate": 6.666666666666667e-05,
-      "loss": 0.2898,
       "step": 6548
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.5284518003463745,
-      "eval_per": 0.07384811080750024,
-      "eval_runtime": 121.2465,
-      "eval_samples_per_second": 6.705,
-      "eval_steps_per_second": 3.357,
-      "eval_wer": 0.09789557183519201,
       "step": 6548
     },
     {
       "epoch": 5.0,
-      "learning_rate": 5.555555555555556e-05,
-      "loss": 0.2262,
       "step": 8185
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.5600156784057617,
-      "eval_per": 0.07577970413643645,
-      "eval_runtime": 119.4374,
-      "eval_samples_per_second": 6.807,
-      "eval_steps_per_second": 3.408,
-      "eval_wer": 0.09770892632168354,
       "step": 8185
     },
     {
       "epoch": 6.0,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.1803,
       "step": 9822
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.5504231452941895,
-      "eval_per": 0.060279845472533684,
-      "eval_runtime": 119.1759,
-      "eval_samples_per_second": 6.822,
-      "eval_steps_per_second": 3.415,
-      "eval_wer": 0.08077084597078998,
       "step": 9822
     },
     {
       "epoch": 7.0,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.1488,
       "step": 11459
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.5854084491729736,
-      "eval_per": 0.06998492414962781,
-      "eval_runtime": 119.0832,
-      "eval_samples_per_second": 6.827,
-      "eval_steps_per_second": 3.418,
-      "eval_wer": 0.08982315337595073,
       "step": 11459
     },
     {
       "epoch": 8.0,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.1267,
       "step": 13096
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.5438163876533508,
-      "eval_per": 0.07222274568924904,
-      "eval_runtime": 119.6311,
-      "eval_samples_per_second": 6.796,
-      "eval_steps_per_second": 3.402,
-      "eval_wer": 0.09140964024077271,
       "step": 13096
     },
     {
       "epoch": 9.0,
-      "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.1156,
       "step": 14733
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.5394747257232666,
-      "eval_per": 0.06713464618863657,
-      "eval_runtime": 119.6655,
-      "eval_samples_per_second": 6.794,
-      "eval_steps_per_second": 3.401,
-      "eval_wer": 0.08660351826792964,
       "step": 14733
     },
     {
       "epoch": 10.0,
-      "learning_rate": 0.0,
-      "loss": 0.0993,
       "step": 16370
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.5404430627822876,
-      "eval_per": 0.06713464618863657,
-      "eval_runtime": 120.5761,
-      "eval_samples_per_second": 6.743,
-      "eval_steps_per_second": 3.375,
-      "eval_wer": 0.08590359759227288,
       "step": 16370
     },
     {
-      "epoch": 10.0,
-      "step": 16370,
-      "total_flos": 5.23722142955399e+18,
-      "train_loss": 0.8801708410189657,
-      "train_runtime": 9837.0244,
-      "train_samples_per_second": 3.327,
-      "train_steps_per_second": 1.664
     }
   ],
   "logging_steps": 500,
-  "max_steps": 16370,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 5.23722142955399e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.3309297263622284,
+  "best_model_checkpoint": "nrshoudi/hubert_arabic_mdd/checkpoint-11459",
+  "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 32740,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "learning_rate": 5e-05,
+      "loss": 5.6351,
       "step": 1637
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.7704485058784485,
+      "eval_per": 0.3110336379911429,
+      "eval_runtime": 117.9251,
+      "eval_samples_per_second": 6.894,
+      "eval_steps_per_second": 3.451,
+      "eval_wer": 0.3277028603424945,
       "step": 1637
     },
     {
       "epoch": 2.0,
+      "learning_rate": 0.0001,
+      "loss": 0.3646,
       "step": 3274
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.433285653591156,
+      "eval_per": 0.05403750117780081,
+      "eval_runtime": 117.5906,
+      "eval_samples_per_second": 6.914,
+      "eval_steps_per_second": 3.461,
+      "eval_wer": 0.06728570761980308,
       "step": 3274
     },
     {
       "epoch": 3.0,
+      "learning_rate": 9.444444444444444e-05,
+      "loss": 0.1587,
       "step": 4911
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.3875606060028076,
+      "eval_per": 0.05804202393291247,
+      "eval_runtime": 117.765,
+      "eval_samples_per_second": 6.904,
+      "eval_steps_per_second": 3.456,
+      "eval_wer": 0.07101861788997246,
       "step": 4911
     },
     {
       "epoch": 4.0,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.1105,
       "step": 6548
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.3607988655567169,
+      "eval_per": 0.05578064637708471,
+      "eval_runtime": 117.9127,
+      "eval_samples_per_second": 6.895,
+      "eval_steps_per_second": 3.452,
+      "eval_wer": 0.06695907797116327,
       "step": 6548
     },
     {
       "epoch": 5.0,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 0.0878,
       "step": 8185
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.3808358907699585,
+      "eval_per": 0.05618109865259587,
+      "eval_runtime": 117.5542,
+      "eval_samples_per_second": 6.916,
+      "eval_steps_per_second": 3.462,
+      "eval_wer": 0.06775232140357426,
       "step": 8185
     },
     {
       "epoch": 6.0,
+      "learning_rate": 7.777777777777778e-05,
+      "loss": 0.0738,
       "step": 9822
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.3576147258281708,
+      "eval_per": 0.05177612362197305,
+      "eval_runtime": 118.5636,
+      "eval_samples_per_second": 6.857,
+      "eval_steps_per_second": 3.433,
+      "eval_wer": 0.06392608837665065,
       "step": 9822
     },
     {
       "epoch": 7.0,
+      "learning_rate": 7.222222222222222e-05,
+      "loss": 0.0594,
       "step": 11459
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.3309297263622284,
+      "eval_per": 0.050810326957504946,
+      "eval_runtime": 117.7279,
+      "eval_samples_per_second": 6.906,
+      "eval_steps_per_second": 3.457,
+      "eval_wer": 0.06173300359292613,
       "step": 11459
     },
     {
       "epoch": 8.0,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.056,
       "step": 13096
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.3569846451282501,
+      "eval_per": 0.046711580137567134,
+      "eval_runtime": 118.1175,
+      "eval_samples_per_second": 6.883,
+      "eval_steps_per_second": 3.446,
+      "eval_wer": 0.058700013998413514,
       "step": 13096
     },
     {
       "epoch": 9.0,
+      "learning_rate": 6.111111111111112e-05,
+      "loss": 0.0478,
       "step": 14733
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.34502002596855164,
+      "eval_per": 0.04727692452652407,
+      "eval_runtime": 117.9103,
+      "eval_samples_per_second": 6.895,
+      "eval_steps_per_second": 3.452,
+      "eval_wer": 0.05832672297139657,
       "step": 14733
     },
     {
       "epoch": 10.0,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.0388,
       "step": 16370
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.3993436396121979,
+      "eval_per": 0.04803071704513333,
+      "eval_runtime": 117.7116,
+      "eval_samples_per_second": 6.907,
+      "eval_steps_per_second": 3.458,
+      "eval_wer": 0.05907330502543045,
       "step": 16370
     },
     {
+      "epoch": 11.0,
+      "learning_rate": 5e-05,
+      "loss": 0.0378,
+      "step": 18007
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.4171537160873413,
+      "eval_per": 0.0437435220955432,
+      "eval_runtime": 118.1365,
+      "eval_samples_per_second": 6.882,
+      "eval_steps_per_second": 3.445,
+      "eval_wer": 0.05501376510662125,
+      "step": 18007
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0319,
+      "step": 19644
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.3625492751598358,
+      "eval_per": 0.04131725242626967,
+      "eval_runtime": 118.0928,
+      "eval_samples_per_second": 6.884,
+      "eval_steps_per_second": 3.446,
+      "eval_wer": 0.051794129998600155,
+      "step": 19644
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.0309,
+      "step": 21281
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.3794006109237671,
+      "eval_per": 0.03919721096768115,
+      "eval_runtime": 118.3172,
+      "eval_samples_per_second": 6.871,
+      "eval_steps_per_second": 3.44,
+      "eval_wer": 0.05053427278241799,
+      "step": 21281
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0257,
+      "step": 22918
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.3896752893924713,
+      "eval_per": 0.04263638933383586,
+      "eval_runtime": 118.7663,
+      "eval_samples_per_second": 6.845,
+      "eval_steps_per_second": 3.427,
+      "eval_wer": 0.05342727824179926,
+      "step": 22918
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0202,
+      "step": 24555
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.40769127011299133,
+      "eval_per": 0.04042212381042118,
+      "eval_runtime": 118.2316,
+      "eval_samples_per_second": 6.876,
+      "eval_steps_per_second": 3.442,
+      "eval_wer": 0.05123419345807475,
+      "step": 24555
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0197,
+      "step": 26192
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.38464316725730896,
+      "eval_per": 0.041128804296617354,
+      "eval_runtime": 118.9714,
+      "eval_samples_per_second": 6.834,
+      "eval_steps_per_second": 3.421,
+      "eval_wer": 0.05076757967430358,
+      "step": 26192
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.016,
+      "step": 27829
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 0.3807629942893982,
+      "eval_per": 0.03910298690285499,
+      "eval_runtime": 118.4593,
+      "eval_samples_per_second": 6.863,
+      "eval_steps_per_second": 3.436,
+      "eval_wer": 0.04913443143110448,
+      "step": 27829
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0157,
+      "step": 29466
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.4060150980949402,
+      "eval_per": 0.03726561763874493,
+      "eval_runtime": 118.2175,
+      "eval_samples_per_second": 6.877,
+      "eval_steps_per_second": 3.443,
+      "eval_wer": 0.047127992160888435,
+      "step": 29466
+    },
+    {
+      "epoch": 19.0,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.0131,
+      "step": 31103
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.3925394117832184,
+      "eval_per": 0.03611137284462452,
+      "eval_runtime": 118.443,
+      "eval_samples_per_second": 6.864,
+      "eval_steps_per_second": 3.436,
+      "eval_wer": 0.04652139424198591,
+      "step": 31103
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 0.0,
+      "loss": 0.0115,
+      "step": 32740
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.39911746978759766,
+      "eval_per": 0.036252708941863755,
+      "eval_runtime": 118.88,
+      "eval_samples_per_second": 6.839,
+      "eval_steps_per_second": 3.424,
+      "eval_wer": 0.04656805562036303,
+      "step": 32740
+    },
+    {
+      "epoch": 20.0,
+      "step": 32740,
+      "total_flos": 1.0473975577487264e+19,
+      "train_loss": 0.3427419745201153,
+      "train_runtime": 19585.0411,
+      "train_samples_per_second": 3.342,
+      "train_steps_per_second": 1.672
     }
   ],
   "logging_steps": 500,
+  "max_steps": 32740,
+  "num_train_epochs": 20,
   "save_steps": 500,
+  "total_flos": 1.0473975577487264e+19,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df396eb2305401892bce240be3383c2e51e3c16ab0698dab7a388cc695d3d602
 size 4600

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3a1aeff00b8bc3228970214b85879c5999771d34eb110131836d18ee1b0b128
 size 4600