Model save

Browse files

Files changed (4) hide show

README.md +36 -66
config.json +4 -4
model.safetensors +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/wav2vec2-base-960h](https://huggingface.co/facebook/wav2vec2-base-960h) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 528.4360
-- Wer: 0.1080
 ## Model description
@@ -37,79 +37,49 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0002
-- train_batch_size: 32
-- eval_batch_size: 32
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
-- num_epochs: 60
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step  | Validation Loss | Wer    |
 |:-------------:|:-----:|:-----:|:---------------:|:------:|
-| 1470.2922     | 1.0   | 220   | 928.8249        | 0.4508 |
-| 948.333       | 2.0   | 440   | 937.5704        | 0.3408 |
-| 741.5294      | 3.0   | 660   | 725.8159        | 0.3007 |
-| 563.649       | 4.0   | 880   | 675.3207        | 0.2507 |
-| 480.7118      | 5.0   | 1100  | 750.5165        | 0.2377 |
-| 413.2753      | 6.0   | 1320  | 618.5261        | 0.2105 |
-| 357.5316      | 7.0   | 1540  | 560.3909        | 0.1816 |
-| 303.942       | 8.0   | 1760  | 490.6678        | 0.1861 |
-| 291.6549      | 9.0   | 1980  | 458.5207        | 0.1641 |
-| 252.5657      | 10.0  | 2200  | 472.9116        | 0.1495 |
-| 224.752       | 11.0  | 2420  | 842.5786        | 0.2153 |
-| 208.8816      | 12.0  | 2640  | 475.4429        | 0.1576 |
-| 204.4481      | 13.0  | 2860  | 779.1060        | 0.1702 |
-| 194.729       | 14.0  | 3080  | 572.8595        | 0.1413 |
-| 156.7179      | 15.0  | 3300  | 544.5276        | 0.1407 |
-| 175.925       | 16.0  | 3520  | 388.6498        | 0.1236 |
-| 143.772       | 17.0  | 3740  | 713.5331        | 0.1714 |
-| 141.2694      | 18.0  | 3960  | 390.4991        | 0.1210 |
-| 132.3416      | 19.0  | 4180  | 520.8185        | 0.1230 |
-| 130.5604      | 20.0  | 4400  | 502.7421        | 0.1202 |
-| 123.3909      | 21.0  | 4620  | 329.0610        | 0.0860 |
-| 109.1357      | 22.0  | 4840  | 330.5388        | 0.0986 |
-| 100.0788      | 23.0  | 5060  | 359.4705        | 0.0952 |
-| 100.0983      | 24.0  | 5280  | 529.3177        | 0.1110 |
-| 98.9179       | 25.0  | 5500  | 698.3449        | 0.1586 |
-| 89.327        | 26.0  | 5720  | 580.2330        | 0.1106 |
-| 73.2891       | 27.0  | 5940  | 512.8746        | 0.1171 |
-| 81.7329       | 28.0  | 6160  | 385.6871        | 0.0962 |
-| 81.4426       | 29.0  | 6380  | 419.5893        | 0.1011 |
-| 87.7749       | 30.0  | 6600  | 477.3170        | 0.1318 |
-| 78.6555       | 31.0  | 6820  | 350.9287        | 0.0946 |
-| 81.6152       | 32.0  | 7040  | 386.9069        | 0.1065 |
-| 66.2793       | 33.0  | 7260  | 429.2931        | 0.1080 |
-| 62.7566       | 34.0  | 7480  | 519.3239        | 0.1216 |
-| 64.9473       | 35.0  | 7700  | 398.3335        | 0.0968 |
-| 68.8528       | 36.0  | 7920  | 385.7329        | 0.1114 |
-| 54.9865       | 37.0  | 8140  | 465.0021        | 0.1196 |
-| 49.088        | 38.0  | 8360  | 441.8585        | 0.1131 |
-| 57.9633       | 39.0  | 8580  | 325.4701        | 0.0891 |
-| 54.7517       | 40.0  | 8800  | 335.5435        | 0.0878 |
-| 45.5077       | 41.0  | 9020  | 520.4970        | 0.1100 |
-| 52.4684       | 42.0  | 9240  | 406.8724        | 0.1033 |
-| 55.7947       | 43.0  | 9460  | 315.6170        | 0.0842 |
-| 53.4148       | 44.0  | 9680  | 430.8446        | 0.1025 |
-| 55.6933       | 45.0  | 9900  | 402.8480        | 0.0962 |
-| 35.7859       | 46.0  | 10120 | 353.2895        | 0.0897 |
-| 41.927        | 47.0  | 10340 | 385.7763        | 0.0905 |
-| 47.249        | 48.0  | 10560 | 370.2774        | 0.0907 |
-| 49.3789       | 49.0  | 10780 | 395.4215        | 0.0903 |
-| 37.4909       | 50.0  | 11000 | 460.0715        | 0.0976 |
-| 48.9771       | 51.0  | 11220 | 480.6746        | 0.0994 |
-| 36.714        | 52.0  | 11440 | 512.2975        | 0.1041 |
-| 41.4792       | 53.0  | 11660 | 503.1389        | 0.1063 |
-| 50.2679       | 54.0  | 11880 | 552.9897        | 0.1110 |
-| 40.709        | 55.0  | 12100 | 534.4197        | 0.1086 |
-| 47.1658       | 56.0  | 12320 | 530.0042        | 0.1088 |
-| 40.837        | 57.0  | 12540 | 530.1498        | 0.1080 |
-| 42.7641       | 58.0  | 12760 | 528.1923        | 0.1080 |
-| 41.2417       | 59.0  | 12980 | 528.1598        | 0.1080 |
-| 34.7281       | 60.0  | 13200 | 528.4360        | 0.1080 |
 ### Framework versions

 This model is a fine-tuned version of [facebook/wav2vec2-base-960h](https://huggingface.co/facebook/wav2vec2-base-960h) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 134.4454
+- Wer: 0.0694
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 7e-05
+- train_batch_size: 16
+- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
+- num_epochs: 30
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step  | Validation Loss | Wer    |
 |:-------------:|:-----:|:-----:|:---------------:|:------:|
+| 707.3282      | 1.0   | 486   | 401.7251        | 0.3725 |
+| 477.7054      | 2.0   | 972   | 338.9568        | 0.3002 |
+| 377.4668      | 3.0   | 1458  | 332.3391        | 0.2766 |
+| 312.8686      | 4.0   | 1944  | 250.9001        | 0.2083 |
+| 263.9122      | 5.0   | 2430  | 255.3110        | 0.1924 |
+| 225.1422      | 6.0   | 2916  | 235.4016        | 0.1733 |
+| 205.3537      | 7.0   | 3402  | 167.1833        | 0.1290 |
+| 180.8011      | 8.0   | 3888  | 150.0885        | 0.1195 |
+| 159.5088      | 9.0   | 4374  | 171.2871        | 0.1314 |
+| 150.4287      | 10.0  | 4860  | 158.4681        | 0.1093 |
+| 127.9891      | 11.0  | 5346  | 142.8434        | 0.0979 |
+| 120.8978      | 12.0  | 5832  | 134.8509        | 0.0976 |
+| 110.0645      | 13.0  | 6318  | 132.9552        | 0.0976 |
+| 104.547       | 14.0  | 6804  | 122.0037        | 0.0835 |
+| 96.8871       | 15.0  | 7290  | 142.5403        | 0.0873 |
+| 87.4426       | 16.0  | 7776  | 136.5416        | 0.0862 |
+| 80.2423       | 17.0  | 8262  | 113.7286        | 0.0772 |
+| 76.5584       | 18.0  | 8748  | 123.2151        | 0.0747 |
+| 71.483        | 19.0  | 9234  | 123.1056        | 0.0729 |
+| 74.9826       | 20.0  | 9720  | 126.8235        | 0.0710 |
+| 64.5212       | 21.0  | 10206 | 123.9980        | 0.0692 |
+| 66.9201       | 22.0  | 10692 | 133.9775        | 0.0747 |
+| 72.1223       | 23.0  | 11178 | 125.7820        | 0.0677 |
+| 59.429        | 24.0  | 11664 | 137.0608        | 0.0730 |
+| 64.658        | 25.0  | 12150 | 123.1982        | 0.0655 |
+| 62.1091       | 26.0  | 12636 | 128.4541        | 0.0664 |
+| 59.1036       | 27.0  | 13122 | 132.6404        | 0.0681 |
+| 58.5964       | 28.0  | 13608 | 133.0307        | 0.0685 |
+| 58.6317       | 29.0  | 14094 | 134.8861        | 0.0694 |
+| 64.5423       | 30.0  | 14580 | 134.4454        | 0.0694 |
 ### Framework versions

config.json CHANGED Viewed

@@ -9,7 +9,7 @@
   "architectures": [
     "Wav2Vec2ForCTC"
   ],
-  "attention_dropout": 0.1,
   "bos_token_id": 1,
   "classifier_proj_size": 256,
   "codevector_dim": 256,
@@ -50,12 +50,12 @@
   "feat_extract_activation": "gelu",
   "feat_extract_dropout": 0.0,
   "feat_extract_norm": "group",
-  "feat_proj_dropout": 0.1,
   "feat_quantizer_dropout": 0.0,
-  "final_dropout": 0.1,
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
-  "hidden_dropout": 0.1,
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "initializer_range": 0.02,

   "architectures": [
     "Wav2Vec2ForCTC"
   ],
+  "attention_dropout": 0.15,
   "bos_token_id": 1,
   "classifier_proj_size": 256,
   "codevector_dim": 256,
   "feat_extract_activation": "gelu",
   "feat_extract_dropout": 0.0,
   "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.2,
   "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.15,
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
+  "hidden_dropout": 0.15,
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "initializer_range": 0.02,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:641312a697db1549dc4be559c33c1ef4d71b4b3f0f896883e40c8018b874d228
 size 377611120

 version https://git-lfs.github.com/spec/v1
+oid sha256:06661a1451962c8e612b690642ea3322b720c1955c06ed1d5c5d4b572ae59414
 size 377611120

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5217d6cb05814b4546e4a47ad97665a13f49f8b8a23df9969e97236cd7502078
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:088a123df7ffb58042710ea939a332a151f6ba323aed87a2ac5c603e14785fb3
 size 5240