joaoalvarenga
/

wav2vec2-large-xlsr-portuguese

@@ -29,7 +29,7 @@ model-index:
     metrics:
        - name: Test WER
          type: wer
-         value: 15.734702%
 ---
@@ -78,23 +78,27 @@ print("Reference:", test_dataset["sentence"][:2])
 The model can be evaluated as follows on the Portuguese test data of Common Voice.
 ```python
 import torch
 import torchaudio
 from datasets import load_dataset, load_metric
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import re
 test_dataset = load_dataset("common_voice", "pt", split="test")
 wer = load_metric("wer")
-processor = Wav2Vec2Processor.from_pretrained("joorock12/wav2vec2-large-xlsr-portuguese")
-model = Wav2Vec2ForCTC.from_pretrained("joorock12/wav2vec2-large-xlsr-portuguese")
 model.to("cuda")
 chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\'\�]'
 resampler = torchaudio.transforms.Resample(48_000, 16_000)
 # Preprocessing the datasets.
 # We need to read the aduio files as arrays
@@ -115,7 +119,7 @@ def evaluate(batch):
         logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits
     pred_ids = torch.argmax(logits, dim=-1)
-    batch["pred_strings"] = processor.batch_decode(pred_ids)
     return batch
 result = test_dataset.map(evaluate, batched=True, batch_size=8)
@@ -123,7 +127,7 @@ result = test_dataset.map(evaluate, batched=True, batch_size=8)
 print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
 ```
-**Test Result (wer)**: 15.734702%
 ## Training

     metrics:
        - name: Test WER
          type: wer
+         value: 13.766801%
 ---
 The model can be evaluated as follows on the Portuguese test data of Common Voice.
+You need to install Enelvo, an open-source spell correction trained with Twitter user posts
+`pip install enelvo`
 ```python
 import torch
 import torchaudio
 from datasets import load_dataset, load_metric
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+from enelvo import normaliser
 import re
 test_dataset = load_dataset("common_voice", "pt", split="test")
 wer = load_metric("wer")
+processor = Wav2Vec2Processor.from_pretrained("joorock12/wav2vec2-large-xlsr-portuguese-a")
+model = Wav2Vec2ForCTC.from_pretrained("joorock12/wav2vec2-large-xlsr-portuguese-a")
 model.to("cuda")
 chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\'\�]'
 resampler = torchaudio.transforms.Resample(48_000, 16_000)
+norm = normaliser.Normaliser()
 # Preprocessing the datasets.
 # We need to read the aduio files as arrays
         logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits
     pred_ids = torch.argmax(logits, dim=-1)
+    batch["pred_strings"] = [norm.normalise(i) for i in processor.batch_decode(pred_ids)]
     return batch
 result = test_dataset.map(evaluate, batched=True, batch_size=8)
 print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
 ```
+**Test Result (wer)**: 13.766801%
 ## Training