niobures commited on Mar 11

Commit

766cd56

verified ·

1 Parent(s): 7107d58

wav2vec2 (ar, de, es, fr, fa, he, ro, ru, tr, uk, multi)

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +7 -0
ar/wav2vec2-large-xlsr-53-arabic (elgeish)/.gitattributes +17 -0
ar/wav2vec2-large-xlsr-53-arabic (elgeish)/README.md +206 -0
ar/wav2vec2-large-xlsr-53-arabic (elgeish)/config.json +69 -0
ar/wav2vec2-large-xlsr-53-arabic (elgeish)/flax_model.msgpack +3 -0
ar/wav2vec2-large-xlsr-53-arabic (elgeish)/preprocessor_config.json +8 -0
ar/wav2vec2-large-xlsr-53-arabic (elgeish)/pytorch_model.bin +3 -0
ar/wav2vec2-large-xlsr-53-arabic (elgeish)/source.txt +1 -0
ar/wav2vec2-large-xlsr-53-arabic (elgeish)/special_tokens_map.json +1 -0
ar/wav2vec2-large-xlsr-53-arabic (elgeish)/tokenizer_config.json +1 -0
ar/wav2vec2-large-xlsr-53-arabic (elgeish)/validation_wer.png +3 -0
ar/wav2vec2-large-xlsr-53-arabic (elgeish)/vocab.json +1 -0
ar/wav2vec2-large-xlsr-53-arabic/.gitattributes +17 -0
ar/wav2vec2-large-xlsr-53-arabic/README.md +200 -0
ar/wav2vec2-large-xlsr-53-arabic/config.json +76 -0
ar/wav2vec2-large-xlsr-53-arabic/flax_model.msgpack +3 -0
ar/wav2vec2-large-xlsr-53-arabic/preprocessor_config.json +8 -0
ar/wav2vec2-large-xlsr-53-arabic/pytorch_model.bin +3 -0
ar/wav2vec2-large-xlsr-53-arabic/source.txt +1 -0
ar/wav2vec2-large-xlsr-53-arabic/special_tokens_map.json +1 -0
ar/wav2vec2-large-xlsr-53-arabic/vocab.json +1 -0
de/wav2vec2-base-10k-voxpopuli-ft-de/.gitattributes +17 -0
de/wav2vec2-base-10k-voxpopuli-ft-de/README.md +69 -0
de/wav2vec2-base-10k-voxpopuli-ft-de/config.json +68 -0
de/wav2vec2-base-10k-voxpopuli-ft-de/preprocessor_config.json +9 -0
de/wav2vec2-base-10k-voxpopuli-ft-de/pytorch_model.bin +3 -0
de/wav2vec2-base-10k-voxpopuli-ft-de/source.txt +1 -0
de/wav2vec2-base-10k-voxpopuli-ft-de/special_tokens_map.json +1 -0
de/wav2vec2-base-10k-voxpopuli-ft-de/tokenizer_config.json +1 -0
de/wav2vec2-base-10k-voxpopuli-ft-de/vocab.json +1 -0
es/wav2vec2-large-es-voxpopuli/.gitattributes +17 -0
es/wav2vec2-large-es-voxpopuli/README.md +24 -0
es/wav2vec2-large-es-voxpopuli/config.json +83 -0
es/wav2vec2-large-es-voxpopuli/flax_model.msgpack +3 -0
es/wav2vec2-large-es-voxpopuli/preprocessor_config.json +9 -0
es/wav2vec2-large-es-voxpopuli/pytorch_model.bin +3 -0
es/wav2vec2-large-es-voxpopuli/source.txt +1 -0
fa/wav2vec2-large-xlsr-53-persian/.gitattributes +17 -0
fa/wav2vec2-large-xlsr-53-persian/README.md +195 -0
fa/wav2vec2-large-xlsr-53-persian/config.json +76 -0
fa/wav2vec2-large-xlsr-53-persian/flax_model.msgpack +3 -0
fa/wav2vec2-large-xlsr-53-persian/issues.txt +9 -0
fa/wav2vec2-large-xlsr-53-persian/preprocessor_config.json +8 -0
fa/wav2vec2-large-xlsr-53-persian/pytorch_model.bin +3 -0
fa/wav2vec2-large-xlsr-53-persian/source.txt +1 -0
fa/wav2vec2-large-xlsr-53-persian/special_tokens_map.json +1 -0
fa/wav2vec2-large-xlsr-53-persian/vocab.json +1 -0
fa/wav2vec2-large-xlsr-persian-v3/.gitattributes +17 -0
fa/wav2vec2-large-xlsr-persian-v3/README.md +236 -0
fa/wav2vec2-large-xlsr-persian-v3/config.json +76 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,10 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+ar/wav2vec2-large-xlsr-53-arabic[[:space:]](elgeish)/validation_wer.png filter=lfs diff=lfs merge=lfs -text
+fa/wav2vec2-large-xlsr-persian-v3/sample2978.flac filter=lfs diff=lfs merge=lfs -text
+he/wav2vec2-xls-r-300m-lm-hebrew/language_model/unigrams.txt filter=lfs diff=lfs merge=lfs -text
+multi/wav2vec2-xlsr-53-espeak-cv-ft/img[[:space:]](issue[[:space:]]10).jpeg filter=lfs diff=lfs merge=lfs -text
+ru/wav2vec2-large-xlsr-53-russian/language_model/lm.binary filter=lfs diff=lfs merge=lfs -text
+ru/wav2vec2-large-xlsr-53-russian/language_model/unigrams.txt filter=lfs diff=lfs merge=lfs -text
+uk/w2v-xls-r-uk/language_model/lm.binary filter=lfs diff=lfs merge=lfs -text

ar/wav2vec2-large-xlsr-53-arabic (elgeish)/.gitattributes ADDED Viewed

	@@ -0,0 +1,17 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text

ar/wav2vec2-large-xlsr-53-arabic (elgeish)/README.md ADDED Viewed

	@@ -0,0 +1,206 @@

+---
+language: ar
+datasets:
+- arabic_speech_corpus
+- mozilla-foundation/common_voice_6_1
+metrics:
+- wer
+tags:
+- audio
+- automatic-speech-recognition
+- speech
+- xlsr-fine-tuning-week
+- hf-asr-leaderboard
+license: apache-2.0
+model-index:
+- name: elgeish-wav2vec2-large-xlsr-53-arabic
+  results:
+  - task:
+      name: Automatic Speech Recognition
+      type: automatic-speech-recognition
+    dataset:
+      name: Common Voice 6.1 (Arabic)
+      type: mozilla-foundation/common_voice_6_1
+      config: ar
+      split: test
+      args:
+        language: ar
+    metrics:
+       - name: Test WER
+         type: wer
+         value: 26.55
+       - name: Validation WER
+         type: wer
+         value: 23.39
+---
+# Wav2Vec2-Large-XLSR-53-Arabic
+Fine-tuned [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53)
+on Arabic using the `train` splits of [Common Voice](https://huggingface.co/datasets/common_voice)
+and [Arabic Speech Corpus](https://huggingface.co/datasets/arabic_speech_corpus).
+When using this model, make sure that your speech input is sampled at 16kHz.
+## Usage
+The model can be used directly (without a language model) as follows:
+```python
+import torch
+import torchaudio
+from datasets import load_dataset
+from lang_trans.arabic import buckwalter
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+dataset = load_dataset("common_voice", "ar", split="test[:10]")
+resamplers = {  # all three sampling rates exist in test split
+    48000: torchaudio.transforms.Resample(48000, 16000),
+    44100: torchaudio.transforms.Resample(44100, 16000),
+    32000: torchaudio.transforms.Resample(32000, 16000),
+}
+def prepare_example(example):
+    speech, sampling_rate = torchaudio.load(example["path"])
+    example["speech"] = resamplers[sampling_rate](speech).squeeze().numpy()
+    return example
+dataset = dataset.map(prepare_example)
+processor = Wav2Vec2Processor.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic")
+model = Wav2Vec2ForCTC.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic").eval()
+def predict(batch):
+    inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        predicted = torch.argmax(model(inputs.input_values).logits, dim=-1)
+    predicted[predicted == -100] = processor.tokenizer.pad_token_id  # see fine-tuning script
+    batch["predicted"] = processor.tokenizer.batch_decode(predicted)
+    return batch
+dataset = dataset.map(predict, batched=True, batch_size=1, remove_columns=["speech"])
+for reference, predicted in zip(dataset["sentence"], dataset["predicted"]):
+    print("reference:", reference)
+    print("predicted:", buckwalter.untrans(predicted))
+    print("--")
+```
+Here's the output:
+```
+reference: ألديك قلم ؟
+predicted: هلديك قالر
+--
+reference: ليست هناك مسافة على هذه الأرض أبعد من يوم أمس.
+predicted: ليست نالك مسافة على هذه الأرض أبعد من يوم أمس
+--
+reference: إنك تكبر المشكلة.
+predicted: إنك تكبر المشكلة
+--
+reference: يرغب أن يلتقي بك.
+predicted: يرغب أن يلتقي بك
+--
+reference: إنهم لا يعرفون لماذا حتى.
+predicted: إنهم لا يعرفون لماذا حتى
+--
+reference: سيسعدني مساعدتك أي وقت تحب.
+predicted: سيسئدني مساعد سكرأي وقت تحب
+--
+reference: أَحَبُّ نظريّة علمية إليّ هي أن حلقات زحل مكونة بالكامل من الأمتعة المفقودة.
+predicted: أحب ناضريةً علمية إلي  هي أنحل قتزح المكونا بالكامل من الأمت عن المفقودة
+--
+reference: سأشتري له قلماً.
+predicted: سأشتري له قلما
+--
+reference: أين المشكلة ؟
+predicted: أين المشكل
+--
+reference: وَلِلَّهِ يَسْجُدُ مَا فِي السَّمَاوَاتِ وَمَا فِي الْأَرْضِ مِنْ دَابَّةٍ وَالْمَلَائِكَةُ وَهُمْ لَا يَسْتَكْبِرُونَ
+predicted: ولله يسجد ما في السماوات وما في الأرض من دابة والملائكة وهم لا يستكبرون
+--
+```
+## Evaluation
+The model can be evaluated as follows on the Arabic test data of Common Voice:
+```python
+import jiwer
+import torch
+import torchaudio
+from datasets import load_dataset
+from lang_trans.arabic import buckwalter
+from transformers import set_seed, Wav2Vec2ForCTC, Wav2Vec2Processor
+set_seed(42)
+test_split = load_dataset("common_voice", "ar", split="test")
+resamplers = {  # all three sampling rates exist in test split
+    48000: torchaudio.transforms.Resample(48000, 16000),
+    44100: torchaudio.transforms.Resample(44100, 16000),
+    32000: torchaudio.transforms.Resample(32000, 16000),
+}
+def prepare_example(example):
+    speech, sampling_rate = torchaudio.load(example["path"])
+    example["speech"] = resamplers[sampling_rate](speech).squeeze().numpy()
+    return example
+test_split = test_split.map(prepare_example)
+processor = Wav2Vec2Processor.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic")
+model = Wav2Vec2ForCTC.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic").to("cuda").eval()
+def predict(batch):
+    inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        predicted = torch.argmax(model(inputs.input_values.to("cuda")).logits, dim=-1)
+    predicted[predicted == -100] = processor.tokenizer.pad_token_id  # see fine-tuning script
+    batch["predicted"] = processor.batch_decode(predicted)
+    return batch
+test_split = test_split.map(predict, batched=True, batch_size=16, remove_columns=["speech"])
+transformation = jiwer.Compose([
+    # normalize some diacritics, remove punctuation, and replace Persian letters with Arabic ones
+    jiwer.SubstituteRegexes({
+        r'[auiFNKo\~_،؟»\?;:\-,\.؛«!"]': "", "\u06D6": "",
+        r"[\|\{]": "A", "p": "h", "ک": "k", "ی": "y"}),
+    # default transformation below
+    jiwer.RemoveMultipleSpaces(),
+    jiwer.Strip(),
+    jiwer.SentencesToListOfWords(),
+    jiwer.RemoveEmptyStrings(),
+])
+metrics = jiwer.compute_measures(
+    truth=[buckwalter.trans(s) for s in test_split["sentence"]],  # Buckwalter transliteration
+    hypothesis=test_split["predicted"],
+    truth_transform=transformation,
+    hypothesis_transform=transformation,
+)
+print(f"WER: {metrics['wer']:.2%}")
+```
+**Test Result**: 26.55%
+## Training
+For more details, see [Fine-Tuning with Arabic Speech Corpus](https://github.com/huggingface/transformers/tree/1c06240e1b3477728129bb58e7b6c7734bb5074e/examples/research_projects/wav2vec2#fine-tuning-with-arabic-speech-corpus).
+This model represents Arabic in a format called [Buckwalter transliteration](https://en.wikipedia.org/wiki/Buckwalter_transliteration).
+The Buckwalter format only includes ASCII characters, some of which are non-alpha (e.g., `">"` maps to `"أ"`).
+The [lang-trans](https://github.com/kariminf/lang-trans) package is used to convert (transliterate) Arabic abjad.
+[This script](https://github.com/huggingface/transformers/blob/1c06240e1b3477728129bb58e7b6c7734bb5074e/examples/research_projects/wav2vec2/finetune_large_xlsr_53_arabic_speech_corpus.sh)
+was used to first fine-tune [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53)
+on the `train` split of the [Arabic Speech Corpus](https://huggingface.co/datasets/arabic_speech_corpus) dataset;
+the `test` split was used for model selection; the resulting model at this point is saved as [elgeish/wav2vec2-large-xlsr-53-levantine-arabic](https://huggingface.co/elgeish/wav2vec2-large-xlsr-53-levantine-arabic).
+Training was then resumed using the `train` split of the [Common Voice](https://huggingface.co/datasets/common_voice) dataset;
+the `validation` split was used for model selection;
+training was stopped to meet the deadline of [Fine-Tune-XLSR Week](https://github.com/huggingface/transformers/blob/700229f8a4003c4f71f29275e0874b5ba58cd39d/examples/research_projects/wav2vec2/FINE_TUNE_XLSR_WAV2VEC2.md):
+this model is the checkpoint at 100k steps and a validation WER of **23.39%**.
+<img src="https://huggingface.co/elgeish/wav2vec2-large-xlsr-53-arabic/raw/main/validation_wer.png" alt="Validation WER" width="100%" />
+It's worth noting that validation WER is trending down, indicating the potential of further training (resuming the decaying learning rate at 7e-6).
+## Future Work
+One area to explore is using `attention_mask` in model input, which is recommended [here](https://huggingface.co/blog/fine-tune-xlsr-wav2vec2).
+Also, exploring data augmentation using datasets used to train models listed [here](https://paperswithcode.com/sota/speech-recognition-on-common-voice-arabic).

ar/wav2vec2-large-xlsr-53-arabic (elgeish)/config.json ADDED Viewed

	@@ -0,0 +1,69 @@

+{
+  "_name_or_path": "elgeish/wav2vec2-large-xlsr-53-arabic",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "final_dropout": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_prob": 0.05,
+  "model_type": "wav2vec2",
+  "num_attention_heads": 16,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "transformers_version": "4.4.0.dev0",
+  "vocab_size": 56
+}

ar/wav2vec2-large-xlsr-53-arabic (elgeish)/flax_model.msgpack ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50f263c94e388555ccc40d13e8086de5222f7ca3a4aa20c4cad8232076e92fd4
+size 1261999872

ar/wav2vec2-large-xlsr-53-arabic (elgeish)/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "do_normalize": true,
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}

ar/wav2vec2-large-xlsr-53-arabic (elgeish)/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe4a13489e50820edbd709e85699dd87beeff5387e8c40d16860b10efb964547
+size 1262163415

ar/wav2vec2-large-xlsr-53-arabic (elgeish)/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/elgeish/wav2vec2-large-xlsr-53-arabic

ar/wav2vec2-large-xlsr-53-arabic (elgeish)/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}

ar/wav2vec2-large-xlsr-53-arabic (elgeish)/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "<pad>", "do_lower_case": false, "word_delimiter_token": "/", "return_attention_mask": false, "do_normalize": true, "special_tokens_map_file": "special_tokens_map.json", "name_or_path": "elgeish/wav2vec2-large-xlsr-53-arabic"}

ar/wav2vec2-large-xlsr-53-arabic (elgeish)/validation_wer.png ADDED Viewed

Git LFS Details

SHA256: 0fbdcedb6b204cc77c6728b76d7fa1e7f5c8b75748fe06df6bb03933f46fb5c4
Pointer size: 131 Bytes
Size of remote file: 109 kB

ar/wav2vec2-large-xlsr-53-arabic (elgeish)/vocab.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "/": 4, "'": 5, "|": 6, ">": 7, "&": 8, "<": 9, "}": 10, "A": 11, "b": 12, "p": 13, "t": 14, "v": 15, "j": 16, "H": 17, "x": 18, "d": 19, "*": 20, "r": 21, "z": 22, "s": 23, "$": 24, "S": 25, "D": 26, "T": 27, "Z": 28, "E": 29, "g": 30, "_": 31, "f": 32, "q": 33, "k": 34, "l": 35, "m": 36, "n": 37, "h": 38, "w": 39, "Y": 40, "y": 41, "F": 42, "N": 43, "K": 44, "a": 45, "u": 46, "i": 47, "~": 48, "o": 49, "`": 50, "{": 51, "P": 52, "J": 53, "V": 54, "G": 55}

ar/wav2vec2-large-xlsr-53-arabic/.gitattributes ADDED Viewed

	@@ -0,0 +1,17 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text

ar/wav2vec2-large-xlsr-53-arabic/README.md ADDED Viewed

	@@ -0,0 +1,200 @@

+---
+language: ar
+datasets:
+- common_voice
+- arabic_speech_corpus
+metrics:
+- wer
+- cer
+tags:
+- audio
+- automatic-speech-recognition
+- speech
+- xlsr-fine-tuning-week
+license: apache-2.0
+model-index:
+- name: XLSR Wav2Vec2 Arabic by Jonatas Grosman
+  results:
+  - task:
+      name: Speech Recognition
+      type: automatic-speech-recognition
+    dataset:
+      name: Common Voice ar
+      type: common_voice
+      args: ar
+    metrics:
+       - name: Test WER
+         type: wer
+         value: 39.59
+       - name: Test CER
+         type: cer
+         value: 18.18
+---
+# Fine-tuned XLSR-53 large model for speech recognition in Arabic
+Fine-tuned [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on Arabic using the train and validation splits of [Common Voice 6.1](https://huggingface.co/datasets/common_voice) and [Arabic Speech Corpus](https://huggingface.co/datasets/arabic_speech_corpus).
+When using this model, make sure that your speech input is sampled at 16kHz.
+This model has been fine-tuned thanks to the GPU credits generously given by the [OVHcloud](https://www.ovhcloud.com/en/public-cloud/ai-training/) :)
+The script used for training can be found here: https://github.com/jonatasgrosman/wav2vec2-sprint
+## Usage
+The model can be used directly (without a language model) as follows...
+Using the [HuggingSound](https://github.com/jonatasgrosman/huggingsound) library:
+```python
+from huggingsound import SpeechRecognitionModel
+model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-arabic")
+audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]
+transcriptions = model.transcribe(audio_paths)
+```
+Writing your own inference script:
+```python
+import torch
+import librosa
+from datasets import load_dataset
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+LANG_ID = "ar"
+MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-arabic"
+SAMPLES = 10
+test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
+processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
+model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
+# Preprocessing the datasets.
+# We need to read the audio files as arrays
+def speech_file_to_array_fn(batch):
+    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
+    batch["speech"] = speech_array
+    batch["sentence"] = batch["sentence"].upper()
+    return batch
+test_dataset = test_dataset.map(speech_file_to_array_fn)
+inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
+with torch.no_grad():
+    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
+predicted_ids = torch.argmax(logits, dim=-1)
+predicted_sentences = processor.batch_decode(predicted_ids)
+for i, predicted_sentence in enumerate(predicted_sentences):
+    print("-" * 100)
+    print("Reference:", test_dataset[i]["sentence"])
+    print("Prediction:", predicted_sentence)
+```
+| Reference  | Prediction |
+| ------------- | ------------- |
+| ألديك قلم ؟ | ألديك قلم |
+| ليست هناك مسافة على هذه الأرض أبعد من يوم أمس. | ليست نالك مسافة على هذه الأرض أبعد من يوم الأمس  م |
+| إنك تكبر المشكلة. | إنك تكبر المشكلة |
+| يرغب أن يلتقي بك. | يرغب أن يلتقي بك |
+| إنهم لا يعرفون لماذا حتى. | إنهم لا يعرفون لماذا حتى |
+| سيسعدني مساعدتك أي وقت تحب. | سيسئدنيمساعدتك أي وقد تحب |
+| أَحَبُّ نظريّة علمية إليّ هي أن حلقات زحل مكونة بالكامل من الأمتعة المفقودة. | أحب نظرية علمية إلي  هي أن حل قتزح المكوينا بالكامل من الأمت عن المفقودة |
+| سأشتري له قلماً. | سأشتري له قلما |
+| أين المشكلة ؟ | أين المشكل |
+| وَلِلَّهِ يَسْجُدُ مَا فِي السَّمَاوَاتِ وَمَا فِي الْأَرْضِ مِنْ دَابَّةٍ وَالْمَلَائِكَةُ وَهُمْ لَا يَسْتَكْبِرُونَ | ولله يسجد ما في السماوات وما في الأرض من دابة والملائكة وهم لا يستكبرون |
+## Evaluation
+The model can be evaluated as follows on the Arabic test data of Common Voice.
+```python
+import torch
+import re
+import librosa
+from datasets import load_dataset, load_metric
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+LANG_ID = "ar"
+MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-arabic"
+DEVICE = "cuda"
+CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
+                  "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
+                  "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
+                  "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
+                  "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "'", "ʻ", "ˆ"]
+test_dataset = load_dataset("common_voice", LANG_ID, split="test")
+wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
+cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py
+chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"
+processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
+model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
+model.to(DEVICE)
+# Preprocessing the datasets.
+# We need to read the audio files as arrays
+def speech_file_to_array_fn(batch):
+    with warnings.catch_warnings():
+        warnings.simplefilter("ignore")
+        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
+    batch["speech"] = speech_array
+    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
+    return batch
+test_dataset = test_dataset.map(speech_file_to_array_fn)
+# Preprocessing the datasets.
+# We need to read the audio files as arrays
+def evaluate(batch):
+    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    batch["pred_strings"] = processor.batch_decode(pred_ids)
+    return batch
+result = test_dataset.map(evaluate, batched=True, batch_size=8)
+predictions = [x.upper() for x in result["pred_strings"]]
+references = [x.upper() for x in result["sentence"]]
+print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
+print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
+```
+**Test Result**:
+In the table below I report the Word Error Rate (WER) and the Character Error Rate (CER) of the model. I ran the evaluation script described above on other models as well (on 2021-05-14). Note that the table below may show different results from those already reported, this may have been caused due to some specificity of the other evaluation scripts used.
+| Model | WER | CER |
+| ------------- | ------------- | ------------- |
+| jonatasgrosman/wav2vec2-large-xlsr-53-arabic | **39.59%** | **18.18%** |
+| bakrianoo/sinai-voice-ar-stt | 45.30% | 21.84% |
+| othrif/wav2vec2-large-xlsr-arabic | 45.93% | 20.51% |
+| kmfoda/wav2vec2-large-xlsr-arabic | 54.14% | 26.07% |
+| mohammed/wav2vec2-large-xlsr-arabic | 56.11% | 26.79% |
+| anas/wav2vec2-large-xlsr-arabic | 62.02% | 27.09% |
+| elgeish/wav2vec2-large-xlsr-53-arabic | 100.00% | 100.56% |
+## Citation
+If you want to cite this model you can use this:
+```bibtex
+@misc{grosman2021xlsr53-large-arabic,
+  title={Fine-tuned {XLSR}-53 large model for speech recognition in {A}rabic},
+  author={Grosman, Jonatas},
+  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-arabic}},
+  year={2021}
+}
+```

ar/wav2vec2-large-xlsr-53-arabic/config.json ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+  "_name_or_path": "facebook/wav2vec2-large-xlsr-53",
+  "activation_dropout": 0.05,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": true,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.05,
+  "final_dropout": 0.0,
+  "gradient_checkpointing": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.05,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_attention_heads": 16,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "transformers_version": "4.5.0.dev0",
+  "vocab_size": 51
+}

ar/wav2vec2-large-xlsr-53-arabic/flax_model.msgpack ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b44a67c277854fbcd96179ee8bfedb9f03f3826efc2af35f8eb9b964fd0df2b1
+size 1261979372

ar/wav2vec2-large-xlsr-53-arabic/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "do_normalize": true,
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

ar/wav2vec2-large-xlsr-53-arabic/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0b26f6d9d3edfde1784aef863c192a8cc1e438a23b45910ab648531ebe1857b
+size 1262142936

ar/wav2vec2-large-xlsr-53-arabic/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-arabic

ar/wav2vec2-large-xlsr-53-arabic/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}

ar/wav2vec2-large-xlsr-53-arabic/vocab.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "|": 4, "-": 5, "ء": 6, "آ": 7, "أ": 8, "ؤ": 9, "إ": 10, "ئ": 11, "ا": 12, "ب": 13, "ة": 14, "ت": 15, "ث": 16, "ج": 17, "ح": 18, "خ": 19, "د": 20, "ذ": 21, "ر": 22, "ز": 23, "س": 24, "ش": 25, "ص": 26, "ض": 27, "ط": 28, "ظ": 29, "ع": 30, "غ": 31, "ـ": 32, "ف": 33, "ق": 34, "ك": 35, "ل": 36, "م": 37, "ن": 38, "ه": 39, "و": 40, "ى": 41, "ي": 42, "ً": 43, "ٌ": 44, "ٍ": 45, "َ": 46, "ُ": 47, "ِ": 48, "ّ": 49, "ْ": 50}

de/wav2vec2-base-10k-voxpopuli-ft-de/.gitattributes ADDED Viewed

	@@ -0,0 +1,17 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text

de/wav2vec2-base-10k-voxpopuli-ft-de/README.md ADDED Viewed

	@@ -0,0 +1,69 @@

+---
+language: de
+tags:
+- audio
+- automatic-speech-recognition
+- voxpopuli
+license: cc-by-nc-4.0
+---
+# Wav2Vec2-Base-VoxPopuli-Finetuned
+[Facebook's Wav2Vec2](https://ai.facebook.com/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-audio/) base model pretrained on the 10K unlabeled subset of [VoxPopuli corpus](https://arxiv.org/abs/2101.00390) and fine-tuned on the transcribed data in de (refer to Table 1 of paper for more information).
+**Paper**: *[VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation
+Learning, Semi-Supervised Learning and Interpretation](https://arxiv.org/abs/2101.00390)*
+**Authors**: *Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux* from *Facebook AI*
+See the official website for more information, [here](https://github.com/facebookresearch/voxpopuli/)
+# Usage for inference
+In the following it is shown how the model can be used in inference on a sample of the [Common Voice dataset](https://commonvoice.mozilla.org/en/datasets)
+```python
+#!/usr/bin/env python3
+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+from datasets import load_dataset
+import torchaudio
+import torch
+# resample audio
+# load model & processor
+model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-de")
+processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-de")
+# load dataset
+ds = load_dataset("common_voice", "de", split="validation[:1%]")
+# common voice does not match target sampling rate
+common_voice_sample_rate = 48000
+target_sample_rate = 16000
+resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)
+# define mapping fn to read in sound file and resample
+def map_to_array(batch):
+    speech, _ = torchaudio.load(batch["path"])
+    speech = resampler(speech)
+    batch["speech"] = speech[0]
+    return batch
+# load all audio files
+ds = ds.map(map_to_array)
+# run inference on the first 5 data samples
+inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)
+# inference
+logits = model(**inputs).logits
+predicted_ids = torch.argmax(logits, axis=-1)
+print(processor.batch_decode(predicted_ids))
+```

de/wav2vec2-base-10k-voxpopuli-ft-de/config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "activation_dropout": 0.1,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.1,
+  "final_dropout": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_prob": 0.05,
+  "model_type": "wav2vec2",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "transformers_version": "4.6.0.dev0",
+  "vocab_size": 36
+}

de/wav2vec2-base-10k-voxpopuli-ft-de/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}

de/wav2vec2-base-10k-voxpopuli-ft-de/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6744100ba037593b22fac95738074e7cf6c1d9c94f0bfa0e76c3cf863b25741f
+size 377684844

de/wav2vec2-base-10k-voxpopuli-ft-de/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/facebook/wav2vec2-base-10k-voxpopuli-ft-de

de/wav2vec2-base-10k-voxpopuli-ft-de/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}

de/wav2vec2-base-10k-voxpopuli-ft-de/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "<pad>", "do_lower_case": false, "word_delimiter_token": "\|"}

de/wav2vec2-base-10k-voxpopuli-ft-de/vocab.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "\|": 4, "e": 5, "n": 6, "i": 7, "r": 8, "s": 9, "t": 10, "a": 11, "d": 12, "h": 13, "u": 14, "l": 15, "g": 16, "c": 17, "m": 18, "o": 19, "b": 20, "w": 21, "f": 22, "k": 23, "z": 24, "p": 25, "v": 26, "ü": 27, "ä": 28, "ö": 29, "j": 30, "ß": 31, "y": 32, "x": 33, "q": 34, "1": 35}

es/wav2vec2-large-es-voxpopuli/.gitattributes ADDED Viewed

	@@ -0,0 +1,17 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text

es/wav2vec2-large-es-voxpopuli/README.md ADDED Viewed

	@@ -0,0 +1,24 @@

+---
+language: es
+tags:
+- audio
+- automatic-speech-recognition
+- voxpopuli
+license: cc-by-nc-4.0
+---
+# Wav2Vec2-Large-VoxPopuli
+[Facebook's Wav2Vec2](https://ai.facebook.com/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-audio/) large model pretrained on the es unlabeled subset of [VoxPopuli corpus](https://arxiv.org/abs/2101.00390).
+**Paper**: *[VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation
+Learning, Semi-Supervised Learning and Interpretation](https://arxiv.org/abs/2101.00390)*
+**Authors**: *Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux* from *Facebook AI*
+See the official website for more information, [here](https://github.com/facebookresearch/voxpopuli/)
+# Fine-Tuning
+Please refer to [this blog](https://huggingface.co/blog/fine-tune-xlsr-wav2vec2) on how to fine-tune this model on a specific language. Note that you should replace `"facebook/wav2vec2-large-xlsr-53"` with this checkpoint for fine-tuning.

es/wav2vec2-large-es-voxpopuli/config.json ADDED Viewed

	@@ -0,0 +1,83 @@

+{
+  "activation_dropout": 0.0,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForPreTraining"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.075,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 768,
+  "transformers_version": "4.7.0.dev0",
+  "vocab_size": 32
+}

es/wav2vec2-large-es-voxpopuli/flax_model.msgpack ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad63febc6c296b8b3de75e39e739606d6bd239ab12c923b1dcdc176095dae2fd
+size 1269577963

es/wav2vec2-large-es-voxpopuli/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

es/wav2vec2-large-es-voxpopuli/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92aa5fa25e1dd02a474cea12b2d958eacd128126f9ee8e8ce89249986e5da762
+size 1269737156

es/wav2vec2-large-es-voxpopuli/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/facebook/wav2vec2-large-es-voxpopuli

fa/wav2vec2-large-xlsr-53-persian/.gitattributes ADDED Viewed

	@@ -0,0 +1,17 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text

fa/wav2vec2-large-xlsr-53-persian/README.md ADDED Viewed

	@@ -0,0 +1,195 @@

+---
+language: fa
+datasets:
+- common_voice
+metrics:
+- wer
+- cer
+tags:
+- audio
+- automatic-speech-recognition
+- speech
+- xlsr-fine-tuning-week
+license: apache-2.0
+model-index:
+- name: XLSR Wav2Vec2 Persian by Jonatas Grosman
+  results:
+  - task:
+      name: Speech Recognition
+      type: automatic-speech-recognition
+    dataset:
+      name: Common Voice fa
+      type: common_voice
+      args: fa
+    metrics:
+       - name: Test WER
+         type: wer
+         value: 30.12
+       - name: Test CER
+         type: cer
+         value: 7.37
+---
+# Fine-tuned XLSR-53 large model for speech recognition in Persian
+Fine-tuned [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on Persian using the train and validation splits of [Common Voice 6.1](https://huggingface.co/datasets/common_voice).
+When using this model, make sure that your speech input is sampled at 16kHz.
+This model has been fine-tuned thanks to the GPU credits generously given by the [OVHcloud](https://www.ovhcloud.com/en/public-cloud/ai-training/) :)
+The script used for training can be found here: https://github.com/jonatasgrosman/wav2vec2-sprint
+## Usage
+The model can be used directly (without a language model) as follows...
+Using the [HuggingSound](https://github.com/jonatasgrosman/huggingsound) library:
+```python
+from huggingsound import SpeechRecognitionModel
+model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-persian")
+audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]
+transcriptions = model.transcribe(audio_paths)
+```
+Writing your own inference script:
+```python
+import torch
+import librosa
+from datasets import load_dataset
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+LANG_ID = "fa"
+MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-persian"
+SAMPLES = 5
+test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
+processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
+model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
+# Preprocessing the datasets.
+# We need to read the audio files as arrays
+def speech_file_to_array_fn(batch):
+    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
+    batch["speech"] = speech_array
+    batch["sentence"] = batch["sentence"].upper()
+    return batch
+test_dataset = test_dataset.map(speech_file_to_array_fn)
+inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
+with torch.no_grad():
+    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
+predicted_ids = torch.argmax(logits, dim=-1)
+predicted_sentences = processor.batch_decode(predicted_ids)
+for i, predicted_sentence in enumerate(predicted_sentences):
+    print("-" * 100)
+    print("Reference:", test_dataset[i]["sentence"])
+    print("Prediction:", predicted_sentence)
+```
+| Reference  | Prediction |
+| ------------- | ------------- |
+| از مهمونداری کنار بکشم | از مهمانداری کنار بکشم |
+| برو از مهرداد بپرس. | برو از ماقدعاد به پرس |
+| خب ، تو چیكار می كنی؟ | خوب تو چیکار می کنی |
+| مسقط پایتخت عمان در عربی به معنای محل سقوط است | مسقط پایتخت عمان در عربی به بعنای محل سقوط است |
+| آه، نه اصلاُ! | اهنه اصلا |
+| توانست | توانست |
+| قصیده فن شعر میگوید ای دوستان | قصیده فن شعر میگوید ایدوستون |
+| دو استایل متفاوت دارین | دوبوست داریل و متفاوت بری |
+| دو روز قبل از کریسمس ؟ | اون مفتود پش پشش |
+| ساعت های کاری چیست؟ | این توری که موشیکل خب |
+## Evaluation
+The model can be evaluated as follows on the Persian test data of Common Voice.
+```python
+import torch
+import re
+import librosa
+from datasets import load_dataset, load_metric
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+LANG_ID = "fa"
+MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-persian"
+DEVICE = "cuda"
+CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
+                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
+                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
+                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
+                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]
+test_dataset = load_dataset("common_voice", LANG_ID, split="test")
+wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
+cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py
+chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"
+processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
+model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
+model.to(DEVICE)
+# Preprocessing the datasets.
+# We need to read the audio files as arrays
+def speech_file_to_array_fn(batch):
+    with warnings.catch_warnings():
+        warnings.simplefilter("ignore")
+        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
+    batch["speech"] = speech_array
+    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
+    return batch
+test_dataset = test_dataset.map(speech_file_to_array_fn)
+# Preprocessing the datasets.
+# We need to read the audio files as arrays
+def evaluate(batch):
+    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    batch["pred_strings"] = processor.batch_decode(pred_ids)
+    return batch
+result = test_dataset.map(evaluate, batched=True, batch_size=8)
+predictions = [x.upper() for x in result["pred_strings"]]
+references = [x.upper() for x in result["sentence"]]
+print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
+print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
+```
+**Test Result**:
+In the table below I report the Word Error Rate (WER) and the Character Error Rate (CER) of the model. I ran the evaluation script described above on other models as well (on 2021-04-22). Note that the table below may show different results from those already reported, this may have been caused due to some specificity of the other evaluation scripts used.
+| Model | WER | CER |
+| ------------- | ------------- | ------------- |
+| jonatasgrosman/wav2vec2-large-xlsr-53-persian | **30.12%** | **7.37%** |
+| m3hrdadfi/wav2vec2-large-xlsr-persian-v2 | 33.85% | 8.79% |
+| m3hrdadfi/wav2vec2-large-xlsr-persian | 34.37% | 8.98% |
+## Citation
+If you want to cite this model you can use this:
+```bibtex
+@misc{grosman2021xlsr53-large-persian,
+  title={Fine-tuned {XLSR}-53 large model for speech recognition in {P}ersian},
+  author={Grosman, Jonatas},
+  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-persian}},
+  year={2021}
+}
+```

fa/wav2vec2-large-xlsr-53-persian/config.json ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+  "_name_or_path": "facebook/wav2vec2-large-xlsr-53",
+  "activation_dropout": 0.05,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": true,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.05,
+  "final_dropout": 0.0,
+  "gradient_checkpointing": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.05,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_attention_heads": 16,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "transformers_version": "4.5.0.dev0",
+  "vocab_size": 67
+}

fa/wav2vec2-large-xlsr-53-persian/flax_model.msgpack ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1c25fc4a3db03fb9610f8d954703e5b1497168dac2d4a5e67eaf1e400badb1f
+size 1262044974

fa/wav2vec2-large-xlsr-53-persian/issues.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+=============================================================================
+#3 WER 30% is wrong in real world/test
+=============================================================================
+[mosipvp] Feb 9, 2025
+Dear Creator, I think you are sharing an unreasonable result. I was test this in "Farsi" and the result is absolutely f***ing.
+I think you don't speak Farsi/Persian, so please use a native Farsi as your assistant/advisor.
+But thank you for sharing this model.

fa/wav2vec2-large-xlsr-53-persian/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "do_normalize": true,
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

fa/wav2vec2-large-xlsr-53-persian/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b859c7f562a2cc3c6002c2eb5178b66777406c4fccf53f196ead46a4f6c4796
+size 1262208535

fa/wav2vec2-large-xlsr-53-persian/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-persian

fa/wav2vec2-large-xlsr-53-persian/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}

fa/wav2vec2-large-xlsr-53-persian/vocab.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "|": 4, "٬": 5, "و": 6, "ـ": 7, "ئ": 8, "ل": 9, "ج": 10, "ک": 11, "R": 12, "ِ": 13, "ع": 14, "َ": 15, "م": 16, "ض": 17, "-": 18, "I": 19, "F": 20, "ذ": 21, "ن": 22, "ژ": 23, "A": 24, "ش": 25, "ث": 26, "Y": 27, "د": 28, "ر": 29, "ّ": 30, "أ": 31, "ق": 32, "ب": 33, "ح": 34, "ظ": 35, "پ": 36, "ت": 37, "خ": 38, "غ": 39, "ط": 40, "ك": 41, "ي": 42, "E": 43, "Ā": 44, "؛": 45, "ی": 46, "چ": 47, "ه": 48, "M": 49, "ف": 50, "آ": 51, "ز": 52, "ص": 53, "س": 54, "گ": 55, "N": 56, "ُ": 57, "T": 58, "S": 59, "Š": 60, "ٔ": 61, "B": 62, "ء": 63, "ً": 64, "ا": 65, "ى": 66}

fa/wav2vec2-large-xlsr-persian-v3/.gitattributes ADDED Viewed

	@@ -0,0 +1,17 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

fa/wav2vec2-large-xlsr-persian-v3/README.md ADDED Viewed

	@@ -0,0 +1,236 @@

+---
+language: fa
+datasets:
+- common_voice
+tags:
+- audio
+- automatic-speech-recognition
+- speech
+- xlsr-fine-tuning-week
+widget:
+- example_title: Common Voice sample 1
+  src: https://huggingface.co/m3hrdadfi/wav2vec2-large-xlsr-persian-v3/resolve/main/sample1.flac
+- example_title: Common Voice sample 2978
+  src: https://huggingface.co/m3hrdadfi/wav2vec2-large-xlsr-persian-v3/resolve/main/sample2978.flac
+- example_title: Common Voice sample 5168
+  src: https://huggingface.co/m3hrdadfi/wav2vec2-large-xlsr-persian-v3/resolve/main/sample5168.flac
+model-index:
+- name: XLSR Wav2Vec2 Persian (Farsi) V3 by Mehrdad Farahani
+  results:
+  - task:
+      name: Speech Recognition
+      type: automatic-speech-recognition
+    dataset:
+      name: Common Voice fa
+      type: common_voice
+      args: fa
+    metrics:
+       - name: Test WER
+         type: wer
+         value: 10.36
+---
+# Wav2Vec2-Large-XLSR-53-Persian V3
+## Usage
+Fine-tuned [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) in Persian (Farsi) using [Common Voice](https://huggingface.co/datasets/common_voice). When using this model, make sure that your speech input is sampled at 16kHz.
+**Requirements**
+```bash
+# requirement packages
+!pip install git+https://github.com/huggingface/datasets.git
+!pip install git+https://github.com/huggingface/transformers.git
+!pip install torchaudio
+!pip install librosa
+!pip install jiwer
+!pip install parsivar
+!pip install num2fawords
+```
+**Normalizer**
+```bash
+# Normalizer
+!wget -O normalizer.py https://huggingface.co/m3hrdadfi/"wav2vec2-large-xlsr-persian-v3/raw/main/dictionary.py
+!wget -O normalizer.py https://huggingface.co/m3hrdadfi/"wav2vec2-large-xlsr-persian-v3/raw/main/normalizer.py
+```
+**Downloading data**
+```bash
+wget https://voice-prod-bundler-ee1969a6ce8178826482b88e843c335139bd3fb4.s3.amazonaws.com/cv-corpus-6.1-2020-12-11/fa.tar.gz
+tar -xzf fa.tar.gz
+rm -rf fa.tar.gz
+```
+**Cleaning**
+```python
+from normalizer import normalizer
+def cleaning(text):
+    if not isinstance(text, str):
+        return None
+    return normalizer({"sentence": text}, return_dict=False)
+data_dir = "/content/cv-corpus-6.1-2020-12-11/fa"
+test = pd.read_csv(f"{data_dir}/test.tsv", sep="	")
+test["path"] = data_dir + "/clips/" + test["path"]
+print(f"Step 0: {len(test)}")
+test["status"] = test["path"].apply(lambda path: True if os.path.exists(path) else None)
+test = test.dropna(subset=["path"])
+test = test.drop("status", 1)
+print(f"Step 1: {len(test)}")
+test["sentence"] = test["sentence"].apply(lambda t: cleaning(t))
+test = test.dropna(subset=["sentence"])
+print(f"Step 2: {len(test)}")
+test = test.reset_index(drop=True)
+print(test.head())
+test = test[["path", "sentence"]]
+test.to_csv("/content/test.csv", sep="	", encoding="utf-8", index=False)
+```
+**Prediction**
+```python
+import numpy as np
+import pandas as pd
+import librosa
+import torch
+import torchaudio
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+from datasets import load_dataset, load_metric
+import IPython.display as ipd
+model_name_or_path = "m3hrdadfi/wav2vec2-large-xlsr-persian-v3"
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(model_name_or_path, device)
+processor = Wav2Vec2Processor.from_pretrained(model_name_or_path)
+model = Wav2Vec2ForCTC.from_pretrained(model_name_or_path).to(device)
+def speech_file_to_array_fn(batch):
+    speech_array, sampling_rate = torchaudio.load(batch["path"])
+    speech_array = speech_array.squeeze().numpy()
+    speech_array = librosa.resample(np.asarray(speech_array), sampling_rate, processor.feature_extractor.sampling_rate)
+    batch["speech"] = speech_array
+    return batch
+def predict(batch):
+    features = processor(
+        batch["speech"],
+        sampling_rate=processor.feature_extractor.sampling_rate,
+        return_tensors="pt",
+        padding=True
+    )
+    input_values = features.input_values.to(device)
+    attention_mask = features.attention_mask.to(device)
+    with torch.no_grad():
+        logits = model(input_values, attention_mask=attention_mask).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    batch["predicted"] = processor.batch_decode(pred_ids)
+    return batch
+dataset = load_dataset("csv", data_files={"test": "/content/test.csv"}, delimiter="	")["test"]
+dataset = dataset.map(speech_file_to_array_fn)
+result = dataset.map(predict, batched=True, batch_size=4)
+```
+**WER Score**
+```python
+wer = load_metric("wer")
+print("WER: {:.2f}".format(100 * wer.compute(predictions=result["predicted"], references=result["sentence"])))
+```
+**Output**
+```python
+max_items = np.random.randint(0, len(result), 20).tolist()
+for i in max_items:
+    reference, predicted =  result["sentence"][i], result["predicted"][i]
+    print("reference:", reference)
+    print("predicted:", predicted)
+    print('---')
+```
+```text
+reference: ماجرا رو براش تعریف کردم او�� گفت مریم اگه میدونی پسر خوبیه خب چه اشکالی داره با‌هاش بیش‌تر اشنا بشو
+predicted: ماجرا رو براش تعریف کردم اون گفت مریم اگه میدونی پسر خوبیه خب چه اشکالی داره با‌هاش بیش‌تر اشنا بشو
+---
+reference: بیا پایین تو اجازه نداری بری اون بالا
+predicted: بیا پایین تو اجازه نداری بری اون بالا
+---
+reference: هر روز یک دو مداد کش می رفتتم تااین که تا پایان ترم از تمامی دوستانم مداد برداشته بودم
+predicted: هر روز یک دو مداد کش می رفتم تااین که تا پایین ترم از تمامی دوستان و مداد برداشته بودم
+---
+reference: فکر میکنی آروم میشینه
+predicted: فکر میکنی آروم میشینه
+---
+reference: هرکسی با گوشی هوشمند خود میتواند با کایلا متصل گردد در یک محدوده مکانی
+predicted: هرکسی با گوشی هوشمند خود میتواند با کایلا متصل گردد در یک محدوده مکانی
+---
+reference: برو از مهرداد بپرس
+predicted: برو از مهرداد بپرس
+---
+reference: می خواهم شما را با این قدم‌ها آشنا کنم
+predicted: می خواهم شما را با این قدم‌ها آشنا کنم
+---
+reference: میدونم یه روز دوباره می تونم تو رو ببینم
+predicted: میدونم یه روز دوباره می تونم تو رو ببینم
+---
+reference: بسیار خوب خواهد بود دعوت او را بپذیری
+predicted: بسیار خوب خواهد بود دعوت او را بپذیری
+---
+reference: بهت بگن آشغالی خوبه
+predicted: بهت بگن آشغالی خوبه
+---
+reference: چرا معاشرت با هم ایمانان ما را محفوظ نگه میدارد
+predicted: چرا معاشرت با هم ایمانان آ را م حفوظ نگه میدارد
+---
+reference: بولیوی پس از گویان فقیر‌ترین کشور آمریکای جنوبی است
+predicted: بولیوی پس از گویان فقیر‌ترین کشور آمریکای جنوبی است
+---
+reference: بعد از مدتی اینکار برایم عادی شد
+predicted: بعد از مدتی اینکار برایم عادو شد
+---
+reference: به نظر اون هم همینطوره
+predicted: به نظر اون هم همینطوره
+---
+reference: هیچ مایونز ی دارید
+predicted: هیچ مایونز ی دارید
+---
+reference: هیچ یک از انان کاری به سنگ نداشتند
+predicted: هیچ شک از انان کاری به سنگ نداشتند
+---
+reference: می خواهم کمی کتاب شعر ببینم
+predicted: می خواهم کتاب شعر ببینم
+---
+reference: همین شوهر فهیمه مگه نمی گفتی فرمانده بوده کو
+predicted: همین شوهر فهیمه بینامی گفتی فهمانده بود کو
+---
+reference: اون جا‌ها کسی رو نمیبینی که تو دستش کتاب نباشه
+predicted: اون جا‌ها کسی رو نمیبینی که تو دستش کتاب نباشه
+---
+reference: زندان رفتن من در این سال‌های اخیر برام شانس بزرگی بود که معما و مشکل چندین سال‌هام را حل کرد
+predicted: زندان رفتن من در این سال‌ها اخی براب شانس بزرگی بود که معما و مشکل چندین سال‌هام را حل کرد
+---
+```
+## Evaluation
+**Test Result:**
+- WER: 10.36%

fa/wav2vec2-large-xlsr-persian-v3/config.json ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+  "_name_or_path": "facebook/wav2vec2-large-xlsr-53",
+  "activation_dropout": 0.09216,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.05316,
+  "bos_token_id": 1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": true,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.01249,
+  "final_dropout": 0.0,
+  "gradient_checkpointing": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.01941,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.01377,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.04529,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_attention_heads": 16,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "transformers_version": "4.6.0.dev0",
+  "vocab_size": 40
+}