niobures commited on Mar 15

Commit

af9dea5

verified ·

1 Parent(s): 3ee9eb8

wav2vec2 (az, fa, te, uk)

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +12 -0
az/wav2vec2-large-mms-1b-azerbaijani/.gitattributes +35 -0
az/wav2vec2-large-mms-1b-azerbaijani/README.md +79 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter.az.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260105_102937.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260105_112030.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260105_143407.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260105_181040.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260106_074657.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260121_215230.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260122_003358.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260122_031538.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260122_055920.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260122_084159.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260210_233725.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260211_025645.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260211_061212.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260211_092612.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260211_124514.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260305_200504.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260305_232514.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260306_024541.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260306_060440.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260306_090420.pt +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/added_tokens.json +4 -0
az/wav2vec2-large-mms-1b-azerbaijani/config.json +108 -0
az/wav2vec2-large-mms-1b-azerbaijani/model.safetensors +3 -0
az/wav2vec2-large-mms-1b-azerbaijani/preprocessor_config.json +9 -0
az/wav2vec2-large-mms-1b-azerbaijani/source.txt +1 -0
az/wav2vec2-large-mms-1b-azerbaijani/special_tokens_map.json +6 -0
az/wav2vec2-large-mms-1b-azerbaijani/tokenizer_config.json +47 -0
az/wav2vec2-large-mms-1b-azerbaijani/vocab.json +40 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/.gitattributes +35 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/README.md +7 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/all_results.json +15 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/config.json +116 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/eval_results.json +9 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/model.safetensors +3 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/preprocessor_config.json +10 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/pytorch_model.bin +3 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/source.txt +1 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/special_tokens_map.json +6 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/tokenizer_config.json +15 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/train_results.json +9 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/trainer_state.json +58 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/training_args.bin +3 -0
fa/Persian-Speech-Transcription-Wav2Vec2-V1/vocab.json +42 -0
fa/Sharif-wav2vec2/.gitattributes +31 -0
fa/Sharif-wav2vec2/README.md +156 -0
fa/Sharif-wav2vec2/alphabet.json +45 -0

.gitattributes CHANGED Viewed

@@ -43,3 +43,15 @@ uk/w2v-xls-r-uk/language_model/lm.binary filter=lfs diff=lfs merge=lfs -text
 ar/Arabic_speech_Syllables_recognition_Using_Wav2vec2/Final[[:space:]]Paper[[:space:]]Syllable-Based[[:space:]]Arabic[[:space:]]Speech[[:space:]]Recognition[[:space:]]Using[[:space:]]Wav2Vec.pdf filter=lfs diff=lfs merge=lfs -text
 ar/asr-wav2vec2-commonvoice-14-ar/example-ar.wav filter=lfs diff=lfs merge=lfs -text
 ar/wav2vec2_ar_anz2/language_model/voctext.arpa filter=lfs diff=lfs merge=lfs -text

 ar/Arabic_speech_Syllables_recognition_Using_Wav2vec2/Final[[:space:]]Paper[[:space:]]Syllable-Based[[:space:]]Arabic[[:space:]]Speech[[:space:]]Recognition[[:space:]]Using[[:space:]]Wav2Vec.pdf filter=lfs diff=lfs merge=lfs -text
 ar/asr-wav2vec2-commonvoice-14-ar/example-ar.wav filter=lfs diff=lfs merge=lfs -text
 ar/wav2vec2_ar_anz2/language_model/voctext.arpa filter=lfs diff=lfs merge=lfs -text
+fa/Sharif-wav2vec2/language_model/5gram.arpa filter=lfs diff=lfs merge=lfs -text
+fa/Wav2Vec2-Large-XLSR-Persian-ShEMO/M16A01.wav filter=lfs diff=lfs merge=lfs -text
+fa/Wav2Vec2-Large-XLSR-Persian-ShEMO/wandb-loss.png filter=lfs diff=lfs merge=lfs -text
+fa/Wav2Vec2-Large-XLSR-Persian-ShEMO/wandb-wer.png filter=lfs diff=lfs merge=lfs -text
+uk/w2v-bert-uk-v2.1-iree-cpu/w2v2-cpu.vmfb filter=lfs diff=lfs merge=lfs -text
+uk/w2v-bert-uk-v2.1-iree-cpu/w2v2-fp16-cpu.vmfb filter=lfs diff=lfs merge=lfs -text
+uk/w2v-bert-uk-v2.1-iree-cuda/w2v2-cuda-optimized.vmfb filter=lfs diff=lfs merge=lfs -text
+uk/w2v-bert-uk-v2.1-iree-cuda/w2v2-cuda.vmfb filter=lfs diff=lfs merge=lfs -text
+uk/w2v-bert-uk-v2.1-iree-cuda/w2v2-fp16-cuda-optimized.vmfb filter=lfs diff=lfs merge=lfs -text
+uk/w2v-bert-uk-v2.1-iree-cuda/w2v2-fp16-cuda.vmfb filter=lfs diff=lfs merge=lfs -text
+uk/wav2vec2-xls-r-1b-uk-cv/language_model/unigrams.txt filter=lfs diff=lfs merge=lfs -text
+uk/wav2vec2-xls-r-1b-uk/language_model/unigrams.txt filter=lfs diff=lfs merge=lfs -text

az/wav2vec2-large-mms-1b-azerbaijani/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

az/wav2vec2-large-mms-1b-azerbaijani/README.md ADDED Viewed

	@@ -0,0 +1,79 @@

+---
+language:
+- az
+license: apache-2.0
+tags:
+- asr
+- speech-recognition
+- wav2vec2
+- mms
+- azerbaijani
+library_name: transformers
+pipeline_tag: automatic-speech-recognition
+---
+# Wav2Vec2 Large MMS 1B – Azerbaijani ASR
+This model is a **Wav2Vec2 Large MMS (1B parameters)** fine-tuned for **Azerbaijani (az)** speech recognition using an external adapter.
+The base model comes from Meta’s **Massively Multilingual Speech (MMS)** project, with a custom Azerbaijani adapter loaded at inference time.
+---
+## Model Details
+- **Base model:** facebook/wav2vec2-large-mms-1b
+- **Language:** Azerbaijani (`az`)
+- **Sampling rate:** 16 kHz
+- **Framework:** PyTorch
+- **Adapter file:** `adapter.az.pt`
+---
+## Usage
+### Installation
+pip install torch transformers numpy
+### Inference Example
+```python
+import torch
+import numpy as np
+import wave
+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+MODEL_ID = "tahmaz/wav2vec2-large-mms-1b-azerbaijani"
+SAMPLE_RATE = 16000
+device = "cuda" if torch.cuda.is_available() else "cpu"
+processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
+model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID).to(device)
+# Load adapter
+adapter_weights = torch.load(
+    "adapter.az.pt",  # or downloaded from HF
+    map_location=device
+)
+model.load_state_dict(adapter_weights, strict=False)
+model.eval()
+def transcribe_wav(path):
+    with wave.open(path, "rb") as wf:
+        audio = wf.readframes(wf.getnframes())
+    audio = np.frombuffer(audio, dtype=np.int16).astype(np.float32) / 32768.0
+    inputs = processor(
+        audio,
+        sampling_rate=SAMPLE_RATE,
+        return_tensors="pt"
+    ).to(device)
+    with torch.no_grad():
+        logits = model(**inputs).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    return processor.batch_decode(pred_ids)[0]
+print(transcribe_wav("sample.wav"))

az/wav2vec2-large-mms-1b-azerbaijani/adapter.az.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a88600c971d7bb0cad12495a9ea10446124464d73ab6c13e336735dc109d652
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260105_102937.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f8d1671d72d5a84562950a842a1528c6f9c3e9ccff482294a0bbc1afcf9b57f
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260105_112030.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e903582557dbdc06efffc76f0ca1f7fd6d171ea098f2bf5b14690a1bc685c94
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260105_143407.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f0ff90a1ba983158fff23f5bc8a29c2ec5fa5c60afcd4f061538fd76dc6b79b
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260105_181040.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffc524ddcfe1e15bd6d1b8e3c52e5ab58dd4abf00600d368a02b823800b011bc
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260106_074657.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cae29d2bf46a3967990c24ae06bd98ea4dfee0b184312875d3de32ddad59b13a
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260121_215230.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31ea191357f5e981ba06f3b1f656393ecf001d5b72281e22a47f8be8b8ce529a
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260122_003358.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca891ffb464fc9b1f55a90ea236eb46252560ad38c6d0d6024a9759e34fc11ef
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260122_031538.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4cd4cdf7f09254197561b80ea3c4d21906f6ea7b0c51c2a571ca642ad48e5f5
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260122_055920.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68b1de8d7c4209ec0bd827e9a2e88106e7fb1328e17d4cc0a6c1139df6a1965e
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260122_084159.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee82e177ce1a4298a82145c1838efeec5a8b670b52553c45544d46a298e87459
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260210_233725.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8785b7cef3a45e4d38475392bbe0d41c459550e49ae83db65274ca4209139c30
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260211_025645.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad57c6c2403d9c69f77b1abc6408353000368ef802aab148aa3fb639c388ba5f
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260211_061212.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15feaadb77e5ffa52f19ed622bfb49ebe7277f5c5907b2d3d3bfd256825b59e1
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260211_092612.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9653722619443663c64940017fe95a0ab71dc1756b8b3b2ed210c8a0f7040b37
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260211_124514.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02162fc4a09cf266ac6c9904238f8bb9eb06bd03a5053099a922ad45febbde14
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260305_200504.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0adb9df6bcb66ade02f135a77abbd6ef2bf85af9cba73a85e9129b26bb088eba
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260305_232514.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86525ef8f0f62298918445313464bd831f7c99ce5c995005bfa3dd993bf6bda8
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260306_024541.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da5284687ad84bd7d0b2d9f3a98725afd922f570272f05060486174ed6b299b8
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260306_060440.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c437f0b94c8106ab4b2ce97b2595e270562a208e9daf29a1f9b300abf9c12be
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/adapter_az_20260306_090420.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f466b20431d56455673c89305219cfab5ba98f2adb2c37bf2ca26c1f873fc7e
+size 8902835

az/wav2vec2-large-mms-1b-azerbaijani/added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "</s>": 37,
+  "<s>": 36
+}

az/wav2vec2-large-mms-1b-azerbaijani/config.json ADDED Viewed

	@@ -0,0 +1,108 @@

+{
+  "_name_or_path": "facebook/mms-1b-all",
+  "activation_dropout": 0.05,
+  "adapter_attn_dim": 16,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 1024,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.05,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 1280,
+  "initializer_range": 0.02,
+  "intermediate_size": 5120,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 48,
+  "num_negatives": 100,
+  "output_hidden_size": 1280,
+  "pad_token_id": 35,
+  "proj_codevector_dim": 1024,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 38,
+  "xvector_output_dim": 512
+}

az/wav2vec2-large-mms-1b-azerbaijani/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:662aac793ba8367e8a3dc5f821c842dd5de299d2dd9f6bf2999105a30267de8b
+size 3858926792

az/wav2vec2-large-mms-1b-azerbaijani/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

az/wav2vec2-large-mms-1b-azerbaijani/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/tahmaz/wav2vec2-large-mms-1b-azerbaijani

az/wav2vec2-large-mms-1b-azerbaijani/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "[PAD]",
+  "unk_token": "[UNK]"
+}

az/wav2vec2-large-mms-1b-azerbaijani/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,47 @@

+{
+  "added_tokens_decoder": {
+    "34": {
+      "content": "[UNK]",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "35": {
+      "content": "[PAD]",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "36": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "37": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "replace_word_delimiter_char": " ",
+  "target_lang": "azj-script_latin",
+  "tokenizer_class": "Wav2Vec2CTCTokenizer",
+  "unk_token": "[UNK]",
+  "word_delimiter_token": "|"
+}

az/wav2vec2-large-mms-1b-azerbaijani/vocab.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "azj-script_latin": {
+    "[PAD]": 35,
+    "[UNK]": 34,
+    "a": 1,
+    "b": 2,
+    "c": 3,
+    "d": 4,
+    "e": 5,
+    "f": 6,
+    "g": 7,
+    "h": 8,
+    "i": 9,
+    "j": 10,
+    "k": 11,
+    "l": 12,
+    "m": 13,
+    "n": 14,
+    "o": 15,
+    "p": 16,
+    "q": 17,
+    "r": 18,
+    "s": 19,
+    "t": 20,
+    "u": 21,
+    "v": 22,
+    "x": 23,
+    "y": 24,
+    "z": 25,
+    "|": 0,
+    "ç": 26,
+    "ö": 27,
+    "ü": 28,
+    "ğ": 29,
+    "ı": 30,
+    "ş": 31,
+    "ə": 32,
+    "̇": 33
+  }
+}

fa/Persian-Speech-Transcription-Wav2Vec2-V1/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

fa/Persian-Speech-Transcription-Wav2Vec2-V1/README.md ADDED Viewed

	@@ -0,0 +1,7 @@

+---
+license: mit
+language:
+- fa
+datasets:
+- SeyedAli/Persian-Audio-Dataset
+---

fa/Persian-Speech-Transcription-Wav2Vec2-V1/all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 0.51,
+    "eval_loss": 3.0585784912109375,
+    "eval_runtime": 16.4746,
+    "eval_samples": 200,
+    "eval_samples_per_second": 12.14,
+    "eval_steps_per_second": 3.035,
+    "eval_wer": 0.4547531992687386,
+    "total_flos": 1.746851843427936e+16,
+    "train_loss": 2.2491682052612303,
+    "train_runtime": 96.9606,
+    "train_samples": 154,
+    "train_samples_per_second": 0.794,
+    "train_steps_per_second": 0.206
+}

fa/Persian-Speech-Transcription-Wav2Vec2-V1/config.json ADDED Viewed

	@@ -0,0 +1,116 @@

+{
+  "_name_or_path": "/content/SeyedAli/Persian-Speech-Transcription-Wav2Vec2-V1",
+  "activation_dropout": 0.09216,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 256,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": true,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 256,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 40,
+  "xvector_output_dim": 512
+}

fa/Persian-Speech-Transcription-Wav2Vec2-V1/eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.51,
+    "eval_loss": 3.0585784912109375,
+    "eval_runtime": 16.4746,
+    "eval_samples": 200,
+    "eval_samples_per_second": 12.14,
+    "eval_steps_per_second": 3.035,
+    "eval_wer": 0.4547531992687386
+}

fa/Persian-Speech-Transcription-Wav2Vec2-V1/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f386fc4a2565639c78a08155bf6d817736bc1b4d7887ac6847b604567bd0d5a2
+size 1261971432

fa/Persian-Speech-Transcription-Wav2Vec2-V1/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "Wav2Vec2Processor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

fa/Persian-Speech-Transcription-Wav2Vec2-V1/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb3470b594f7415677cc5075fd4cdf3d0794d105c221c7a17ab9d99b10f87497
+size 1262065837

fa/Persian-Speech-Transcription-Wav2Vec2-V1/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/SeyedAli/Persian-Speech-Transcription-Wav2Vec2-V1

fa/Persian-Speech-Transcription-Wav2Vec2-V1/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

fa/Persian-Speech-Transcription-Wav2Vec2-V1/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "processor_class": "Wav2Vec2Processor",
+  "replace_word_delimiter_char": " ",
+  "target_lang": null,
+  "tokenizer_class": "Wav2Vec2CTCTokenizer",
+  "tokenizer_file": null,
+  "unk_token": "<unk>",
+  "word_delimiter_token": "|"
+}

fa/Persian-Speech-Transcription-Wav2Vec2-V1/train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.51,
+    "total_flos": 1.746851843427936e+16,
+    "train_loss": 2.2491682052612303,
+    "train_runtime": 96.9606,
+    "train_samples": 154,
+    "train_samples_per_second": 0.794,
+    "train_steps_per_second": 0.206
+}

fa/Persian-Speech-Transcription-Wav2Vec2-V1/trainer_state.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.5128205128205128,
+  "eval_steps": 10,
+  "global_step": 20,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.26,
+      "learning_rate": 1.8e-06,
+      "loss": 2.4415,
+      "step": 10
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 3.103879928588867,
+      "eval_runtime": 16.1503,
+      "eval_samples_per_second": 12.384,
+      "eval_steps_per_second": 3.096,
+      "eval_wer": 0.4556672760511883,
+      "step": 10
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 3.8e-06,
+      "loss": 2.0569,
+      "step": 20
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 3.0585784912109375,
+      "eval_runtime": 15.679,
+      "eval_samples_per_second": 12.756,
+      "eval_steps_per_second": 3.189,
+      "eval_wer": 0.4547531992687386,
+      "step": 20
+    },
+    {
+      "epoch": 0.51,
+      "step": 20,
+      "total_flos": 1.746851843427936e+16,
+      "train_loss": 2.2491682052612303,
+      "train_runtime": 96.9606,
+      "train_samples_per_second": 0.794,
+      "train_steps_per_second": 0.206
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 20,
+  "num_train_epochs": 1,
+  "save_steps": 10,
+  "total_flos": 1.746851843427936e+16,
+  "trial_name": null,
+  "trial_params": null
+}

fa/Persian-Speech-Transcription-Wav2Vec2-V1/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c107e295d8cbc38ab79f97ca32294ef152583c1e0713b6994d965eab56ae1790
+size 4091

fa/Persian-Speech-Transcription-Wav2Vec2-V1/vocab.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "</s>": 2,
+  "<pad>": 0,
+  "<s>": 1,
+  "<unk>": 3,
+  "|": 4,
+  "آ": 5,
+  "ئ": 6,
+  "ا": 7,
+  "ب": 8,
+  "ت": 9,
+  "ث": 10,
+  "ج": 11,
+  "ح": 12,
+  "خ": 13,
+  "د": 14,
+  "ذ": 15,
+  "ر": 16,
+  "ز": 17,
+  "س": 18,
+  "ش": 19,
+  "ص": 20,
+  "ض": 21,
+  "ط": 22,
+  "ظ": 23,
+  "ع": 24,
+  "غ": 25,
+  "ف": 26,
+  "ق": 27,
+  "ل": 28,
+  "م": 29,
+  "ن": 30,
+  "ه": 31,
+  "و": 32,
+  "پ": 33,
+  "چ": 34,
+  "ژ": 35,
+  "ک": 36,
+  "گ": 37,
+  "ی": 38,
+  "‌": 39
+}

fa/Sharif-wav2vec2/.gitattributes ADDED Viewed

	@@ -0,0 +1,31 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+*.arpa filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.txt filter=lfs diff=lfs merge=lfs -text

fa/Sharif-wav2vec2/README.md ADDED Viewed

	@@ -0,0 +1,156 @@

+---
+language: fa
+datasets:
+- common_voice_6_1
+tags:
+- audio
+- automatic-speech-recognition
+license: mit
+widget:
+- example_title: Common Voice Sample 1
+  src: https://datasets-server.huggingface.co/assets/common_voice/--/fa/train/0/audio/audio.mp3
+- example_title: Common Voice Sample 2
+  src: https://datasets-server.huggingface.co/assets/common_voice/--/fa/train/1/audio/audio.mp3
+model-index:
+- name: Sharif-wav2vec2
+  results:
+  - task:
+      name: Automatic Speech Recognition
+      type: automatic-speech-recognition
+    dataset:
+      name: Common Voice Corpus 6.1 (clean)
+      type: common_voice_6_1
+      config: clean
+      split: test
+      args:
+        language: fa
+    metrics:
+    - name: Test WER
+      type: wer
+      value: 6.0
+---
+# Sharif-wav2vec2
+This is a fine-tuned version of Sharif Wav2vec2 for Farsi. The base model went through a fine-tuning process in which 108 hours of Commonvoice's Farsi samples with a sampling rate equal to 16kHz. Afterward, we trained a 5gram using [kenlm](https://github.com/kpu/kenlm) toolkit and used it in the processor which increased our accuracy on online ASR.
+## Usage
+When using the model, ensure that your speech input is sampled at 16Khz. Prior to the usage, you may need to install the below dependencies:
+```shell
+pip install pyctcdecode
+pip install pypi-kenlm
+```
+For testing, you can use the hosted inference API at the hugging face (There are provided examples from common-voice). It may take a while to transcribe the given voice; Or you can use the bellow code for a local run:
+```python
+import tensorflow
+import torchaudio
+import torch
+import numpy as np
+from transformers import AutoProcessor, AutoModelForCTC
+processor = AutoProcessor.from_pretrained("SLPL/Sharif-wav2vec2")
+model = AutoModelForCTC.from_pretrained("SLPL/Sharif-wav2vec2")
+speech_array, sampling_rate = torchaudio.load("path/to/your.wav")
+speech_array = speech_array.squeeze().numpy()
+features = processor(
+    speech_array,
+    sampling_rate=processor.feature_extractor.sampling_rate,
+    return_tensors="pt",
+    padding=True)
+with torch.no_grad():
+    logits = model(
+        features.input_values,
+        attention_mask=features.attention_mask).logits
+    prediction = processor.batch_decode(logits.numpy()).text
+print(prediction[0])
+# تست
+```
+## Evaluation
+For the evaluation, you can use the code below. Ensure your dataset to be in following form in order to avoid any further conflict:
+| path | reference|
+|:----:|:--------:|
+| path/to/audio_file.wav | "TRANSCRIPTION" |
+also, make sure you have installed `pip install jiwer` prior to running.
+```python
+import tensorflow
+import torchaudio
+import torch
+import librosa
+from datasets import load_dataset,load_metric
+import numpy as np
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+from transformers import Wav2Vec2ProcessorWithLM
+model = Wav2Vec2ForCTC.from_pretrained("SLPL/Sharif-wav2vec2")
+processor = Wav2Vec2ProcessorWithLM.from_pretrained("SLPL/Sharif-wav2vec2")
+def speech_file_to_array_fn(batch):
+    speech_array, sampling_rate = torchaudio.load(batch["path"])
+    speech_array = speech_array.squeeze().numpy()
+    speech_array = librosa.resample(
+        np.asarray(speech_array),
+        sampling_rate,
+        processor.feature_extractor.sampling_rate)
+    batch["speech"] = speech_array
+    return batch
+def predict(batch):
+    features = processor(
+        batch["speech"],
+        sampling_rate=processor.feature_extractor.sampling_rate,
+        return_tensors="pt",
+        padding=True
+    )
+    with torch.no_grad():
+        logits = model(
+            features.input_values,
+            attention_mask=features.attention_mask).logits
+    batch["prediction"] = processor.batch_decode(logits.numpy()).text
+    return batch
+dataset = load_dataset(
+    "csv",
+    data_files={"test":"dataset.eval.csv"},
+    delimiter=",")["test"]
+dataset = dataset.map(speech_file_to_array_fn)
+result = dataset.map(predict, batched=True, batch_size=4)
+wer = load_metric("wer")
+print("WER: {:.2f}".format(wer.compute(
+    predictions=result["prediction"],
+    references=result["reference"])))
+```
+*Result (WER) on common-voice 6.1*:
+| cleaned | other |
+|:---:|:---:|
+| 0.06 | 0.16 |
+## Citation
+If you want to cite this model you can use this:
+```bibtex
+?
+```
+### Contributions
+Thanks to [@sarasadeghii](https://github.com/Sarasadeghii) and [@sadrasabouri](https://github.com/sadrasabouri) for adding this model.

fa/Sharif-wav2vec2/alphabet.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "labels": [
+    "",
+    "<s>",
+    "</s>",
+    "⁇",
+    " ",
+    "آ",
+    "ئ",
+    "ا",
+    "ب",
+    "ت",
+    "ث",
+    "ج",
+    "ح",
+    "خ",
+    "د",
+    "ذ",
+    "ر",
+    "ز",
+    "س",
+    "ش",
+    "ص",
+    "ض",
+    "ط",
+    "ظ",
+    "ع",
+    "غ",
+    "ف",
+    "ق",
+    "ل",
+    "م",
+    "ن",
+    "ه",
+    "و",
+    "پ",
+    "چ",
+    "ژ",
+    "ک",
+    "گ",
+    "ی",
+    "‌"
+  ],
+  "is_bpe": false
+}