Dhivehi XLS-R CTC (fine-tuned)

Fine-tuned facebook/wav2vec2-xls-r-300m on alakxender/dhivehi-audio-casts.

Usage

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import torch

repo = "{REPO_ID}"
processor = Wav2Vec2Processor.from_pretrained(repo)
model = Wav2Vec2ForCTC.from_pretrained(repo)

# audio: 16kHz mono float32 numpy array
inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(**inputs).logits
pred_ids = torch.argmax(logits, dim=-1)
text = processor.batch_decode(pred_ids)[0].replace("|", " ").strip()
print(text)

Downloads last month: 1

Safetensors

Model size

0.3B params

Tensor type

F32