XLSR-Wav2Vec2 — ASR Dioula/Bambara

Modèle de reconnaissance automatique de la parole (ASR) pour le Dioula/Bambara, fine-tuné depuis facebook/wav2vec2-large-xlsr-53 sur le dataset OBY632/merged-bambara-dioula-dataset (67h).

Résultats

Métrique Valeur
WER (validation) 48.04%
Train Loss finale 0.7291
Dataset OBY632/merged-bambara-dioula-dataset
Split évaluation validation

Utilisation

import torch
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import librosa

# Charger le modèle et le processor
model_id = "Klayt/xlsr-dioula-asr"
processor = Wav2Vec2Processor.from_pretrained(model_id)
model     = Wav2Vec2ForCTC.from_pretrained(model_id)
model.eval()

# Charger un fichier audio (16kHz mono)
audio, sr = librosa.load("audio.wav", sr=16000)

# Inférence
inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(**inputs).logits

pred_ids      = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(pred_ids)[0]
print(transcription)

Entraînement

  • Modèle de base : facebook/wav2vec2-large-xlsr-53
  • Dataset : OBY632/merged-bambara-dioula-dataset (67h, Dioula/Bambara)
  • Epochs : 3
  • Learning rate : 3e-4 avec scheduler cosine
  • Batch effectif : 16
  • Framework : HuggingFace Transformers + PyTorch
  • GPU : CUDA 12.8
  • Date : 2026-04-12

Limitations

  • Le modèle a été entraîné principalement sur du Dioula/Bambara — les variantes dialectales peuvent donner des résultats dégradés.
  • Les tons lexicaux ne sont pas encore modélisés explicitement.
  • Un WER de 48.04% reflète l'état d'un premier fine-tuning ; des itérations supplémentaires (plus de données, augmentation audio) amélioreront les performances.

Langues

Le Dioula (aussi écrit Dyula) et le Bambara sont des langues mandé parlées principalement en Côte d'Ivoire, au Mali et au Burkina Faso. Code ISO 639-3 : dyu (Dioula), bam (Bambara).

Downloads last month
32
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Klayt/xlsr-dioula-asr

Finetuned
(358)
this model

Dataset used to train Klayt/xlsr-dioula-asr