XLSR-Wav2Vec2 — ASR Dioula/Bambara
Modèle de reconnaissance automatique de la parole (ASR) pour le Dioula/Bambara,
fine-tuné depuis facebook/wav2vec2-large-xlsr-53
sur le dataset OBY632/merged-bambara-dioula-dataset (67h).
Résultats
| Métrique | Valeur |
|---|---|
| WER (validation) | 48.04% |
| Train Loss finale | 0.7291 |
| Dataset | OBY632/merged-bambara-dioula-dataset |
| Split évaluation | validation |
Utilisation
import torch
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import librosa
# Charger le modèle et le processor
model_id = "Klayt/xlsr-dioula-asr"
processor = Wav2Vec2Processor.from_pretrained(model_id)
model = Wav2Vec2ForCTC.from_pretrained(model_id)
model.eval()
# Charger un fichier audio (16kHz mono)
audio, sr = librosa.load("audio.wav", sr=16000)
# Inférence
inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)
with torch.no_grad():
logits = model(**inputs).logits
pred_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(pred_ids)[0]
print(transcription)
Entraînement
- Modèle de base :
facebook/wav2vec2-large-xlsr-53 - Dataset :
OBY632/merged-bambara-dioula-dataset(67h, Dioula/Bambara) - Epochs : 3
- Learning rate : 3e-4 avec scheduler cosine
- Batch effectif : 16
- Framework : HuggingFace Transformers + PyTorch
- GPU : CUDA 12.8
- Date : 2026-04-12
Limitations
- Le modèle a été entraîné principalement sur du Dioula/Bambara — les variantes dialectales peuvent donner des résultats dégradés.
- Les tons lexicaux ne sont pas encore modélisés explicitement.
- Un WER de 48.04% reflète l'état d'un premier fine-tuning ; des itérations supplémentaires (plus de données, augmentation audio) amélioreront les performances.
Langues
Le Dioula (aussi écrit Dyula) et le Bambara sont des langues mandé parlées
principalement en Côte d'Ivoire, au Mali et au Burkina Faso.
Code ISO 639-3 : dyu (Dioula), bam (Bambara).
- Downloads last month
- 32
Model tree for Klayt/xlsr-dioula-asr
Base model
facebook/wav2vec2-large-xlsr-53