Whisper Small Lingala (LoRA Finetuned)
Ce modèle est une version fine-tunée de openai/whisper-small pour la langue Lingala.
Il fait partie du développement du pipeline Speech AI de CONCREE / ADIA.
Model Details
- Développé par : Regine (Concree)
- Model type : ASR (Automatic Speech Recognition)
- Langue(s) : Lingala (variantes : voix masculine + voix féminine)
- Licence : même que le modèle original
- Finetuned from :
openai/whisper-small - Type de fine-tuning : LoRA + Quantization 8-bit
Dataset
Sources des données utilisées :
| Source | Type voix | Description |
|---|---|---|
| Données internes (Bible Lingala, plusieurs chapitres) | Masculine | passages lus en Lingala, audio propre |
| Dataset externe HF | Féminine | voix différente pour diversifier le modèle |
Total initial : ≈1308 fichiers .wav 16kHz
Use Cases
Direct Use
- Transcrire la parole Lingala en texte Lingala
- Modules ASR pour assistants vocaux Lingala
- Intégration dans pipeline audio → texte → NLP → TTS
Hors scope
- TTS (ce modèle ne génère pas de voix)
- Traduction Lingala → autre langue (non prévu)
Example Code
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import soundfile as sf
import torch
processor = WhisperProcessor.from_pretrained("Regineforte/whisper-small-lingala")
model = WhisperForConditionalGeneration.from_pretrained("Regineforte/whisper-small-lingala").to("cuda")
audio, sr = sf.read("audio.wav")
inputs = processor(audio, sampling_rate=sr, return_tensors="pt").to("cuda")
with torch.no_grad():
ids = model.generate(**inputs)
print(processor.batch_decode(ids, skip_special_tokens=True)[0])
Training Details
- Device : Google Colab GPU
- Quantization : 8-bit
- LoRA r = 16, alpha = 32
- fp16 = True
- max_steps = 1000
- Monitoring : Weights & Biases
Evaluation Metrics
- WER = Word Error Rate
- CER = Character Error Rate
Results(sur test unseen)
Metric Score
WER ~12.6%
CER ~2.9%
→ seuil professionel atteint (WER < 30%)
Contact
- Auteur Model Card : Regineforte (Concree)