Whisper Small Lingala (LoRA Finetuned)

Ce modèle est une version fine-tunée de openai/whisper-small pour la langue Lingala. Il fait partie du développement du pipeline Speech AI de CONCREE / ADIA.

Model Details

Développé par : Regine (Concree)
Model type : ASR (Automatic Speech Recognition)
Langue(s) : Lingala (variantes : voix masculine + voix féminine)
Licence : même que le modèle original
Finetuned from : openai/whisper-small
Type de fine-tuning : LoRA + Quantization 8-bit

Dataset

Sources des données utilisées :

Source	Type voix	Description
Données internes (Bible Lingala, plusieurs chapitres)	Masculine	passages lus en Lingala, audio propre
Dataset externe HF	Féminine	voix différente pour diversifier le modèle

Total initial : ≈1308 fichiers .wav 16kHz

Use Cases

Direct Use

Transcrire la parole Lingala en texte Lingala
Modules ASR pour assistants vocaux Lingala
Intégration dans pipeline audio → texte → NLP → TTS

Hors scope

TTS (ce modèle ne génère pas de voix)
Traduction Lingala → autre langue (non prévu)

Example Code

from transformers import WhisperProcessor, WhisperForConditionalGeneration
import soundfile as sf
import torch

processor = WhisperProcessor.from_pretrained("Regineforte/whisper-small-lingala")
model = WhisperForConditionalGeneration.from_pretrained("Regineforte/whisper-small-lingala").to("cuda")

audio, sr = sf.read("audio.wav")
inputs = processor(audio, sampling_rate=sr, return_tensors="pt").to("cuda")

with torch.no_grad():
    ids = model.generate(**inputs)

print(processor.batch_decode(ids, skip_special_tokens=True)[0])

Training Details

Device : Google Colab GPU
Quantization : 8-bit
LoRA r = 16, alpha = 32
fp16 = True
max_steps = 1000
Monitoring : Weights & Biases

Evaluation Metrics

WER = Word Error Rate
CER = Character Error Rate

Results(sur test unseen)

Metric Score
WER ~12.6%
CER ~2.9%
→ seuil professionel atteint (WER < 30%)

Contact

Auteur Model Card : Regineforte (Concree)

Downloads last month: -; Downloads are not tracked for this model. How to track

Regineforte
/

whisper-small-lingala