Spaces:

MEscriva
/

gilbert-stt-diarization

Runtime error

App Files Files Community

gilbert-stt-diarization / README.md

mathisescriva

Initial commit: STT + Diarization pipeline unifié

e6e14b8 5 months ago

preview code

raw

history blame contribute delete

1.91 kB

A newer version of the Gradio SDK is available: 6.13.0

Upgrade

metadata

title: Gilbert - STT + Diarization
emoji: 🎤
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.0.0
app_file: app.py
pinned: false
license: mit

Gilbert - STT + Diarization

Pipeline complet de transcription (STT) et diarisation de locuteurs avec sortie formatée.

Fonctionnalités

🎤 Diarisation de locuteurs avec pyannote.audio
📝 Transcription avec Whisper Large V3 French (fine-tuné pour le français)
🔗 Combinaison automatique pour une sortie formatée: "Speaker A : texte"
📊 Statistiques détaillées par locuteur

Modèles utilisés

Diarization

pyannote/speaker-diarization-community-1 (par défaut, meilleures performances)
pyannote/speaker-diarization-3.1 (fallback)

Speech-to-Text (STT)

bofenghuang/whisper-large-v3-french (Whisper Large V3 fine-tuné pour le français)
- Meilleures performances sur le français que Whisper standard
- Support de la casse, ponctuation et nombres

Utilisation

Uploadez un fichier audio (WAV, MP3, M4A, FLAC)
Configurez les paramètres de diarisation (optionnel)
Cliquez sur "Traiter"
Téléchargez la transcription avec identification des locuteurs

Format de sortie

La sortie est au format :

Speaker A : texte du locuteur A

Speaker B : texte du locuteur B

Configuration

Pour utiliser cette Space, vous devez avoir un token Hugging Face avec accès aux modèles pyannote et Whisper.

Configurez-le dans les secrets de la Space avec: HF_TOKEN="votre_token"

Exemple de sortie

Speaker A : Bonjour, comment allez-vous aujourd'hui ?

Speaker B : Très bien merci, et vous ?

Speaker A : Parfait, je suis ravi de vous rencontrer.

Performance

Temps de traitement: ~1.5x la durée de l'audio (sur CPU)
Précision: Optimisée pour le français avec le modèle fine-tuné
Formats supportés: WAV, MP3, M4A, FLAC, OGG