Spaces:
Runtime error
Runtime error
A newer version of the Gradio SDK is available: 6.13.0
metadata
title: Gilbert - STT + Diarization
emoji: 🎤
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.0.0
app_file: app.py
pinned: false
license: mit
Gilbert - STT + Diarization
Pipeline complet de transcription (STT) et diarisation de locuteurs avec sortie formatée.
Fonctionnalités
- 🎤 Diarisation de locuteurs avec pyannote.audio
- 📝 Transcription avec Whisper Large V3 French (fine-tuné pour le français)
- 🔗 Combinaison automatique pour une sortie formatée: "Speaker A : texte"
- 📊 Statistiques détaillées par locuteur
Modèles utilisés
Diarization
pyannote/speaker-diarization-community-1(par défaut, meilleures performances)pyannote/speaker-diarization-3.1(fallback)
Speech-to-Text (STT)
bofenghuang/whisper-large-v3-french(Whisper Large V3 fine-tuné pour le français)- Meilleures performances sur le français que Whisper standard
- Support de la casse, ponctuation et nombres
Utilisation
- Uploadez un fichier audio (WAV, MP3, M4A, FLAC)
- Configurez les paramètres de diarisation (optionnel)
- Cliquez sur "Traiter"
- Téléchargez la transcription avec identification des locuteurs
Format de sortie
La sortie est au format :
Speaker A : texte du locuteur A
Speaker B : texte du locuteur B
Configuration
Pour utiliser cette Space, vous devez avoir un token Hugging Face avec accès aux modèles pyannote et Whisper.
Configurez-le dans les secrets de la Space avec: HF_TOKEN="votre_token"
Exemple de sortie
Speaker A : Bonjour, comment allez-vous aujourd'hui ?
Speaker B : Très bien merci, et vous ?
Speaker A : Parfait, je suis ravi de vous rencontrer.
Performance
- Temps de traitement: ~1.5x la durée de l'audio (sur CPU)
- Précision: Optimisée pour le français avec le modèle fine-tuné
- Formats supportés: WAV, MP3, M4A, FLAC, OGG