mathisescriva
Initial commit: STT + Diarization pipeline unifié
e6e14b8

A newer version of the Gradio SDK is available: 6.13.0

Upgrade
metadata
title: Gilbert - STT + Diarization
emoji: 🎤
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.0.0
app_file: app.py
pinned: false
license: mit

Gilbert - STT + Diarization

Pipeline complet de transcription (STT) et diarisation de locuteurs avec sortie formatée.

Fonctionnalités

  • 🎤 Diarisation de locuteurs avec pyannote.audio
  • 📝 Transcription avec Whisper Large V3 French (fine-tuné pour le français)
  • 🔗 Combinaison automatique pour une sortie formatée: "Speaker A : texte"
  • 📊 Statistiques détaillées par locuteur

Modèles utilisés

Diarization

  • pyannote/speaker-diarization-community-1 (par défaut, meilleures performances)
  • pyannote/speaker-diarization-3.1 (fallback)

Speech-to-Text (STT)

  • bofenghuang/whisper-large-v3-french (Whisper Large V3 fine-tuné pour le français)
    • Meilleures performances sur le français que Whisper standard
    • Support de la casse, ponctuation et nombres

Utilisation

  1. Uploadez un fichier audio (WAV, MP3, M4A, FLAC)
  2. Configurez les paramètres de diarisation (optionnel)
  3. Cliquez sur "Traiter"
  4. Téléchargez la transcription avec identification des locuteurs

Format de sortie

La sortie est au format :

Speaker A : texte du locuteur A

Speaker B : texte du locuteur B

Configuration

Pour utiliser cette Space, vous devez avoir un token Hugging Face avec accès aux modèles pyannote et Whisper.

Configurez-le dans les secrets de la Space avec: HF_TOKEN="votre_token"

Exemple de sortie

Speaker A : Bonjour, comment allez-vous aujourd'hui ?

Speaker B : Très bien merci, et vous ?

Speaker A : Parfait, je suis ravi de vous rencontrer.

Performance

  • Temps de traitement: ~1.5x la durée de l'audio (sur CPU)
  • Précision: Optimisée pour le français avec le modèle fine-tuné
  • Formats supportés: WAV, MP3, M4A, FLAC, OGG