Spaces:

Ronaldodev
/

test

Running

App Files Files Community

test / README.md

Ronaldo

first commit

077b226 24 days ago

preview code

raw

history blame contribute delete

5.18 kB

	---
	title: Meta MMS Speech AI
	emoji: 🎙️
	colorFrom: blue
	colorTo: green
	sdk: gradio
	sdk_version: "4.3.0"
	python_version: "3.10"
	app_file: app.py
	pinned: false
	license: cc-by-nc-4.0
	models:
	- facebook/mms-1b-all
	- facebook/mms-tts-yor
	- facebook/mms-tts-eng
	- facebook/mms-tts-beh
	- facebook/mms-tts-ddn
	tags:
	- ASR
	- TTS
	- Speech
	- Audio
	- Multilingual
	- MMS
	---

	# 🎙️ Meta MMS Speech AI - Gradio Interface

	Une interface Gradio simple et élégante pour:
	- ASR (Automatic Speech Recognition): Convertir l'audio en texte (100+ langues)
	- TTS (Text-to-Speech): Convertir le texte en audio (8 langues)

	Utilise les modèles Meta MMS:
	- `facebook/mms-1b-all` pour l'ASR
	- `facebook/mms-tts-*` pour le TTS

	## 🌐 Déploiement en ligne

	Accès direct: [Hugging Face Spaces](https://huggingface.co/spaces)

	## 🚀 Installation locale

	### Prérequis
	- Python 3.10+
	- (Optionnel) CUDA 11.8+ pour GPU

	### Installation

	```bash
	# Clone ou télécharge le repo
	git clone <url>
	cd mms-speech

	# Crée un environnement virtuel
	python -m venv venv
	source venv/bin/activate # Windows: venv\Scripts\activate

	# Installe les dépendances
	pip install -r requirements.txt
	```

	### Lancement

	```bash
	python app.py
	```

	L'interface Gradio s'ouvrira automatiquement sur `http://localhost:7860`

	## 📱 Interface utilisateur

	### Onglet 1: 🔊 ASR (Audio → Texte)
	- Enregistre ou upload un fichier audio
	- Choisis la langue
	- Clique "Transcrire"
	- Récupère le texte transcrit

	Langues supportées:
	- English, French, Spanish, German, Portuguese, Arabic, Hindi, Chinese, Japanese, et 90+ autres

	### Onglet 2: 📢 TTS (Texte → Audio)
	- Entre du texte
	- Choisis la langue
	- Clique "Générer l'audio"
	- Écoute ou télécharge l'audio généré

	Langues TTS:
	- 🇧🇯 Biali (beh)
	- 🇧🇯 Baatombu (bba)
	- 🇧🇯 Dendi (ddn)
	- 🇬🇭 Éwé (ewe)
	- 🇧🇯 Mina (gej)
	- 🇧🇯 Ditammari (tbz)
	- 🇳🇬 Yoruba (yor)
	- 🇧🇯 Fon (fon)
	- 🇬🇧 English (eng)

	### Onglet 3: ℹ️ À propos
	Informations sur les modèles et ressources

	## 📊 Modèles utilisés

	### ASR: facebook/mms-1b-all
	- Architecture: wav2vec2
	- Taille: 964.8M parameters
	- Langues: 100+ (ISO 639-3)
	- Input: Audio 16kHz mono
	- Output: Texte transcrit

	### TTS: facebook/mms-tts-{lang}
	- Architecture: VITS
	- Taille: ~5-10M parameters par langue
	- Langues: 8
	- Input: Texte (max 1000 chars)
	- Output: Audio WAV 22050Hz

	## 💡 Utilisation

	### Exemple ASR
	1. Clique sur le micro ou "Upload file"
	2. Enregistre ou uploader ton audio
	3. Sélectionne la langue
	4. Clique "Transcrire"

	### Exemple TTS
	1. Écris "Àbọ̀ wa" (hello en Yoruba)
	2. Sélectionne "Yoruba (yor)"
	3. Clique "Générer l'audio"
	4. Écoute le résultat!

	## 🔧 Développement

	### Installer les dépendances dev
	```bash
	pip install -r requirements-dev.txt
	```

	### Tests
	```bash
	pytest test_api.py -v
	```

	### Linting
	```bash
	black app.py
	flake8 app.py
	```

	## 🌐 Déploiement sur Hugging Face Spaces

	### 1. Créer un Space
	- Va sur https://huggingface.co/new-space
	- Choisis "Gradio" comme SDK
	- Sélectionne "Blank" comme template

	### 2. Cloner le Space
	```bash
	git clone https://huggingface.co/spaces/<username>/<space-name>
	cd <space-name>
	```

	### 3. Copier les fichiers
	```bash
	cp app.py requirements.txt README.md .
	```

	### 4. Push vers Hugging Face
	```bash
	git add .
	git commit -m "Add MMS Speech AI"
	git push
	```

	### 5. Attendre le déploiement
	- HF va installer les dépendances (2-5 min)
	- Télécharger les modèles (5-15 min)
	- Lancer l'app automatiquement

	URL du Space: `https://huggingface.co/spaces/<username>/<space-name>`

	## ⚙️ Configuration

	```python
	SAMPLE_RATE = 16000 # Taux ASR
	MAX_AUDIO_LENGTH = 30 # Max 30 sec
	MAX_TEXT_LENGTH = 1000 # Max 1000 chars
	```

	## 📈 Performance

	\| Action \| Temps \|
	\|--------\|-------\|
	\| Première requête ASR \| 2-5 min (chargement) \|
	\| Requêtes ASR suivantes \| 1-10 sec \|
	\| Première requête TTS \| 30-60 sec (chargement) \|
	\| Requêtes TTS suivantes \| 1-5 sec \|

	## 🐛 Troubleshooting

	Q: Les modèles prennent trop de temps à charger
	A: C'est normal! Les modèles sont volumineux. La première requête charge le modèle (2-5 min), puis ça devient rapide.

	Q: "CUDA out of memory"
	A: Réduis `MAX_AUDIO_LENGTH` ou `MAX_TEXT_LENGTH`, ou utilise CPU.

	Q: Je ne vois pas mon audio après avoir enregistré
	A: Attends que le traitement soit terminé. Gradio affichera le résultat automatiquement.

	Q: L'audio généré est muet
	A: Vérifie que tu as écrit du texte et choisi une langue correcte.

	## 📚 Ressources

	- [Meta MMS Paper](https://arxiv.org/abs/2305.13516)
	- [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all)
	- [facebook/mms-tts](https://huggingface.co/facebook/mms-tts)
	- [Gradio Documentation](https://www.gradio.app/)
	- [Hugging Face Spaces](https://huggingface.co/spaces)

	## ⚖️ Licence

	CC-BY-NC-4.0 (même que les modèles Meta MMS)

	## 👨‍💻 Auteur

	Créé avec ❤️ pour explorer la synthèse et reconnaissance vocale multilingue.

	---

	Happy speaking! 🎙️