metadata
title: veureu-tts
emoji: 🔊
colorFrom: indigo
colorTo: blue
sdk: docker
app_file: app.py
pinned: false
🗣️ tts
tts es un servicio Docker basado en FastAPI que forma parte del ecosistema Veureu.
Su función es generar pistas de audio o audiodescripción (AD) en catalán a partir de texto o de archivos SRT, utilizando el plugin Matxa-Alvocat TTS.
Este Space está diseñado para ser invocado externamente por otros Spaces (como app o engine) o por servicios locales.
🚀 Endpoints disponibles
▶️ POST /tts/text
Genera un clip de voz a partir de texto.
Parámetros de formulario:
texto: Contenido a sintetizar.voice(opcional): Voz Matxa-Alvocat (ej.upc_ona-medium), por defectoupc_ona-medium.formato(opcional): Formato de salida:"mp3"o"wav".
Respuesta:
Archivo de audio (audio/mpeg o audio/wav).
▶️ POST /tts/srt
Genera la pista de audiodescripción sincronizada, la mezcla con un audio original, y opcionalmente remuxa un vídeo final.
Parámetros de formulario (multipart/form-data):
srt: Archivo.srtcon las marcas(AD):(obligatorio).video(opcional): Archivo.mp4original.original_audio(opcional): Archivo.mp3o.wavdel audio original (alternativa avideo).voice(opcional): Voz Matxa-Alvocat (ej.upc_ona-medium).ad_format(opcional): Formato de la pista AD:"mp3"o"wav".include_final_mp4(opcional):1para devolver el MP4 final remuxado (solo si se proporciona vídeo).
Respuesta:
Archivo .zip que contiene:
ad_master.mp3o.wav: pista AD sincronizada.mix_original_plus_ad.mp3: mezcla de audio/vídeo original con la AD.video_con_ad.mp4: archivo final siinclude_final_mp4=1y se proporcionó vídeo.
🧠 Tecnologías y dependencias principales
- 🐍 Python 3.11
- 🚀 FastAPI / Uvicorn
- 🗣️ ovos-tts-plugin-matxa-alvocat (TTS en catalán)
- ⚙️ espeak-ng (motor de fonetización)
- 🎬 FFmpeg (para extracción, mezcla y remux de audio/vídeo)