Spaces:

VeuReu
/

tts

Sleeping

App Files Files Community

tts / README.md

VeuReu

Upload README.md

02d5ab8 verified 4 months ago

preview code

raw

history blame contribute delete

2.25 kB

	---
	title: veureu-tts
	emoji: 🔊
	colorFrom: indigo
	colorTo: blue
	sdk: docker
	app_file: app.py
	pinned: false
	---

	# 🗣️ tts

	tts es un servicio Docker basado en FastAPI que forma parte del ecosistema Veureu.
	Su función es generar pistas de audio o audiodescripción (AD) en catalán a partir de texto o de archivos SRT, utilizando el plugin Matxa-Alvocat TTS.

	Este Space está diseñado para ser invocado externamente por otros Spaces (como `app` o `engine`) o por servicios locales.

	---

	## 🚀 Endpoints disponibles

	### ▶️ `POST /tts/text`
	Genera un clip de voz a partir de texto.

	Parámetros de formulario:
	- `texto`: Contenido a sintetizar.
	- `voice` (opcional): Voz Matxa-Alvocat (ej. `upc_ona-medium`), por defecto `upc_ona-medium`.
	- `formato` (opcional): Formato de salida: `"mp3"` o `"wav"`.

	Respuesta:
	Archivo de audio (`audio/mpeg` o `audio/wav`).

	---

	### ▶️ `POST /tts/srt`
	Genera la pista de audiodescripción sincronizada, la mezcla con un audio original, y opcionalmente remuxa un vídeo final.

	Parámetros de formulario (`multipart/form-data`):
	- `srt`: Archivo `.srt` con las marcas `(AD):` (obligatorio).
	- `video` (opcional): Archivo `.mp4` original.
	- `original_audio` (opcional): Archivo `.mp3` o `.wav` del audio original (alternativa a `video`).
	- `voice` (opcional): Voz Matxa-Alvocat (ej. `upc_ona-medium`).
	- `ad_format` (opcional): Formato de la pista AD: `"mp3"` o `"wav"`.
	- `include_final_mp4` (opcional): `1` para devolver el MP4 final remuxado (solo si se proporciona vídeo).

	Respuesta:
	Archivo .zip que contiene:
	- `ad_master.mp3` o `.wav`: pista AD sincronizada.
	- `mix_original_plus_ad.mp3`: mezcla de audio/vídeo original con la AD.
	- `video_con_ad.mp4`: archivo final si `include_final_mp4=1` y se proporcionó vídeo.

	---

	## 🧠 Tecnologías y dependencias principales

	- 🐍 Python 3.11
	- 🚀 FastAPI / Uvicorn
	- 🗣️ ovos-tts-plugin-matxa-alvocat (TTS en catalán)
	- ⚙️ espeak-ng (motor de fonetización)
	- 🎬 FFmpeg (para extracción, mezcla y remux de audio/vídeo)