Spaces:

notrito
/

voice-clone-models-comparison

Build error

App Files Files Community

noel-yeshcube commited on Sep 29, 2025

Commit

b81be73

1 Parent(s): fd21f76

Add F5-TTS voice cloning app

Browse files

Files changed (5) hide show

.gitignore +6 -0
app.py +211 -0
f5-test.py +32 -0
f5-tts_tests.ipynb +0 -0
requirements.txt +21 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,6 @@

+.venv/
+__pycache__/
+*.pyc
+*.pyo
+.env
+.DS_Store

app.py ADDED Viewed

	@@ -0,0 +1,211 @@

+import gradio as gr
+import time
+import os
+from pathlib import Path
+# Configuración
+MODEL_NAME = "F5-TTS"
+SUPPORTED_LANGUAGES = ["es", "en"]
+MAX_AUDIO_SIZE = 10 * 1024 * 1024  # 10MB
+# Variables globales para el modelo (se cargan una vez)
+model = None
+vocoder = None
+model_loaded = False
+def load_models():
+    """Cargar F5-TTS y vocoder (solo una vez al iniciar)"""
+    global model, vocoder, model_loaded
+    if model_loaded:
+        return True
+    try:
+        print("⏳ Cargando F5-TTS y vocoder...")
+        from f5_tts.infer.utils_infer import load_model, load_vocoder
+        from f5_tts.model.cfm import CFM
+        # Cargar vocoder
+        print("📥 Descargando vocoder (puede tardar la primera vez)...")
+        vocoder = load_vocoder(
+            vocoder_name="vocos",
+            is_local=False,
+            device="cpu"  # HF Space CPU
+        )
+        print("✅ Vocoder cargado")
+        # Cargar modelo F5-TTS
+        print("📥 Descargando modelo F5-TTS...")
+        model = load_model(
+            model_cls=CFM,
+            model_cfg={},  # Configuración por defecto
+            ckpt_path="",  # Se descarga automáticamente de HF
+            device="cpu"
+        )
+        print("✅ Modelo F5-TTS cargado")
+        model_loaded = True
+        return True
+    except Exception as e:
+        print(f"❌ Error cargando modelos: {e}")
+        import traceback
+        traceback.print_exc()
+        return False
+def validate_audio(audio_file):
+    """Validar archivo de audio"""
+    if audio_file is None:
+        return False, "Por favor, sube un archivo de audio"
+    try:
+        file_size = os.path.getsize(audio_file)
+        if file_size > MAX_AUDIO_SIZE:
+            return False, f"Archivo muy grande. Máximo 10MB"
+        return True, "Audio válido"
+    except Exception as e:
+        return False, f"Error validando audio: {e}"
+def generate_voice(reference_audio, ref_text, gen_text, language):
+    """Generar voz con F5-TTS"""
+    # Validar entrada
+    is_valid, msg = validate_audio(reference_audio)
+    if not is_valid:
+        return None, f"❌ {msg}", ""
+    if not ref_text or not ref_text.strip():
+        return None, "❌ Debes escribir la transcripción del audio de referencia", ""
+    if not gen_text or not gen_text.strip():
+        return None, "❌ Debes escribir el texto a generar", ""
+    # Verificar que los modelos estén cargados
+    if not model_loaded:
+        success = load_models()
+        if not success:
+            return None, "❌ Error cargando modelos. Intenta recargar la página.", ""
+    try:
+        start_time = time.time()
+        from f5_tts.infer.utils_infer import infer_process
+        print(f"🎤 Generando audio...")
+        print(f"   Ref text: {ref_text[:50]}...")
+        print(f"   Gen text: {gen_text[:50]}...")
+        # Procesar con F5-TTS
+        result = infer_process(
+            ref_audio=reference_audio,
+            ref_text=ref_text,
+            gen_text=gen_text,
+            model_obj=model,
+            vocoder=vocoder,
+            device="cpu"
+        )
+        end_time = time.time()
+        processing_time = end_time - start_time
+        # result debería ser el audio generado
+        output_path = "generated_audio.wav"
+        success_msg = f"✅ Audio generado exitosamente"
+        time_msg = f"⏱️ Tiempo: {processing_time:.2f}s"
+        return output_path, success_msg, time_msg
+    except Exception as e:
+        print(f"❌ Error en generación: {e}")
+        import traceback
+        traceback.print_exc()
+        return None, f"❌ Error: {str(e)}", ""
+# Crear interfaz Gradio
+def create_interface():
+    with gr.Blocks(
+        title="F5-TTS Voice Cloning",
+        theme=gr.themes.Soft()
+    ) as demo:
+        gr.Markdown("# 🎤 F5-TTS Voice Cloning")
+        gr.Markdown("Clona cualquier voz con solo 5-30 segundos de audio de referencia")
+        with gr.Row():
+            with gr.Column(scale=1):
+                gr.Markdown("## 📁 Entrada")
+                reference_audio = gr.Audio(
+                    label="Audio de Referencia (5-30 segundos)",
+                    type="filepath",
+                    sources=["upload", "microphone"]
+                )
+                ref_text = gr.Textbox(
+                    label="Transcripción del Audio de Referencia",
+                    placeholder="Escribe exactamente lo que dice el audio de referencia...",
+                    lines=2,
+                    info="Importante: Debe coincidir con lo que dice el audio"
+                )
+                gen_text = gr.Textbox(
+                    label="Texto a Generar",
+                    placeholder="Escribe el texto que quieres que diga con la voz clonada...",
+                    lines=3
+                )
+                language = gr.Dropdown(
+                    choices=SUPPORTED_LANGUAGES,
+                    value="es",
+                    label="Idioma",
+                    info="Idioma del texto a generar"
+                )
+                generate_btn = gr.Button("🚀 Generar Voz", variant="primary", size="lg")
+        with gr.Row():
+            status_msg = gr.Textbox(label="Estado", interactive=False, show_label=False)
+        with gr.Row():
+            time_msg = gr.Textbox(label="Tiempo de Procesamiento", interactive=False)
+        with gr.Row():
+            output_audio = gr.Audio(label="🔊 Audio Generado", type="filepath")
+        # Event handlers
+        generate_btn.click(
+            fn=generate_voice,
+            inputs=[reference_audio, ref_text, gen_text, language],
+            outputs=[output_audio, status_msg, time_msg]
+        )
+        gr.Markdown("""
+        ## 💡 Consejos para Mejores Resultados
+        - **Audio limpio:** Sin ruido de fondo, música o eco
+        - **Duración:** 5-30 segundos es ideal
+        - **Transcripción exacta:** La transcripción debe coincidir exactamente con el audio
+        - **Habla clara:** Volumen constante y pronunciación clara
+        - **Idioma:** El audio de referencia y el texto pueden estar en idiomas diferentes
+        ## 🔧 Información Técnica
+        - **Modelo:** F5-TTS (Flow Matching Text-to-Speech)
+        - **Vocoder:** Vocos
+        - **Dispositivo:** CPU (puede tardar ~30-60 segundos)
+        """)
+    return demo
+if __name__ == "__main__":
+    # Pre-cargar modelos al iniciar (opcional, mejora primera experiencia)
+    print("🚀 Iniciando F5-TTS Voice Cloning App")
+    print("=" * 50)
+    # Comentar la siguiente línea si quieres carga bajo demanda
+    # load_models()
+    demo = create_interface()
+    demo.launch()

f5-test.py ADDED Viewed

	@@ -0,0 +1,32 @@

+#!/usr/bin/env python3
+"""
+Prueba simple: Solo verificar que F5-TTS se puede importar
+"""
+def test_basic_imports():
+    """Probar imports básicos"""
+    print("🔍 Probando imports básicos...")
+    try:
+        import torch
+        print(f"   ✅ PyTorch: {torch.__version__}")
+        import torchaudio
+        print(f"   ✅ TorchAudio: {torchaudio.__version__}")
+        print("   📦 Importando F5-TTS...")
+        import f5_tts
+        print(f"   ✅ F5-TTS importado correctamente")
+        return True
+    except ImportError as e:
+        print(f"   ❌ Error: {e}")
+        return False
+if __name__ == "__main__":
+    success = test_basic_imports()
+    if success:
+        print("\n🎉 Imports funcionan correctamente!")
+    else:
+        print("\n❌ Hay problemas con los imports")

f5-tts_tests.ipynb ADDED Viewed

File without changes

requirements.txt ADDED Viewed

	@@ -0,0 +1,21 @@

+# Interfaz web
+gradio>=4.0.0
+# F5-TTS local
+torch>=2.0.0
+torchaudio>=2.0.0
+librosa>=0.10.0
+soundfile>=0.12.0
+numpy>=1.24.0
+# APIs de HuggingFace
+huggingface_hub>=0.19.0
+requests>=2.31.0
+# Procesamiento de audio
+pydub>=0.25.0
+# Utilidades
+python-dotenv>=1.0.0
+f5_tts>=1.1.0