Spaces:

Andro0s
/

Texto_voz5

Sleeping

App Files Files Community

Andro0s commited on Jan 29

Commit

83b64d5

verified ·

1 Parent(s): d289451

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -66

app.py CHANGED Viewed

@@ -1,77 +1,45 @@
-import torch
 import gradio as gr
 import numpy as np
-import os
-# IMPORTANTE: Para Kokoro necesitas el archivo models.py del repo oficial en tu carpeta
-# Si no lo tienes, el import fallará.
-try:
-    from models import build_model
-except ImportError:
-    # Si estás en un Space, podrías necesitar instalarlo o tener el script local
-    raise ImportError("No se encontró 'models.py'. Asegúrate de que los archivos de arquitectura de Kokoro estén en la raíz.")
-# ---- Configuración de Dispositivo ----
-device = "cuda" if torch.cuda.is_available() else "cpu"
-# ---- Cargar modelo correctamente (Aliah-Plus Analysis) ----
-def get_model():
-    # 1. Construimos la estructura de la red
-    model = build_model().to(device)
-    # 2. Cargamos los pesos (el diccionario que te daba error)
-    checkpoint = torch.load("kokoro-v1_0.pth", map_location=device)
-    # 3. Inyectamos los pesos en la estructura
-    # Usamos strict=False por si hay ligeras variaciones en las versiones
-    model.load_state_dict(checkpoint, strict=False)
-    # 4. Ahora sí, modo evaluación (esto ya no fallará)
-    model.eval()
-    return model
-# Inicializamos el modelo globalmente
-model = get_model()
-# ---- Cargar voces ----
-def load_voice(name):
-    # Nota: Asegúrate de que la carpeta 'voices/' exista
-    path = f"voices/{name}.pt"
-    if os.path.exists(path):
-        return torch.load(path, map_location=device)
-    return None
-voices_names = ["af_bella", "af_alloy", "af_nova", "af_sarah"]
-voices = {n: load_voice(n) for n in voices_names}
-# ---- Inferencia (Simplificada para el arranque) ----
-def tts(text, voice_name):
-    if not text.strip():
         return None
-    voice = voices.get(voice_name)
-    if voice is None:
-        return None, None
-    # Aquí iría el pipeline de Kokoro (phonemizer + model forward)
-    # Por ahora, un placeholder para que la interfaz sea funcional:
-    sr = 24000
-    t = np.linspace(0, 1, sr)
-    audio = (np.sin(2 * np.pi * 440 * t) * 0.1).astype(np.float32)
-    return (sr, audio)
-# ---- Interfaz ----
-with gr.Blocks() as demo:
-    gr.Markdown("# Kokoro TTS - Aliah Plus Optimized")
-    with gr.Row():
-        text_input = gr.Textbox(label="Texto a convertir", placeholder="Escribe algo aquí...")
-        voice_opt = gr.Dropdown(choices=list(voices.keys()), label="Selecciona Voz", value="af_bella")
-    btn = gr.Button("Generar Voz")
-    audio_out = gr.Audio(label="Resultado")
-    btn.click(fn=tts, inputs=[text_input, voice_opt], outputs=audio_out)
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
+from kokoro import KPipeline
+import soundfile as sf
 import numpy as np
+import torch
+# El Pipeline de Kokoro ya sabe leer el archivo .pth si tienes la librería instalada
+# 'a' corresponde a voces en inglés (como las que tienes: af_bella, af_sarah)
+pipeline = KPipeline(lang_code='a')
+def tts_pro(text, voice_name):
+    if not text:
         return None
+    # Generamos el audio usando la estructura de Kokoro
+    generator = pipeline(text, voice=voice_name, speed=1)
+    # Recolectamos los fragmentos de audio
+    audio_segments = []
+    for gs, ps, audio in generator:
+        audio_segments.append(audio)
+    if not audio_segments:
+        return None
+    final_audio = np.concatenate(audio_segments)
+    return (24000, final_audio)
+# --- Interfaz de Gradio ---
+demo = gr.Interface(
+    fn=tts_pro,
+    inputs=[
+        gr.Textbox(label="Texto para Kokoro", placeholder="Escribe aquí..."),
+        gr.Dropdown(
+            ["af_bella", "af_alloy", "af_nova", "af_sarah", "af_sky"],
+            label="Voz",
+            value="af_bella"
+        )
+    ],
+    outputs=gr.Audio(label="Audio Generado"),
+    title="Kokoro TTS - Modo Directo"
+)
 if __name__ == "__main__":
     demo.launch()