Spaces:

GoergeMarckus
/

AIDEN_VOZ

Sleeping

App Files Files Community

GoergeMarckus commited on Nov 19, 2025

Commit

c430985

verified ·

1 Parent(s): cba3fa0

Update app.py

Browse files

Files changed (1) hide show

app.py +192 -176

app.py CHANGED Viewed

@@ -4,26 +4,28 @@ from audio_recorder_streamlit import audio_recorder
 import base64
 import io
 import soundfile as sf
-import tempfile
-# ======================================
-# CONFIGURACIÓN GENERAL DEL SPACE
-# ======================================
 st.set_page_config(
-    page_title="AIDEN – Voz Latina en Vivo",
     layout="centered",
     page_icon="🎙️",
 )
-# ======================================
-# LOGOTIPO Y ENCABEZADO
-# ======================================
 def cargar_logo(ruta: str) -> str:
     with open(ruta, "rb") as f:
         data = f.read()
     return base64.b64encode(data).decode("utf-8")
 logo_b64 = cargar_logo("assets/aiden_logo.png")
 st.markdown(
@@ -31,49 +33,60 @@ st.markdown(
     <div style="text-align:center; margin-top:20px;">
         <img src="data:image/png;base64,{logo_b64}" width="180">
         <h1 style="font-family:sans-serif; color:white; margin-top:10px;">
-            AIDEN — Voz Latina en Vivo
         </h1>
         <p style="color:#cccccc; font-size:17px;">
-            Conversación por voz en español latino, con tono humano, cálido y profesional.
         </p>
     </div>
     """,
     unsafe_allow_html=True,
 )
-st.write("")  # pequeño espacio visual
-# ======================================
-# MODELOS
-# ======================================
-TEXT_MODEL_NAME = "Qwen/Qwen2.5-1.5B-Instruct"
-ASR_MODEL_NAME = "openai/whisper-small"        # Voz → texto (multilingüe)
-TTS_MODEL_NAME = "facebook/mms-tts-spa"        # Texto → voz (español)
 @st.cache_resource
 def cargar_modelo_texto():
-    generator = pipeline(
-        task="text-generation",
-        model=TEXT_MODEL_NAME,
-        torch_dtype="auto",
-        device_map="auto",
-    )
     return generator
 @st.cache_resource
 def cargar_modelo_asr():
     asr = pipeline(
         task="automatic-speech-recognition",
         model=ASR_MODEL_NAME,
-        device_map="auto",
     )
     return asr
 @st.cache_resource
 def cargar_modelo_tts():
     tts = pipeline(
         task="text-to-speech",
         model=TTS_MODEL_NAME,
@@ -82,128 +95,70 @@ def cargar_modelo_tts():
 text_gen = cargar_modelo_texto()
-asr = cargar_modelo_asr()
-tts = cargar_modelo_tts()
-# ======================================
-# PERSONALIDAD / SISTEMA DE AIDEN VOZ
-# ======================================
-AIDEN_VOICE_SYSTEM = """
 Eres AIDEN, una inteligencia artificial latina creada por la agencia JMC Studio Digital
 en Guayaquil, Ecuador, desarrollada por George Márquez.
-Este espacio está enfocado en conversación POR VOZ, pero tú piensas en texto
-y respondes SIEMPRE en ESPAÑOL LATINO neutro.
-Estilo de AIDEN VOZ:
-- Tono humano, cálido, cercano y profesional.
-- Masculino adulto, seguro, sereno (como un consultor tecnológico latino).
-- Sin emojis.
-- Lenguaje claro, natural y directo.
-- Puedes ser un poco más cercano si el tema es personal, pero siempre respetuoso.
-Normas estrictas:
-1. NO repitas la pregunta del usuario.
-2. NO inventes información fuera del tema actual.
-3. NO cambies de tema a menos que el usuario lo indique.
-4. Responde en 1–3 párrafos.
-5. Si el usuario pide una cantidad específica (ej: 3 ideas, 5 ejemplos),
-   respóndelas con una lista numerada breve y clara.
-6. Mantén siempre el foco en la conversación actual.
-7. Si no estás seguro de algo, dilo con honestidad.
-8. Si preguntan quién te creó, responde SIEMPRE:
    "Fui creado por JMC Studio Digital en Guayaquil, Ecuador, desarrollado por George Márquez."
-9. No hagas chistes innecesarios ni uses emojis. Sé humano, pero profesional.
-Frase final:
-Al terminar tu respuesta, añade SIEMPRE esta línea:
-"Si necesitas más detalles o deseas explorar otro tema, estoy aquí para ayudarte."
 """
-# ======================================
-# SESIÓN / HISTORIAL
-# ======================================
 if "voice_history" not in st.session_state:
-    # Lista de dicts: {"role": "user" / "assistant", "content": str}
     st.session_state["voice_history"] = []
-# ======================================
-# UTILIDADES
-# ======================================
 def construir_prompt_voz(user_message: str) -> str:
-    """
-    Construye el prompt para AIDEN Voz usando:
-    - Mensaje del sistema
-    - Últimos turnos de conversación de voz
-    """
     contexto = ""
-    for msg in st.session_state["voice_history"][-6:]:
-        if msg["role"] == "user":
-            contexto += f"Usuario: {msg['content']}\n"
-        else:
-            contexto += f"AIDEN: {msg['content']}\n"
     prompt = (
-        f"{AIDEN_VOICE_SYSTEM}\n\n"
-        f"{contexto}"
         f"Usuario: {user_message}\n"
         f"AIDEN:"
     )
     return prompt
-def limpiar_respuesta(respuesta_cruda: str, prompt: str) -> str:
-    """
-    Limpia la respuesta:
-    - Quita el prompt inicial
-    - Elimina prefijos tipo 'Usuario:' o 'AIDEN:'
-    - Corta frases de cierre automáticas no deseadas
-    - Añade la frase final elegante
-    """
-    # 1. Recortar el prompt
-    texto = respuesta_cruda[len(prompt):].strip()
-    # 2. Remover prefijos de turno
-    prefijos = ["Usuario:", "AIDEN:", "Assistant:", "User:"]
-    for p in prefijos:
-        if texto.startswith(p):
-            texto = texto[len(p):].strip()
-    # 3. Cortar residuos muy típicos
-    frases_corte = [
-        "Pregunta anterior",
-        "Respuesta anterior",
-        "¿Hay algo más",
-        "Gracias por la consulta",
-        "Si deseas saber más",
-        "¿Quieres explorar otro tema",
-    ]
-    for frase in frases_corte:
-        if frase in texto:
-            texto = texto.split(frase)[0].strip()
-    # 4. Quitar dobles saltos de línea extra al final
-    texto = texto.strip()
-    # 5. Garantizar cierre final elegante UNA sola vez
-    cierre = "Si necesitas más detalles o deseas explorar otro tema, estoy aquí para ayudarte."
-    if not texto.endswith(cierre):
-        # Evitamos duplicar si ya lo dijo en medio
-        if cierre in texto:
-            # Nos quedamos hasta el final de la primera vez que lo dice
-            texto = texto.split(cierre)[0].strip()
-        texto = texto.rstrip(".")  # evitar doble punto
-        texto = texto + ".\n\n" + cierre
-    return texto
 def generar_respuesta_voz(user_message: str) -> str:
-    """
-    Genera la respuesta de AIDEN para una entrada (texto ya transcrito).
-    """
     prompt = construir_prompt_voz(user_message)
     result = text_gen(
         prompt,
         max_new_tokens=220,
@@ -211,87 +166,148 @@ def generar_respuesta_voz(user_message: str) -> str:
         temperature=0.7,
         top_p=0.9,
     )
-    generado = result[0]["generated_text"]
-    respuesta_limpia = limpiar_respuesta(generado, prompt)
-    # Actualizar historial
-    st.session_state["voice_history"].append(
-        {"role": "user", "content": user_message}
-    )
     st.session_state["voice_history"].append(
-        {"role": "assistant", "content": respuesta_limpia}
     )
-    return respuesta_limpia
-def texto_a_wav_bytes(texto: str) -> bytes:
-    """
-    Convierte texto a audio WAV en memoria usando MMS TTS español.
-    """
-    out = tts(texto)
-    audio = out["audio"]           # numpy array
-    sr = out["sampling_rate"]      # frecuencia de muestreo
     buf = io.BytesIO()
-    # PCM_16 para máxima compatibilidad con el reproductor web
-    sf.write(buf, audio, sr, format="WAV", subtype="PCM_16")
     buf.seek(0)
     return buf.read()
-def transcribir_audio(audio_bytes: bytes) -> str:
-    """
-    Guarda los bytes como WAV temporal y usa Whisper para transcribir.
-    """
-    with tempfile.NamedTemporaryFile(suffix=".wav", delete=True) as tmp:
-        tmp.write(audio_bytes)
-        tmp.flush()
-        out = asr(tmp.name)
-    texto = out.get("text", "").strip()
-    return texto
-# ======================================
-# INTERFAZ DE USUARIO – AIDEN VOZ
-# ======================================
-st.subheader("🎙️ Conversa con AIDEN por voz")
-st.markdown(
-    "Pulsa el botón para grabar, habla con naturalidad y espera a que AIDEN "
-    "transcriba y responda con voz latina profesional."
 )
-audio_bytes = audio_recorder()
 if audio_bytes:
-    st.markdown("#### 🎧 Tu audio grabado")
-    st.audio(audio_bytes, format="audio/wav")
-    with st.spinner("Transcribiendo y generando respuesta de AIDEN…"):
-        try:
-            texto_usuario = transcribir_audio(audio_bytes)
-            if not texto_usuario:
-                st.error("No pude reconocer nada en el audio. Intenta hablar un poco más claro o más cerca del micrófono.")
-            else:
-                st.markdown("#### 🗣️ Tú dijiste:")
-                st.write(texto_usuario)
-                respuesta_aiden = generar_respuesta_voz(texto_usuario)
-                st.markdown("#### 🤖 Respuesta de AIDEN (texto):")
-                st.write(respuesta_aiden)
-                audio_respuesta = texto_a_wav_bytes(respuesta_aiden)
-                st.markdown("#### 🔊 Respuesta de AIDEN (voz):")
-                st.audio(audio_respuesta, format="audio/wav")
         except Exception as e:
-            st.error(f"Error procesando la conversación por voz: {str(e)}")
 st.write("---")
 st.markdown(
-    "<p style='text-align:center; color:gray;'>AIDEN — Voz Latina • Desarrollado por JMC Studio Digital</p>",
     unsafe_allow_html=True,
 )

 import base64
 import io
 import soundfile as sf
+import torch
+# =====================================
+# CONFIGURACIÓN GENERAL DE LA APP
+# =====================================
 st.set_page_config(
+    page_title="AIDEN – Voz Conversacional Latina",
     layout="centered",
     page_icon="🎙️",
 )
+# =====================================
+# LOGOTIPO AIDEN
+# =====================================
 def cargar_logo(ruta: str) -> str:
     with open(ruta, "rb") as f:
         data = f.read()
     return base64.b64encode(data).decode("utf-8")
+# IMPORTANTE: asegúrate de que este archivo exista:
+# assets/aiden_logo.png
 logo_b64 = cargar_logo("assets/aiden_logo.png")
 st.markdown(
     <div style="text-align:center; margin-top:20px;">
         <img src="data:image/png;base64,{logo_b64}" width="180">
         <h1 style="font-family:sans-serif; color:white; margin-top:10px;">
+            AIDEN — Voz Conversacional Latina
         </h1>
         <p style="color:#cccccc; font-size:17px;">
+            Habla con AIDEN en español latino, con tono humano, cálido y profesional.
         </p>
     </div>
     """,
     unsafe_allow_html=True,
 )
+st.write("")
+# =====================================
+# CARGA DE MODELOS
+# =====================================
+TEXT_MODEL_NAME = "Qwen/Qwen2.5-1.5B-Instruct"      # mismo cerebro que AIDEN TEXTO
+ASR_MODEL_NAME = "openai/whisper-base"             # voz -> texto
+TTS_MODEL_NAME = "hexgrad/Kokoro-82M"              # texto -> voz (Kokoro)
 @st.cache_resource
 def cargar_modelo_texto():
+    """Carga el modelo de texto Qwen en GPU si existe, sino en CPU."""
+    kwargs = {"task": "text-generation", "model": TEXT_MODEL_NAME}
+    try:
+        if torch.cuda.is_available():
+            kwargs["device_map"] = "auto"
+            kwargs["torch_dtype"] = torch.float16
+        else:
+            # CPU
+            kwargs["device_map"] = "cpu"
+    except Exception:
+        # Si por alguna razón falla la detección de CUDA, que siga en modo default
+        pass
+    generator = pipeline(**kwargs)
     return generator
 @st.cache_resource
 def cargar_modelo_asr():
+    """Carga Whisper-base para reconocimiento de voz."""
     asr = pipeline(
         task="automatic-speech-recognition",
         model=ASR_MODEL_NAME,
     )
     return asr
 @st.cache_resource
 def cargar_modelo_tts():
+    """Carga Kokoro para texto a voz."""
     tts = pipeline(
         task="text-to-speech",
         model=TTS_MODEL_NAME,
 text_gen = cargar_modelo_texto()
+asr_pipe = cargar_modelo_asr()
+tts_pipe = cargar_modelo_tts()
+# =====================================
+# PERSONALIDAD DE AIDEN (VERSIÓN VOZ)
+# =====================================
+AIDEN_SYSTEM_PROMPT_VOZ = """
 Eres AIDEN, una inteligencia artificial latina creada por la agencia JMC Studio Digital
 en Guayaquil, Ecuador, desarrollada por George Márquez.
+Tu misión en este espacio es conversar por VOZ con las personas, en español latino neutro.
+Estilo:
+- Tono humano, cálido, cercano y respetuoso.
+- Profesional cuando hablas de trabajo, negocios, tecnología, ciencia o IA.
+- Más relajado y amigable cuando te piden compañía, temas personales o cotidianos.
+- Siempre educado, empático y claro.
+Reglas:
+1. Responde SIEMPRE en español latino neutro.
+2. NO repitas la pregunta del usuario.
+3. No abras temas nuevos que el usuario no ha pedido.
+4. Responde en 1 a 3 párrafos máximo.
+5. Nada de emojis, ni chistes fuera de lugar. Sólo calidez humana y serenidad.
+6. Si el usuario te pregunta quién te creó, responde:
    "Fui creado por JMC Studio Digital en Guayaquil, Ecuador, desarrollado por George Márquez."
+7. Tu respuesta debe sonar natural cuando se lea en voz alta.
 """
+# =====================================
+# ESTADO: HISTORIAL DE VOZ
+# =====================================
 if "voice_history" not in st.session_state:
+    # Lista de {"user": str, "assistant": str}
     st.session_state["voice_history"] = []
+# =====================================
+# FUNCIONES DE LÓGICA
+# =====================================
 def construir_prompt_voz(user_message: str) -> str:
+    """Construye el prompt para Qwen usando las últimas interacciones de voz."""
     contexto = ""
+    # Tomamos las últimas 4 interacciones para contexto
+    for turno in st.session_state["voice_history"][-4:]:
+        contexto += f"Usuario: {turno['user']}\n"
+        contexto += f"AIDEN: {turno['assistant']}\n"
     prompt = (
+        f"{AIDEN_SYSTEM_PROMPT_VOZ}\n\n"
+        f"{contexto}\n"
         f"Usuario: {user_message}\n"
         f"AIDEN:"
     )
     return prompt
 def generar_respuesta_voz(user_message: str) -> str:
+    """Genera respuesta de AIDEN para voz (texto que después se convertirá a audio)."""
     prompt = construir_prompt_voz(user_message)
     result = text_gen(
         prompt,
         max_new_tokens=220,
         temperature=0.7,
         top_p=0.9,
     )
+    full_text = result[0]["generated_text"]
+    raw = full_text[len(prompt):].strip()
+    # limpieza de prefijos tipo diálogo
+    for pref in ["Usuario:", "AIDEN:", "User:", "Assistant:"]:
+        if raw.startswith(pref):
+            raw = raw[len(pref):].strip()
+    # limpieza simple de frases genéricas largas
+    cortes = [
+        "Pregunta anterior",
+        "Respuesta anterior",
+        "¿Hay algo más",
+        "Si necesitas más detalles",
+        "Si deseas profundizar",
+        "¿Te gustaría saber algo más",
+    ]
+    for frase in cortes:
+        if frase in raw:
+            raw = raw.split(frase)[0].strip()
+    respuesta = raw.strip()
+    # Guardamos en historial
     st.session_state["voice_history"].append(
+        {"user": user_message, "assistant": respuesta}
     )
+    return respuesta
+def texto_a_audio_bytes(texto: str) -> bytes:
+    """Convierte texto en audio WAV usando Kokoro y lo devuelve como bytes."""
+    if not texto.strip():
+        texto = "No recibí texto para convertir en voz."
+    out = tts_pipe(texto)
+    audio = out["audio"]          # numpy array
+    sr = out["sampling_rate"]     # frecuencia de muestreo
     buf = io.BytesIO()
+    sf.write(buf, audio, sr, format="wav")
     buf.seek(0)
     return buf.read()
+# =====================================
+# INTERFAZ PRINCIPAL — AIDEN VOZ
+# =====================================
+st.subheader("🎙️ Habla con AIDEN por voz")
+st.caption(
+    "Pulsa el botón para grabar tu mensaje. "
+    "AIDEN lo entenderá, responderá en texto y luego hablará en voz."
+)
+# Widget de grabación de audio
+audio_bytes = audio_recorder(
+    text="🎙️ Pulsa aquí para hablar con AIDEN",
+    recording_color="#1976D2",   # azul AIDEN
+    neutral_color="#444444",
+    icon_size="3x",
 )
+user_transcript = None
+respuesta_aiden = None
+respuesta_audio = None
 if audio_bytes:
+    try:
+        # 1) Reconocimiento de voz (Whisper)
+        asr_output = asr_pipe(audio_bytes)
+        user_transcript = asr_output.get("text", "").strip()
+        if not user_transcript:
+            st.warning("No pude entender claramente el audio. Intenta hablar un poco más fuerte o más cerca del micrófono.")
+        else:
+            # 2) Generar respuesta de AIDEN (texto)
+            respuesta_aiden = generar_respuesta_voz(user_transcript)
+            # 3) Generar voz de AIDEN
+            respuesta_audio = texto_a_audio_bytes(respuesta_aiden)
+    except Exception as e:
+        st.error(f"Error procesando el audio: {e}")
+# Mostrar resultados del turno actual
+if user_transcript:
+    st.markdown("### 📝 Texto reconocido")
+    st.write(user_transcript)
+if respuesta_aiden:
+    st.markdown("### 🤖 Respuesta de AIDEN (texto)")
+    st.write(respuesta_aiden)
+if respuesta_audio:
+    st.markdown("### 🔊 Respuesta de AIDEN (voz)")
+    st.audio(respuesta_audio, format="audio/wav")
+st.write("---")
+# =====================================
+# SECCIÓN EXTRA — TEXTO → VOZ DIRECTA
+# =====================================
+st.subheader("📝 → 🔊 Escribe algo y escucha cómo lo diría AIDEN")
+texto_manual = st.text_input(
+    "Escribe un texto para que AIDEN lo diga en voz alta:",
+    key="manual_tts_input",
+)
+if st.button("🔊 Reproducir voz de AIDEN", disabled=not bool(texto_manual.strip())):
+    if not texto_manual.strip():
+        st.warning("Escribe primero un texto para convertirlo en voz.")
+    else:
+        try:
+            audio_manual = texto_a_audio_bytes(texto_manual.strip())
+            st.audio(audio_manual, format="audio/wav")
         except Exception as e:
+            st.error(f"Error generando la voz de AIDEN: {e}")
 st.write("---")
+# =====================================
+# HISTORIAL DE CONVERSACIÓN
+# =====================================
+st.markdown("### 🧾 Historial de conversación por voz")
+if not st.session_state["voice_history"]:
+    st.info("Aún no hay historial. Graba tu primer mensaje para iniciar la conversación.")
+else:
+    for turno in reversed(st.session_state["voice_history"]):
+        st.markdown(f"**Tú:** {turno['user']}")
+        st.markdown(f"**AIDEN:** {turno['assistant']}")
+        st.markdown("---")
+# =====================================
+# FOOTER
+# =====================================
 st.markdown(
+    "<p style='text-align:center; color:gray;'>AIDEN — Desarrollado por JMC Studio Digital</p>",
     unsafe_allow_html=True,
 )