Spaces:

BATUTO-ART
/

Maverick_batuto_pro

Running

App Files Files Community

BATUTO-ART commited on Nov 13, 2025

Commit

59ca944

verified ·

1 Parent(s): 58255ff

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -16

app.py CHANGED Viewed

@@ -55,7 +55,7 @@ def generar_respuesta(texto, imagen_pil):
         img_b64 = imagen_pil_a_base64(imagen_pil)
         contenido.append({
             "type": "image_url",
-            "image_url": {"url": f"data:image/jpeg;base64,{img_b64}"}
         })
     headers = {
@@ -94,13 +94,19 @@ def generar_audio(texto, voz_id=VOICE_ID_DEFAULT):
         print("Error en Hume TTS:", e)
         return None
-def manejar_chat(audio_path, imagen_pil, historial, voz_id):
     if historial is None:
         historial = []
-    texto_usuario = audio_a_texto(audio_path)
-    if not texto_usuario:
-        return historial, None, "No entendí lo que dijiste. ¿Puedes repetirlo?"
     historial.append({"role": "user", "content": texto_usuario})
     respuesta = generar_respuesta(texto_usuario, imagen_pil)
@@ -113,16 +119,18 @@ def limpiar_chat():
     return [], None, ""
 # --- Interfaz Gradio ---
-with gr.Blocks(title="Batuto AI Voz-a-Voz", theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# 🗣️ Batuto AI: Habla conmigo (voz + imagen)")
-    gr.Markdown("Presiona el micrófono, habla, y opcionalmente sube una imagen.")
     chat = gr.Chatbot(label="Conversación", height=400, type="messages")
     with gr.Row():
-        audio_in = gr.Audio(sources=["microphone"], type="filepath", label="🎤 Habla aquí")
-        imagen_in = gr.Image(label="📸 Imagen opcional", type="pil")
     with gr.Row():
         voz_sel = gr.Dropdown(
             label="Voz de respuesta",
@@ -135,13 +143,19 @@ with gr.Blocks(title="Batuto AI Voz-a-Voz", theme=gr.themes.Soft()) as demo:
         )
         enviar_btn = gr.Button("Enviar")
         limpiar_btn = gr.Button("Limpiar")
     salida_texto = gr.Textbox(label="Respuesta", interactive=False)
     salida_audio = gr.Audio(label="Audio", autoplay=True, interactive=False)
     enviar_btn.click(
-        manejar_chat,
-        inputs=[audio_in, imagen_in, chat, voz_sel],
         outputs=[chat, salida_audio, salida_texto]
     )
     limpiar_btn.click(limpiar_chat, outputs=[chat, salida_audio, salida_texto])

         img_b64 = imagen_pil_a_base64(imagen_pil)
         contenido.append({
             "type": "image_url",
+            "image_url": {"url": f"image/jpeg;base64,{img_b64}"}
         })
     headers = {
         print("Error en Hume TTS:", e)
         return None
+def manejar_entrada(texto_input, audio_input, imagen_pil, historial, voz_id):
     if historial is None:
         historial = []
+    # Determinar entrada: texto tiene prioridad sobre audio
+    if texto_input and texto_input.strip():
+        texto_usuario = texto_input.strip()
+    elif audio_input:
+        texto_usuario = audio_a_texto(audio_input)
+        if not texto_usuario:
+            return historial, None, "No entendí lo que dijiste. ¿Puedes repetirlo?"
+    else:
+        return historial, None, "Por favor, escribe algo o habla."
     historial.append({"role": "user", "content": texto_usuario})
     respuesta = generar_respuesta(texto_usuario, imagen_pil)
     return [], None, ""
 # --- Interfaz Gradio ---
+with gr.Blocks(title="Batuto AI Voz + Texto → Voz", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 🧠 Batuto AI: Texto o Voz → Respuesta en Voz")
+    gr.Markdown("Escribe **o** habla. Sube una imagen si lo deseas. Siempre respondo con **voz empática**.")
     chat = gr.Chatbot(label="Conversación", height=400, type="messages")
     with gr.Row():
+        texto_in = gr.Textbox(label="📝 Escribe tu mensaje", lines=1, placeholder="Ej: ¿Qué ves en esta imagen?")
+        audio_in = gr.Audio(sources=["microphone"], type="filepath", label="🎤 O habla aquí")
+    imagen_in = gr.Image(label="📸 Imagen opcional", type="pil")
     with gr.Row():
         voz_sel = gr.Dropdown(
             label="Voz de respuesta",
         )
         enviar_btn = gr.Button("Enviar")
         limpiar_btn = gr.Button("Limpiar")
     salida_texto = gr.Textbox(label="Respuesta", interactive=False)
     salida_audio = gr.Audio(label="Audio", autoplay=True, interactive=False)
+    # Eventos
     enviar_btn.click(
+        manejar_entrada,
+        inputs=[texto_in, audio_in, imagen_in, chat, voz_sel],
+        outputs=[chat, salida_audio, salida_texto]
+    )
+    texto_in.submit(
+        manejar_entrada,
+        inputs=[texto_in, audio_in, imagen_in, chat, voz_sel],
         outputs=[chat, salida_audio, salida_texto]
     )
     limpiar_btn.click(limpiar_chat, outputs=[chat, salida_audio, salida_texto])