Spaces:

saa231
/

MutimodalVisionAssistant

Paused

App Files Files Community

saa231 commited on Apr 26, 2025

Commit

aac3d9d

verified ·

1 Parent(s): 23013ca

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -21

app.py CHANGED Viewed

@@ -3,16 +3,16 @@ import gradio as gr
 import os
 from project_model import process_inputs, session
-# --- Handle both initial upload and follow-up ---
-def handle_submit(image, audio, followup_audio):
     """
-    Handles both initial question and follow-up.
-    Priority:
-    - If new image + audio => initial upload
-    - If only followup audio => follow-up
     """
     if image is not None and audio is not None:
-        # Initial case
         message, answer_audio = process_inputs(session, image=image, audio_path=audio)
         # Save uploaded image
@@ -22,19 +22,20 @@ def handle_submit(image, audio, followup_audio):
         markdown_reply = f"**{message}**\n\n![Context Image](file/{image_save_path})"
         return markdown_reply, answer_audio
-    elif followup_audio is not None:
-        # Follow-up case
-        message, answer_audio = process_inputs(session, audio_path=followup_audio)
-        # Reuse saved image
         image_save_path = "uploaded_image.png"
-        session.current_image.save(image_save_path)
         markdown_reply = f"**{message}**\n\n![Context Image](file/{image_save_path})"
         return markdown_reply, answer_audio
     else:
-        return "❗ Please upload image/audio or record a follow-up.", None
 # --- Gradio App ---
 with gr.Blocks() as demo:
@@ -42,21 +43,19 @@ with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column():
-            image_input = gr.Image(label="Upload or Capture Image", sources=["upload", "webcam"], type="pil")
-            audio_input = gr.Audio(label="Initial Question (Voice)", sources=["microphone"], type="filepath")
-            gr.Markdown("### 🎤 OR Ask a Follow-up Question")
-            followup_audio_input = gr.Audio(label="Follow-up Question (Voice)", sources=["microphone"], type="filepath")
-            submit_btn = gr.Button("Submit Question / Follow-up")  # <== 🔥 Single button
         with gr.Column():
             status_output = gr.Markdown(label="Response")
-            audio_output = gr.Audio(label="🔊 Response Audio", interactive=False)
-    # Hook up the single submit button
     submit_btn.click(
         fn=handle_submit,
-        inputs=[image_input, audio_input, followup_audio_input],
         outputs=[status_output, audio_output]
     )

 import os
 from project_model import process_inputs, session
+# --- Handle submission for both initial and follow-up ---
+def handle_submit(image, audio):
     """
+    Handles both initial upload and follow-up.
+    Logic:
+    - If new image + audio => initial interaction
+    - If only audio => follow-up
     """
     if image is not None and audio is not None:
+        # Initial case: reset with image and audio
         message, answer_audio = process_inputs(session, image=image, audio_path=audio)
         # Save uploaded image
         markdown_reply = f"**{message}**\n\n![Context Image](file/{image_save_path})"
         return markdown_reply, answer_audio
+    elif audio is not None:
+        # Follow-up case: use previous image, but new audio (question)
+        message, answer_audio = process_inputs(session, image=None, audio_path=audio)
+        # Still display existing image
         image_save_path = "uploaded_image.png"
+        if session.current_image:
+            session.current_image.save(image_save_path)
         markdown_reply = f"**{message}**\n\n![Context Image](file/{image_save_path})"
         return markdown_reply, answer_audio
     else:
+        return "❗ Please upload an image and/or record audio.", None
 # --- Gradio App ---
 with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column():
+            image_input = gr.Image(label="Upload or Capture Image (only first time)", sources=["upload", "webcam"], type="pil")
+            audio_input = gr.Audio(label="Speak Your Question", sources=["microphone"], type="filepath")
+            submit_btn = gr.Button("Submit Question")
         with gr.Column():
             status_output = gr.Markdown(label="Response")
+            audio_output = gr.Audio(label="🔊 Listen to Response", interactive=False)
+    # Connect submit button
     submit_btn.click(
         fn=handle_submit,
+        inputs=[image_input, audio_input],
         outputs=[status_output, audio_output]
     )