Spaces:

saa231
/

MutimodalVisionAssistant

Paused

App Files Files Community

saa231 commited on Apr 26, 2025

Commit

8cdf492

verified ·

1 Parent(s): 19c4411

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -38

app.py CHANGED Viewed

@@ -3,63 +3,72 @@ import gradio as gr
 import os
 from project_model import process_inputs, session
-# --- Handle submission for both initial and follow-up ---
-def handle_submit(image, audio):
-    """
-    Handles both initial upload and follow-up.
-    Logic:
-    - If new image + audio => initial interaction
-    - If only audio => follow-up
-    """
-    if image is not None and audio is not None:
-        # Initial case: new image uploaded
-        message, answer_audio = process_inputs(session, image=image, audio_path=audio)
-        # Save uploaded image
-        image_save_path = "uploaded_image.png"
-        image.save(image_save_path)
-        markdown_reply = f"**{message}**\n\n![Context Image](file/{image_save_path})"
-        return markdown_reply, answer_audio
-    elif audio is not None:
-        # Follow-up case: use existing image and new audio
-        if session.current_image is None:
-            return "❗ No previous image found. Please upload an image first.", None
-        # Pass the session's current image again
-        message, answer_audio = process_inputs(session, image=session.current_image, audio_path=audio)
-        # Save existing image (again)
-        image_save_path = "uploaded_image.png"
-        session.current_image.save(image_save_path)
-        markdown_reply = f"**{message}**\n\n![Context Image](file/{image_save_path})"
-        return markdown_reply, answer_audio
-    else:
-        return "❗ Please upload an image and/or record audio.", None
 # --- Gradio App ---
 with gr.Blocks() as demo:
-    gr.Markdown("## 👁️🎙️ Multimodal Visual Q&A with Audio Response")
     with gr.Row():
         with gr.Column():
-            image_input = gr.Image(label="Upload or Capture Image (only first time)", sources=["upload", "webcam"], type="pil")
-            audio_input = gr.Audio(label="Speak Your Question", sources=["microphone"], type="filepath")
-            submit_btn = gr.Button("Submit Question")
         with gr.Column():
-            status_output = gr.Markdown(label="Response")
-            audio_output = gr.Audio(label="🔊 Listen to Response", interactive=False)
-    # Connect submit button
     submit_btn.click(
-        fn=handle_submit,
         inputs=[image_input, audio_input],
-        outputs=[status_output, audio_output]
     )
 if __name__ == "__main__":

 import os
 from project_model import process_inputs, session
+# --- Handle Initial Upload ---
+def handle_initial(image, audio):
+    if image is None or audio is None:
+        return "❗ Please upload both an image and an audio clip."
+    message, answer_audio = process_inputs(session, image=image, audio_path=audio)
+    # Save image locally
+    image_save_path = "uploaded_image.png"
+    image.save(image_save_path)
+    # Build markdown reply
+    markdown_reply = (
+        f"**{message}**\n\n"
+        f"![Context Image](file/{image_save_path})\n\n"
+        f"[🔊 Listen to the Answer](file/{answer_audio})"
+    )
+    return markdown_reply
+# --- Handle Follow-up ---
+def handle_followup(followup_audio):
+    if followup_audio is None:
+        return "❗ Please record a follow-up question."
+    message, answer_audio = process_inputs(session, audio_path=followup_audio)
+    # Reuse saved image
+    image_save_path = "uploaded_image.png"
+    session.current_image.save(image_save_path)
+    # Build markdown reply
+    markdown_reply = (
+        f"**{message}**\n\n"
+        f"![Context Image](file/{image_save_path})\n\n"
+        f"[🔊 Listen to the Answer](file/{answer_audio})"
+    )
+    return markdown_reply
 # --- Gradio App ---
 with gr.Blocks() as demo:
+    gr.Markdown("## 👁️🎙️ Multimodal Visual Q&A with Audio Output")
     with gr.Row():
         with gr.Column():
+            image_input = gr.Image(label="Upload or Capture Image", sources=["upload", "webcam"], type="pil")
+            audio_input = gr.Audio(label="Initial Question (Voice)", sources=["microphone"], type="filepath")
+            submit_btn = gr.Button("Submit Initial Q&A")
+            gr.Markdown("### 🎤 Ask a Follow-up Question")
+            followup_audio_input = gr.Audio(label="Follow-up Question", sources=["microphone"], type="filepath")
+            followup_btn = gr.Button("Ask Follow-up")
         with gr.Column():
+            status_output = gr.Textbox(label="Response", interactive=False, lines=10)
+    # Single Textbox Output
     submit_btn.click(
+        fn=handle_initial,
         inputs=[image_input, audio_input],
+        outputs=status_output
+    )
+    followup_btn.click(
+        fn=handle_followup,
+        inputs=[followup_audio_input],
+        outputs=status_output
     )
 if __name__ == "__main__":