Spaces:

saa231
/

MutimodalVisionAssistant

Paused

App Files Files Community

saa231 commited on Apr 27, 2025

Commit

334328d

verified ·

1 Parent(s): 4eee73a

Update app.py

Browse files

Merged the initial and follow-up record and submit buttons to reduce redundancy

Files changed (1) hide show

app.py +57 -68

app.py CHANGED Viewed

@@ -3,64 +3,61 @@ import gradio as gr
 import os
 from project_model import process_inputs, session
-# --- Handle Initial Upload ---
-def handle_initial(image, audio):
-    if image is None or audio is None:
-        return "Please upload both an image and an audio clip.", None
-    message, answer_audio = process_inputs(session, image=image, audio_path=audio)
-    # Save images
-    original_path = "uploaded_image.png"
-    annotated_path = "annotated_image.png"
-    image.save(original_path)
-    if session.annotated_image:
-        session.annotated_image.save(annotated_path)
-    # Build markdown reply
-    markdown_reply = (
-    f"**{message}**\n\n"
-    f"**Original Image:**\n\n"
-    f"![Original Image](file/{original_path})\n\n"
-    f"**Detected Objects:**\n\n"
-    #f"![Annotated Image](file/{annotated_path})\n\n"
-    #f"**🔊 Audio Response:**\n\n"
-    #f"<audio controls autoplay>\n"
-    #f"  <source src='file/{answer_audio}' type='audio/wav'>\n"
-    #f"Your browser does not support the audio element.\n"
-    #f"</audio>"
-    )
-    return markdown_reply, answer_audio
-# --- Handle Follow-up ---
-def handle_followup(followup_audio):
-    if followup_audio is None:
-        return "❗ Please record a follow-up question.", None
-    message, answer_audio = process_inputs(session, audio_path=followup_audio)
-    # Save original and annotated images again
-    original_path = "uploaded_image.png"
-    annotated_path = "annotated_image.png"
-    if session.current_image:
-        session.current_image.save(original_path)
-    if session.annotated_image:
-        session.annotated_image.save(annotated_path)
-    # Build markdown reply
-    markdown_reply = (
-        f"**{message}**\n\n"
-        f"**Original Image:**\n\n"
-        f"![Original Image](file/{original_path})\n\n"
-        f"**Detected Objects:**\n\n"
-        f"![Annotated Image](file/{annotated_path})"
-    )
     return markdown_reply, answer_audio
 # --- Gradio App ---
 with gr.Blocks() as demo:
     gr.Markdown("## Multimodal Visual Q&A with Audio Output")
@@ -69,28 +66,20 @@ with gr.Blocks() as demo:
         with gr.Column():
             image_input = gr.Image(label="Upload or Capture Image", sources=["upload", "webcam"], type="pil")
             audio_input = gr.Audio(label="Initial Question (Voice)", sources=["microphone"], type="filepath")
-            submit_btn = gr.Button("Submit Initial Q&A")
-            gr.Markdown("### Ask a Follow-up Question")
-            followup_audio_input = gr.Audio(label="Follow-up Question", sources=["microphone"], type="filepath")
-            followup_btn = gr.Button("Ask Follow-up")
         with gr.Column():
             status_output = gr.Markdown(label="Response")  # change from Textbox to Markdown!
             audio_output = gr.Audio(label="Audio Answer", interactive=False)
-    # Two outputs now
     submit_btn.click(
-        fn=handle_initial,
-        inputs=[image_input, audio_input],
-        outputs=[status_output, audio_output]
-    )
-    followup_btn.click(
-        fn=handle_followup,
-        inputs=[followup_audio_input],
         outputs=[status_output, audio_output]
     )
 if __name__ == "__main__":
-    demo.launch(show_error=True, share=True)

 import os
 from project_model import process_inputs, session
+# --- Handle Initial and Follow-up ---
+def handle_question(image, audio, followup_audio=None):
+    # Initial check for image and audio for first question
+    if image and audio:
+        message, answer_audio = process_inputs(session, image=image, audio_path=audio)
+        # Save images
+        original_path = "uploaded_image.png"
+        annotated_path = "annotated_image.png"
+        image.save(original_path)
+        if session.annotated_image:
+            session.annotated_image.save(annotated_path)
+        # Build markdown reply for initial question
+        markdown_reply = (
+            f"**{message}**\n\n"
+            #f"**Original Image:**\n\n"
+            #f"![Original Image](file/{original_path})\n\n"
+            #f"**Detected Objects:**\n\n"
+            #f"![Annotated Image](file/{annotated_path})\n\n"
+            #f"**🔊 Audio Response:**\n\n"
+            #f"<audio controls autoplay>\n"
+            #f"  <source src='file/{answer_audio}' type='audio/wav'>\n"
+            #f"Your browser does not support the audio element.\n"
+            #f"</audio>"
+        )
+    # Handle follow-up if no initial image/audio but only follow-up audio
+    elif followup_audio:
+        message, answer_audio = process_inputs(session, audio_path=followup_audio)
+        # Save original and annotated images again
+        original_path = "uploaded_image.png"
+        annotated_path = "annotated_image.png"
+        if session.current_image:
+            session.current_image.save(original_path)
+        if session.annotated_image:
+            session.annotated_image.save(annotated_path)
+        # Build markdown reply for follow-up question
+        markdown_reply = (
+            f"**{message}**\n\n"
+            #f"**Original Image:**\n\n"
+            #f"![Original Image](file/{original_path})\n\n"
+            #f"**Detected Objects:**\n\n"
+            #f"![Annotated Image](file/{annotated_path})"
+        )
+    else:
+        return "Please upload both an image and an audio clip for the initial question or record a follow-up question.", None
     return markdown_reply, answer_audio
 # --- Gradio App ---
 with gr.Blocks() as demo:
     gr.Markdown("## Multimodal Visual Q&A with Audio Output")
         with gr.Column():
             image_input = gr.Image(label="Upload or Capture Image", sources=["upload", "webcam"], type="pil")
             audio_input = gr.Audio(label="Initial Question (Voice)", sources=["microphone"], type="filepath")
+            followup_audio_input = gr.Audio(label="Follow-up Question (Voice)", sources=["microphone"], type="filepath")
+            submit_btn = gr.Button("Submit Question")
         with gr.Column():
             status_output = gr.Markdown(label="Response")  # change from Textbox to Markdown!
             audio_output = gr.Audio(label="Audio Answer", interactive=False)
+    # Single button now for both initial and follow-up inputs
     submit_btn.click(
+        fn=handle_question,
+        inputs=[image_input, audio_input, followup_audio_input],
         outputs=[status_output, audio_output]
     )
 if __name__ == "__main__":
+    demo.launch(show_error=True, share=True)