Spaces:

saa231
/

MutimodalVisionAssistant

Paused

App Files Files Community

saa231 commited on Apr 27, 2025

Commit

70f14f4

verified ·

1 Parent(s): 9ad4c7a

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -20

app.py CHANGED Viewed

@@ -6,44 +6,58 @@ from project_model import process_inputs, session
 # --- Handle Initial Upload ---
 def handle_initial(image, audio):
     if image is None or audio is None:
-        return "❗ Please upload both an image and an audio clip."
     message, answer_audio = process_inputs(session, image=image, audio_path=audio)
-    # Save image locally
-    image_save_path = "uploaded_image.png"
-    image.save(image_save_path)
     # Build markdown reply
     markdown_reply = (
         f"**{message}**\n\n"
-        f"![Context Image](file/{image_save_path})\n\n"
-        f"[🔊 Listen to the Answer](file/{answer_audio})"
     )
-    return markdown_reply
 # --- Handle Follow-up ---
 def handle_followup(followup_audio):
     if followup_audio is None:
-        return "❗ Please record a follow-up question."
     message, answer_audio = process_inputs(session, audio_path=followup_audio)
-    # Reuse saved image
-    image_save_path = "uploaded_image.png"
-    session.current_image.save(image_save_path)
     # Build markdown reply
     markdown_reply = (
         f"**{message}**\n\n"
-        f"![Context Image](file/{image_save_path})\n\n"
-        f"[🔊 Listen to the Answer](file/{answer_audio})"
     )
-    return markdown_reply
 # --- Gradio App ---
 with gr.Blocks() as demo:
-    gr.Markdown("## 👁️🎙️ Multimodal Visual Q&A with Audio Output")
     with gr.Row():
         with gr.Column():
@@ -51,24 +65,25 @@ with gr.Blocks() as demo:
             audio_input = gr.Audio(label="Initial Question (Voice)", sources=["microphone"], type="filepath")
             submit_btn = gr.Button("Submit Initial Q&A")
-            gr.Markdown("### 🎤 Ask a Follow-up Question")
             followup_audio_input = gr.Audio(label="Follow-up Question", sources=["microphone"], type="filepath")
             followup_btn = gr.Button("Ask Follow-up")
         with gr.Column():
-            status_output = gr.Textbox(label="Response", interactive=False, lines=10)
-    # Single Textbox Output
     submit_btn.click(
         fn=handle_initial,
         inputs=[image_input, audio_input],
-        outputs=status_output
     )
     followup_btn.click(
         fn=handle_followup,
         inputs=[followup_audio_input],
-        outputs=status_output
     )
 if __name__ == "__main__":

 # --- Handle Initial Upload ---
 def handle_initial(image, audio):
     if image is None or audio is None:
+        return "Please upload both an image and an audio clip.", None
     message, answer_audio = process_inputs(session, image=image, audio_path=audio)
+    # Save images
+    original_path = "uploaded_image.png"
+    annotated_path = "annotated_image.png"
+    image.save(original_path)
+    if session.annotated_image:
+        session.annotated_image.save(annotated_path)
     # Build markdown reply
     markdown_reply = (
         f"**{message}**\n\n"
+        f"**Original Image:**\n\n"
+        f"![Original Image](file/{original_path})\n\n"
+        f"**Detected Objects:**\n\n"
+        f"![Annotated Image](file/{annotated_path})"
     )
+    return markdown_reply, answer_audio
 # --- Handle Follow-up ---
 def handle_followup(followup_audio):
     if followup_audio is None:
+        return "❗ Please record a follow-up question.", None
     message, answer_audio = process_inputs(session, audio_path=followup_audio)
+    # Save original and annotated images again
+    original_path = "uploaded_image.png"
+    annotated_path = "annotated_image.png"
+    if session.current_image:
+        session.current_image.save(original_path)
+    if session.annotated_image:
+        session.annotated_image.save(annotated_path)
     # Build markdown reply
     markdown_reply = (
         f"**{message}**\n\n"
+        f"**Original Image:**\n\n"
+        f"![Original Image](file/{original_path})\n\n"
+        f"**Detected Objects:**\n\n"
+        f"![Annotated Image](file/{annotated_path})"
     )
+    return markdown_reply, answer_audio
 # --- Gradio App ---
 with gr.Blocks() as demo:
+    gr.Markdown("##Multimodal Visual Q&A with Audio Output")
     with gr.Row():
         with gr.Column():
             audio_input = gr.Audio(label="Initial Question (Voice)", sources=["microphone"], type="filepath")
             submit_btn = gr.Button("Submit Initial Q&A")
+            gr.Markdown("### Ask a Follow-up Question")
             followup_audio_input = gr.Audio(label="Follow-up Question", sources=["microphone"], type="filepath")
             followup_btn = gr.Button("Ask Follow-up")
         with gr.Column():
+            status_output = gr.Markdown(label="Response")  # change from Textbox to Markdown!
+            audio_output = gr.Audio(label="Audio Answer", interactive=False)
+    # Two outputs now
     submit_btn.click(
         fn=handle_initial,
         inputs=[image_input, audio_input],
+        outputs=[status_output, audio_output]
     )
     followup_btn.click(
         fn=handle_followup,
         inputs=[followup_audio_input],
+        outputs=[status_output, audio_output]
     )
 if __name__ == "__main__":