Spaces:

saa231
/

MutimodalVisionAssistant

Paused

App Files Files Community

saa231 commited on Apr 28, 2025

Commit

109c765

verified ·

1 Parent(s): ca82b95

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -48

app.py CHANGED Viewed

@@ -1,62 +1,48 @@
 from PIL import Image
 import gradio as gr
-import os
 import uuid
 from project_model import process_inputs, session
 def handle_question(image, audio):
-    #try:
-        if image and audio:  # Handle the initial question with image and audio
             session.current_image = image
-            message, answer_audio = process_inputs(session, image=image, audio_path=audio)
-            # Save images
             unique_id = uuid.uuid4().hex
             original_path = f"uploaded_image_{unique_id}.png"
             annotated_path = f"annotated_image_{unique_id}.png"
             image.save(original_path)
             if session.annotated_image:
                 session.annotated_image.save(annotated_path)
-            # Build markdown reply for initial question
-            markdown_reply = (
-                f"**{message}**\n\n"
-                #f"**Original Image:**\n\n"
-                #f"![Original Image](file/{original_path})\n\n"
-                #f"**Detected Objects:**\n\n"
-                #f"![Annotated Image](file/{annotated_path})\n\n"
-                #f"**🔊 Audio Response:**\n\n"
-                #f"<audio controls autoplay>\n"
-                #f"  <source src='file/{answer_audio}' type='audio/wav'>\n"
-                #f"Your browser does not support the audio element.\n"
-                #f"</audio>"
-            )
-        elif audio:  # Handle follow-up with just audio
-            if not session.current_image:
-                return "No initial image found for the follow-up question.", None
-            message, answer_audio = process_inputs(session, image=session.current_image, audio_path=audio)
-            # Build markdown reply for follow-up question
-            markdown_reply = (
-                f"**{message}**\n\n"
-                #f"**Original Image:**\n\n"
-                #f"![Original Image](file/{original_path})\n\n"
-                #f"**Detected Objects:**\n\n"
-                #f"![Annotated Image](file/{annotated_path})"
-            )
-        else:
-            return "Please upload an image and/or record an audio clip.", None
         return markdown_reply, answer_audio
-    #except ValueError as e:
-    #    return f"❗Error: {str(e)}", None
 # --- Gradio App ---
@@ -67,14 +53,13 @@ with gr.Blocks() as demo:
         with gr.Column():
             image_input = gr.Image(label="Upload or Capture Image", sources=["upload", "webcam"], type="pil")
             audio_input = gr.Audio(label="Ask a Question (Voice)", sources=["microphone"], type="filepath")
             submit_btn = gr.Button("Submit Question")
         with gr.Column():
-            status_output = gr.Markdown(label="Response")  # change from Textbox to Markdown!
             audio_output = gr.Audio(label="Audio Answer", interactive=False)
-    # Single button now for both initial and follow-up inputs
     submit_btn.click(
         fn=handle_question,
         inputs=[image_input, audio_input],
@@ -82,4 +67,4 @@ with gr.Blocks() as demo:
     )
 if __name__ == "__main__":
-    demo.launch(show_error=True, share=True)

 from PIL import Image
 import gradio as gr
 import uuid
 from project_model import process_inputs, session
 def handle_question(image, audio):
+    try:
+        # No input provided
+        if not image and not audio:
+            return "Please upload an image and/or record an audio clip.", None
+        # New question with both image + audio
+        if image is not None:
             session.current_image = image
+            session.messages = []
+            session.images = []
+        if session.current_image is None:
+            return "No initial image found. Please upload an image first.", None
+        # Process inputs
+        message, answer_audio = process_inputs(session, image=session.current_image, audio_path=audio)
+        # Save images (only if a new image was uploaded)
+        if image:
             unique_id = uuid.uuid4().hex
             original_path = f"uploaded_image_{unique_id}.png"
             annotated_path = f"annotated_image_{unique_id}.png"
             image.save(original_path)
             if session.annotated_image:
                 session.annotated_image.save(annotated_path)
+        # Build Markdown reply
+        markdown_reply = f"**{message}**\n\n"
+        # Uncomment if you want images/audio previews inside Markdown
+        # markdown_reply += f"![Original Image](file/{original_path})\n\n"
+        # markdown_reply += f"![Annotated Image](file/{annotated_path})\n\n"
+        # markdown_reply += f"<audio controls autoplay><source src='file/{answer_audio}' type='audio/wav'></audio>"
         return markdown_reply, answer_audio
+    except ValueError as e:
+        return f"Error: {str(e)}", None
 # --- Gradio App ---
         with gr.Column():
             image_input = gr.Image(label="Upload or Capture Image", sources=["upload", "webcam"], type="pil")
             audio_input = gr.Audio(label="Ask a Question (Voice)", sources=["microphone"], type="filepath")
             submit_btn = gr.Button("Submit Question")
         with gr.Column():
+            status_output = gr.Markdown(label="Response")  # Use Markdown to format answers
             audio_output = gr.Audio(label="Audio Answer", interactive=False)
+    # Connect button to function
     submit_btn.click(
         fn=handle_question,
         inputs=[image_input, audio_input],
     )
 if __name__ == "__main__":
+    demo.launch(show_error=True, share=True)