Spaces:

mbwanaf
/

VQA-App

Sleeping

mbwanaf commited on May 9, 2025

Commit

75e38c4

verified ·

1 Parent(s): 60dffdb

update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,36 +8,38 @@ processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-base")
 model = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-base")
 model.eval()
-# Resize uploaded image immediately
 def resize_image(image):
-    if image:
         max_size = 512
         image.thumbnail((max_size, max_size))
     return image
-# VQA answer function
-def answer_question(image, question):
-    if image is None or question.strip() == "":
         return "Please upload an image and ask a question."
-    inputs = processor(image, question, return_tensors="pt")
     with torch.no_grad():
         output = model.generate(**inputs)
-    answer = processor.decode(output[0], skip_special_tokens=True)
-    return answer
-# Gradio app layout
 with gr.Blocks(title="BLIP VQA App (Salesforce/blip-vqa-base)") as demo:
     gr.Markdown("## 📷 Visual Question Answering with BLIP VQA\nUpload an image and ask a question about it.")
-    with gr.Row():
-        image_input = gr.Image(type="pil", label="Upload Image").upload(resize_image)
-        question_input = gr.Textbox(label="Question", placeholder="What is in the image?")
-    with gr.Row():
-        ask_button = gr.Button("Ask")
-        answer_output = gr.Textbox(label="Answer")
-    ask_button.click(fn=answer_question, inputs=[image_input, question_input], outputs=answer_output)
 demo.launch()

 model = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-base")
 model.eval()
+# Resize function
 def resize_image(image):
+    if image is not None:
         max_size = 512
         image.thumbnail((max_size, max_size))
     return image
+# Answer question function
+def answer_question(resized_image, question):
+    if resized_image is None or question.strip() == "":
         return "Please upload an image and ask a question."
+    inputs = processor(resized_image, question, return_tensors="pt")
     with torch.no_grad():
         output = model.generate(**inputs)
+    return processor.decode(output[0], skip_special_tokens=True)
+# Gradio UI
 with gr.Blocks(title="BLIP VQA App (Salesforce/blip-vqa-base)") as demo:
     gr.Markdown("## 📷 Visual Question Answering with BLIP VQA\nUpload an image and ask a question about it.")
+    image_input = gr.Image(type="pil", label="Upload Image")
+    resized_image = gr.State()
+    question_input = gr.Textbox(label="Question", placeholder="What is in the image?")
+    ask_button = gr.Button("Ask")
+    answer_output = gr.Textbox(label="Answer")
+    # Resize image on upload
+    image_input.change(fn=resize_image, inputs=image_input, outputs=resized_image)
+    # Ask button triggers VQA
+    ask_button.click(fn=answer_question, inputs=[resized_image, question_input], outputs=answer_output)
 demo.launch()