Spaces:

gopalagra
/

blind-image-captioning

Running

App Files Files Community

gopalagra commited on Sep 7

Commit

4e69050

verified ·

1 Parent(s): d11dc78

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -21

app.py CHANGED Viewed

@@ -67,23 +67,15 @@
 # # demo.launch(share=True)
 import gradio as gr
-from transformers import Blip2Processor, Blip2ForConditionalGeneration, pipeline
 from PIL import Image
 import torch
 # ----------------------
-# Load BLIP2 for Captioning
 # ----------------------
-caption_processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-125m")
-caption_model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-125m")
-# ----------------------
-# Load BLIP2 for VQA
-# ----------------------
-vqa_processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-base")
-vqa_model = Blip2ForConditionalGeneration.from_pretrained(
-   "Salesforce/blip2-flan-t5-base", torch_dtype=torch.float16, device_map="auto"
-)
 # ----------------------
 # Translation pipelines
@@ -98,9 +90,9 @@ translation_models = {
 # Caption + Translate Function
 # ----------------------
 def generate_caption_translate(image, target_lang):
-    inputs = caption_processor(image, return_tensors="pt")
-    out = caption_model.generate(**inputs, max_new_tokens=50)
-    english_caption = caption_processor.decode(out[0], skip_special_tokens=True)
     # Translate if chosen
     if target_lang in translation_models:
@@ -111,19 +103,19 @@ def generate_caption_translate(image, target_lang):
     return english_caption, translated
 # ----------------------
-# VQA Function
 # ----------------------
 def vqa(image, question):
-    inputs = vqa_processor(image, question, return_tensors="pt").to(vqa_model.device)
-    out = vqa_model.generate(**inputs, max_new_tokens=100)
-    answer = vqa_processor.decode(out[0], skip_special_tokens=True)
     return answer
 # ----------------------
 # Gradio UI
 # ----------------------
-with gr.Blocks(title="BLIP2 Vision App") as demo:
-    gr.Markdown("## 🖼️ BLIP2: Image Captioning + Translation + Question Answering")
     with gr.Tab("Caption + Translate"):
         with gr.Row():

 # # demo.launch(share=True)
 import gradio as gr
+from transformers import BlipProcessor, BlipForConditionalGeneration, pipeline
 from PIL import Image
 import torch
 # ----------------------
+# Load BLIP (Large) for Captioning + VQA
 # ----------------------
+processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
+model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
 # ----------------------
 # Translation pipelines
 # Caption + Translate Function
 # ----------------------
 def generate_caption_translate(image, target_lang):
+    inputs = processor(images=image, return_tensors="pt")
+    out = model.generate(**inputs, max_new_tokens=50)
+    english_caption = processor.decode(out[0], skip_special_tokens=True)
     # Translate if chosen
     if target_lang in translation_models:
     return english_caption, translated
 # ----------------------
+# VQA Function (using same BLIP model)
 # ----------------------
 def vqa(image, question):
+    inputs = processor(images=image, text=question, return_tensors="pt")
+    out = model.generate(**inputs, max_new_tokens=50)
+    answer = processor.decode(out[0], skip_special_tokens=True)
     return answer
 # ----------------------
 # Gradio UI
 # ----------------------
+with gr.Blocks(title="BLIP Vision App") as demo:
+    gr.Markdown("## 🖼️ BLIP: Image Captioning + Translation + Question Answering")
     with gr.Tab("Caption + Translate"):
         with gr.Row():