Spaces:

gopalagra
/

blind-image-captioning

Sleeping

App Files Files Community

gopalagra commited on Sep 6

Commit

f30c62d

verified ·

1 Parent(s): 96877e1

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -24

app.py CHANGED Viewed

@@ -70,29 +70,42 @@ import gradio as gr
 from transformers import Blip2Processor, Blip2ForConditionalGeneration, pipeline
 from PIL import Image
 import torch
 # ----------------------
-# Load BLIP2 for Captioning
 # ----------------------
-caption_processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
-caption_model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b")
 # ----------------------
-# Load BLIP2 for VQA
 # ----------------------
-vqa_processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xl")
-vqa_model = Blip2ForConditionalGeneration.from_pretrained(
-    "Salesforce/blip2-flan-t5-xl", torch_dtype=torch.float16, device_map="auto"
-)
-# ----------------------
-# Translation pipelines
-# ----------------------
-translation_models = {
-    "Hindi": pipeline("translation", model="Helsinki-NLP/opus-mt-en-hi"),
-    "French": pipeline("translation", model="Helsinki-NLP/opus-mt-en-fr"),
-    "Spanish": pipeline("translation", model="Helsinki-NLP/opus-mt-en-es"),
-}
 # ----------------------
 # Caption + Translate Function
@@ -102,7 +115,6 @@ def generate_caption_translate(image, target_lang):
     out = caption_model.generate(**inputs, max_new_tokens=50)
     english_caption = caption_processor.decode(out[0], skip_special_tokens=True)
-    # Translate if chosen
     if target_lang in translation_models:
         translated = translation_models[target_lang](english_caption)[0]['translation_text']
     else:
@@ -142,10 +154,4 @@ with gr.Blocks(title="BLIP2 Vision App") as demo:
         btn2 = gr.Button("Ask")
         btn2.click(vqa, inputs=[img_vqa, q_in], outputs=ans_out)
-demo.launch(share="true")

 from transformers import Blip2Processor, Blip2ForConditionalGeneration, pipeline
 from PIL import Image
 import torch
+import streamlit as st
 # ----------------------
+# Cached Model Loaders
 # ----------------------
+@st.cache_resource
+def load_caption_model():
+    processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
+    model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b")
+    return processor, model
+@st.cache_resource
+def load_vqa_model():
+    processor = Blip2Processor.from_pretrained("Salesforce/blip2-flan-t5-xl")
+    model = Blip2ForConditionalGeneration.from_pretrained(
+        "Salesforce/blip2-flan-t5-xl", torch_dtype=torch.float16, device_map="auto"
+    )
+    return processor, model
+@st.cache_resource
+def load_translation_models():
+    return {
+        "Hindi": pipeline("translation", model="Helsinki-NLP/opus-mt-en-hi"),
+        "French": pipeline("translation", model="Helsinki-NLP/opus-mt-en-fr"),
+        "Spanish": pipeline("translation", model="Helsinki-NLP/opus-mt-en-es"),
+    }
 # ----------------------
+# Load All Models with Spinner
 # ----------------------
+with st.spinner("Loading BLIP2 models... please wait ⏳"):
+    caption_processor, caption_model = load_caption_model()
+    vqa_processor, vqa_model = load_vqa_model()
+    translation_models = load_translation_models()
+st.success("✅ Models are ready!")
 # ----------------------
 # Caption + Translate Function
     out = caption_model.generate(**inputs, max_new_tokens=50)
     english_caption = caption_processor.decode(out[0], skip_special_tokens=True)
     if target_lang in translation_models:
         translated = translation_models[target_lang](english_caption)[0]['translation_text']
     else:
         btn2 = gr.Button("Ask")
         btn2.click(vqa, inputs=[img_vqa, q_in], outputs=ans_out)
+demo.launch()