Spaces:

gopalagra
/

blind-image-captioning

Sleeping

App Files Files Community

gopalagra commited on 24 days ago

Commit

0a27bcd

verified ·

1 Parent(s): c8bfce1

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -44

app.py CHANGED Viewed

@@ -228,27 +228,19 @@ import torch
 import tempfile
 import base64
 device = "cuda" if torch.cuda.is_available() else "cpu"
-# -------------------------------
-# 100% VALID BEEP (base64)
-# -------------------------------
 BEEP_BASE64 = """
-SUQzAwAAAAAAFlRFTkMAAAAPAAACcQCAgICAgICAgICAgICAgICAgICAgICAgICAgICAg
-ICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAg
-ICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAg
-ICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAg
-ICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAg
-AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
-AAAAACH5BAEAAAAALAAAAAAQABAAAAj/AP8JHEiwoMGDCAcKHEixoMGDCBMqXMixoMGD
-ECMOGHAgxIABAQAh+QQBAAAAACwAAAAAEAAQAAAI/wD/CRxIsKDBgwgHChxIsKDBgwgT
-KlzIsaDBgxAjDhxIsKDBgwAhACH5BAEAAAAALAAAAAAQABAAAAj/AP8JHEiwoMGDCAcK
-HEixoMGDCBMqXMixoMGDECMOGHAgxIABAQAh+QQBAAAAACwAAAAAEAAQAAAI/wD/CRxI
-sKDBgwgHChxIsKDBgwgTKlzIsaDBgxAjDhxIsKDBgwAhACH5BAEAAAAALAAAAAAQABAA
-AAj/AP8JHEiwoMGDCAcKHEixoMGDCBMqXMixoMGDECMOGHAgxIABAQAh+QQBAAAAACwA
-AAAAEAAQAAAI/wD/CRxIsKDBgwgHChxIsKDBgwgTKlzIsaDBgxAjDhxIsKDBgwAhADs=
 """
 def load_beep():
     audio_bytes = base64.b64decode(BEEP_BASE64)
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
@@ -256,10 +248,11 @@ def load_beep():
     tmp.close()
     return tmp.name
-# -------------------------------
-# Load Models
-# -------------------------------
-print("Loading models...")
 caption_processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
 caption_model = BlipForConditionalGeneration.from_pretrained(
@@ -279,25 +272,28 @@ translation_models = {
 moderation_model = pipeline("text-classification", model="unitary/toxic-bert")
-print("Models loaded.")
-# -------------------------------
-# Safety Filter
-# -------------------------------
 def is_caption_safe(caption):
     try:
         result = moderation_model(caption)
-        if result and result[0]["label"] == "toxic" and result[0]["score"] > 0.5:
-            return False
     except:
         pass
-    bad_words = ["kill", "gun", "blood", "weapon", "dead", "death"]
-    return not any(w in caption.lower() for w in bad_words)
-# -------------------------------
-# Auto Caption + Translate + Beep
-# -------------------------------
 def auto_process(image, target_lang):
     if image is None:
         return "", "", None
@@ -305,8 +301,8 @@ def auto_process(image, target_lang):
     # Caption
     inputs = caption_processor(images=image, return_tensors="pt").to(device)
     with torch.no_grad():
-        out = caption_model.generate(**inputs, max_new_tokens=40)
-    caption = caption_processor.decode(out[0], skip_special_tokens=True)
     # Safety
     if not is_caption_safe(caption):
@@ -315,14 +311,15 @@ def auto_process(image, target_lang):
     # Translate
     translated = translation_models[target_lang](caption)[0]["translation_text"]
-    # Always beep
-    beep_path = load_beep()
-    return caption, translated, beep_path
-# -------------------------------
 # VQA
-# -------------------------------
 def vqa_answer(image, question):
     if image is None or not question:
         return ""
@@ -338,20 +335,21 @@ def vqa_answer(image, question):
     return ans
-# -------------------------------
 # UI
-# -------------------------------
-with gr.Blocks(title="BLIP Auto App") as demo:
     gr.Markdown("## 🖼️ Auto-Caption + Translation + Automatic Beep")
     with gr.Tab("Auto Caption"):
         img = gr.Image(type="pil", label="Upload Image")
         lang = gr.Dropdown(["Hindi", "French", "Spanish"], value="Hindi", label="Translate To")
         out_eng = gr.Textbox(label="English Caption")
-        out_trans = gr.Textbox(label="Translated Caption")
         out_audio = gr.Audio(label="Beep", autoplay=True)
-        # Auto-run on image upload or language change
         img.change(auto_process, inputs=[img, lang], outputs=[out_eng, out_trans, out_audio])
         lang.change(auto_process, inputs=[img, lang], outputs=[out_eng, out_trans, out_audio])
@@ -359,7 +357,8 @@ with gr.Blocks(title="BLIP Auto App") as demo:
         img_vqa = gr.Image(type="pil")
         q = gr.Textbox(label="Ask a question")
         ans = gr.Textbox(label="Answer")
-        gr.Button("Ask").click(vqa_answer, inputs=[img_vqa, q], outputs=ans)
 demo.launch()

 import tempfile
 import base64
+# ----------------------
+# Device
+# ----------------------
 device = "cuda" if torch.cuda.is_available() else "cpu"
+# ----------------------
+# Simple BEEP sound (base64)
+# ----------------------
 BEEP_BASE64 = """
+SUQzAwAAAAAAF1RTU0UAAAAPAAADTGF2ZjU4LjMyLjEwNAAAAAAAAAAAAAAA//uQxAADB...
 """
+# Convert base64 to temp mp3 file
 def load_beep():
     audio_bytes = base64.b64decode(BEEP_BASE64)
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
     tmp.close()
     return tmp.name
+# ----------------------
+# Load models
+# ----------------------
+print("🔄 Loading models...")
 caption_processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
 caption_model = BlipForConditionalGeneration.from_pretrained(
 moderation_model = pipeline("text-classification", model="unitary/toxic-bert")
+print("✅ All models loaded!")
+# ----------------------
+# Safety check
+# ----------------------
 def is_caption_safe(caption):
     try:
         result = moderation_model(caption)
+        if isinstance(result, list) and "label" in result[0]:
+            if result[0]["label"] == "toxic" and result[0]["score"] > 0.5:
+                return False
     except:
         pass
+    unsafe_words = ["gun", "kill", "dead", "weapon", "blood"]
+    return not any(w in caption.lower() for w in unsafe_words)
+# ----------------------
+# Auto Caption + Translate + BEEP
+# ----------------------
 def auto_process(image, target_lang):
     if image is None:
         return "", "", None
     # Caption
     inputs = caption_processor(images=image, return_tensors="pt").to(device)
     with torch.no_grad():
+        output = caption_model.generate(**inputs, max_new_tokens=40)
+    caption = caption_processor.decode(output[0], skip_special_tokens=True)
     # Safety
     if not is_caption_safe(caption):
     # Translate
     translated = translation_models[target_lang](caption)[0]["translation_text"]
+    # Always play BEEP once caption is ready
+    beep_file = load_beep()
+    return caption, translated, beep_file
+# ----------------------
 # VQA
+# ----------------------
 def vqa_answer(image, question):
     if image is None or not question:
         return ""
     return ans
+# ----------------------
 # UI
+# ----------------------
+with gr.Blocks(title="BLIP App") as demo:
     gr.Markdown("## 🖼️ Auto-Caption + Translation + Automatic Beep")
     with gr.Tab("Auto Caption"):
         img = gr.Image(type="pil", label="Upload Image")
         lang = gr.Dropdown(["Hindi", "French", "Spanish"], value="Hindi", label="Translate To")
         out_eng = gr.Textbox(label="English Caption")
+        out_trans = gr.Textbox(label="Translated")
         out_audio = gr.Audio(label="Beep", autoplay=True)
+        # 🔥 Auto-run when image is uploaded
         img.change(auto_process, inputs=[img, lang], outputs=[out_eng, out_trans, out_audio])
         lang.change(auto_process, inputs=[img, lang], outputs=[out_eng, out_trans, out_audio])
         img_vqa = gr.Image(type="pil")
         q = gr.Textbox(label="Ask a question")
         ans = gr.Textbox(label="Answer")
+        ask_btn = gr.Button("Ask")
+        ask_btn.click(vqa_answer, inputs=[img_vqa, q], outputs=ans)
 demo.launch()