Spaces:

gopalagra
/

blind-image-captioning

Sleeping

App Files Files Community

gopalagra commited on 24 days ago

Commit

c8bfce1

verified ·

1 Parent(s): e11dd42

Update app.py

Browse files

Files changed (1) hide show

app.py +106 -132

app.py CHANGED Viewed

@@ -218,174 +218,148 @@
 import gradio as gr
 from transformers import (
-    BlipProcessor,
-    BlipForConditionalGeneration,
-    BlipForQuestionAnswering,
     pipeline
 )
 from PIL import Image
 import torch
-import pyttsx3
 import tempfile
-import numpy as np
-import soundfile as sf
-# ----------------------
-# Device setup
-# ----------------------
 device = "cuda" if torch.cuda.is_available() else "cpu"
-# ----------------------
-# Load Models Once
-# ----------------------
-print("🔄 Loading models...")
-# Captioning
 caption_processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
-caption_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large").to(device)
-# VQA
 vqa_processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-base")
-vqa_model = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-base").to(device)
-# Translation
 translation_models = {
     "Hindi": pipeline("translation", model="Helsinki-NLP/opus-mt-en-hi"),
     "French": pipeline("translation", model="Helsinki-NLP/opus-mt-en-fr"),
     "Spanish": pipeline("translation", model="Helsinki-NLP/opus-mt-en-es"),
 }
-# Safety Moderation Pipeline
 moderation_model = pipeline("text-classification", model="unitary/toxic-bert")
-print("✅ All models loaded!")
-# ----------------------
-# Beep Generator
-# ----------------------
-def generate_beep():
-    sr = 44100
-    duration = 0.4
-    frequency = 880
-    t = np.linspace(0, duration, int(sr * duration), False)
-    wave = 0.5 * np.sin(2 * np.pi * frequency * t)
-    tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
-    sf.write(tmp.name, wave, sr)
-    return tmp.name
-# ----------------------
-# Safety Filter Function
-# ----------------------
 def is_caption_safe(caption):
     try:
-        votes = moderation_model(caption)
-        if isinstance(votes, list) and isinstance(votes[0], list):
-            votes = votes[0]
-        for item in votes:
-            if isinstance(item, dict) and item.get("label") in ["V", "V2"] and item.get("score", 0) > 0.5:
-                return False
-    except Exception as e:
-        print("⚠️ Moderation failed:", e)
-    unsafe_keywords = [
-        "gun", "blood", "skull", "kill", "corpse", "gore", "knife", "weapon",
-        "fire", "murder", "dead", "death", "suicide", "bomb", "explosion",
-        "terrorist", "assault", "stab", "shoot", "pistol", "rifle", "shotgun",
-        "grenade", "horror", "beheaded", "torture", "hostage", "rape",
-        "war", "massacre", "chainsaw", "poison", "strangle", "hang", "drown"
-    ]
-    if any(word in caption.lower() for word in unsafe_keywords):
-        return False
-    return True
-# ----------------------
-# Offline Text-to-Speech using pyttsx3
-# ----------------------
-def offline_tts(text):
-    engine = pyttsx3.init()
-    tmp_audio = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
-    engine.save_to_file(text, tmp_audio.name)
-    engine.runAndWait()
-    return tmp_audio.name
-# ----------------------
-# Caption + Translate + Speak
-# ----------------------
-def generate_caption_translate_speak(image, target_lang):
-    # Step 1: Caption
     inputs = caption_processor(images=image, return_tensors="pt").to(device)
     with torch.no_grad():
-        out = caption_model.generate(**inputs, max_new_tokens=50)
-    english_caption = caption_processor.decode(out[0], skip_special_tokens=True)
-    # Step 1.5: Safety Check
-    if not is_caption_safe(english_caption):
-        beep = generate_beep()
-        return "⚠️ Warning: Unsafe or inappropriate content detected!", "", beep
-    # Step 2: Translate
-    if target_lang in translation_models:
-        translated = translation_models[target_lang](english_caption)[0]['translation_text']
-    else:
-        translated = "Translation not available"
-    # Step 3: Offline Speech
-    audio_path = offline_tts(english_caption)
-    return english_caption, translated, audio_path
-# ----------------------
 # VQA
-# ----------------------
 def vqa_answer(image, question):
     inputs = vqa_processor(image, question, return_tensors="pt").to(device)
     with torch.no_grad():
-        out = vqa_model.generate(**inputs, max_new_tokens=50)
-    answer = vqa_processor.decode(out[0], skip_special_tokens=True)
-    if not is_caption_safe(answer):
-        return "⚠️ Warning: Unsafe or inappropriate content detected!"
-    return answer
-# ----------------------
-# Gradio UI
-# ----------------------
-with gr.Blocks(title="BLIP Vision App") as demo:
-    gr.Markdown("## 🖼️ BLIP: Image Captioning + Translation + Speech + VQA (with Safety Filter + Warning Beep)")
-    with gr.Tab("Caption + Translate + Speak"):
-        with gr.Row():
-            img_in = gr.Image(type="pil", label="Upload Image")
-            lang_in = gr.Dropdown(["Hindi", "French", "Spanish"], label="Translate To", value="Hindi")
-        eng_out = gr.Textbox(label="English Caption")
-        trans_out = gr.Textbox(label="Translated Caption")
-        audio_out = gr.Audio(label="Spoken Caption / Warning Beep", type="filepath", autoplay=True)
-        btn1 = gr.Button("Generate Caption, Translate & Speak")
-        btn1.click(generate_caption_translate_speak, inputs=[img_in, lang_in], outputs=[eng_out, trans_out, audio_out])
-    with gr.Tab("Visual Question Answering (VQA)"):
-        with gr.Row():
-            img_vqa = gr.Image(type="pil", label="Upload Image")
-            q_in = gr.Textbox(label="Ask a Question about the Image")
-        ans_out = gr.Textbox(label="Answer")
-        btn2 = gr.Button("Ask")
-        btn2.click(vqa_answer, inputs=[img_vqa, q_in], outputs=ans_out)
 demo.launch()

 import gradio as gr
 from transformers import (
+    BlipProcessor,
+    BlipForConditionalGeneration,
+    BlipForQuestionAnswering,
     pipeline
 )
 from PIL import Image
 import torch
 import tempfile
+import base64
 device = "cuda" if torch.cuda.is_available() else "cpu"
+# -------------------------------
+# 100% VALID BEEP (base64)
+# -------------------------------
+BEEP_BASE64 = """
+SUQzAwAAAAAAFlRFTkMAAAAPAAACcQCAgICAgICAgICAgICAgICAgICAgICAgICAgICAg
+ICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAg
+ICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAg
+ICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAg
+ICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAg
+AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
+AAAAACH5BAEAAAAALAAAAAAQABAAAAj/AP8JHEiwoMGDCAcKHEixoMGDCBMqXMixoMGD
+ECMOGHAgxIABAQAh+QQBAAAAACwAAAAAEAAQAAAI/wD/CRxIsKDBgwgHChxIsKDBgwgT
+KlzIsaDBgxAjDhxIsKDBgwAhACH5BAEAAAAALAAAAAAQABAAAAj/AP8JHEiwoMGDCAcK
+HEixoMGDCBMqXMixoMGDECMOGHAgxIABAQAh+QQBAAAAACwAAAAAEAAQAAAI/wD/CRxI
+sKDBgwgHChxIsKDBgwgTKlzIsaDBgxAjDhxIsKDBgwAhACH5BAEAAAAALAAAAAAQABAA
+AAj/AP8JHEiwoMGDCAcKHEixoMGDCBMqXMixoMGDECMOGHAgxIABAQAh+QQBAAAAACwA
+AAAAEAAQAAAI/wD/CRxIsKDBgwgHChxIsKDBgwgTKlzIsaDBgxAjDhxIsKDBgwAhADs=
+"""
+def load_beep():
+    audio_bytes = base64.b64decode(BEEP_BASE64)
+    tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
+    tmp.write(audio_bytes)
+    tmp.close()
+    return tmp.name
+# -------------------------------
+# Load Models
+# -------------------------------
+print("Loading models...")
 caption_processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
+caption_model = BlipForConditionalGeneration.from_pretrained(
+    "Salesforce/blip-image-captioning-large"
+).to(device)
 vqa_processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-base")
+vqa_model = BlipForQuestionAnswering.from_pretrained(
+    "Salesforce/blip-vqa-base"
+).to(device)
 translation_models = {
     "Hindi": pipeline("translation", model="Helsinki-NLP/opus-mt-en-hi"),
     "French": pipeline("translation", model="Helsinki-NLP/opus-mt-en-fr"),
     "Spanish": pipeline("translation", model="Helsinki-NLP/opus-mt-en-es"),
 }
 moderation_model = pipeline("text-classification", model="unitary/toxic-bert")
+print("Models loaded.")
+# -------------------------------
+# Safety Filter
+# -------------------------------
 def is_caption_safe(caption):
     try:
+        result = moderation_model(caption)
+        if result and result[0]["label"] == "toxic" and result[0]["score"] > 0.5:
+            return False
+    except:
+        pass
+    bad_words = ["kill", "gun", "blood", "weapon", "dead", "death"]
+    return not any(w in caption.lower() for w in bad_words)
+# -------------------------------
+# Auto Caption + Translate + Beep
+# -------------------------------
+def auto_process(image, target_lang):
+    if image is None:
+        return "", "", None
+    # Caption
     inputs = caption_processor(images=image, return_tensors="pt").to(device)
     with torch.no_grad():
+        out = caption_model.generate(**inputs, max_new_tokens=40)
+    caption = caption_processor.decode(out[0], skip_special_tokens=True)
+    # Safety
+    if not is_caption_safe(caption):
+        return "⚠️ Unsafe content detected!", "", load_beep()
+    # Translate
+    translated = translation_models[target_lang](caption)[0]["translation_text"]
+    # Always beep
+    beep_path = load_beep()
+    return caption, translated, beep_path
+# -------------------------------
 # VQA
+# -------------------------------
 def vqa_answer(image, question):
+    if image is None or not question:
+        return ""
     inputs = vqa_processor(image, question, return_tensors="pt").to(device)
     with torch.no_grad():
+        out = vqa_model.generate(**inputs, max_new_tokens=30)
+    ans = vqa_processor.decode(out[0], skip_special_tokens=True)
+    if not is_caption_safe(ans):
+        return "⚠️ Unsafe content detected!"
+    return ans
+# -------------------------------
+# UI
+# -------------------------------
+with gr.Blocks(title="BLIP Auto App") as demo:
+    gr.Markdown("## 🖼️ Auto-Caption + Translation + Automatic Beep")
+    with gr.Tab("Auto Caption"):
+        img = gr.Image(type="pil", label="Upload Image")
+        lang = gr.Dropdown(["Hindi", "French", "Spanish"], value="Hindi", label="Translate To")
+        out_eng = gr.Textbox(label="English Caption")
+        out_trans = gr.Textbox(label="Translated Caption")
+        out_audio = gr.Audio(label="Beep", autoplay=True)
+        # Auto-run on image upload or language change
+        img.change(auto_process, inputs=[img, lang], outputs=[out_eng, out_trans, out_audio])
+        lang.change(auto_process, inputs=[img, lang], outputs=[out_eng, out_trans, out_audio])
+    with gr.Tab("VQA"):
+        img_vqa = gr.Image(type="pil")
+        q = gr.Textbox(label="Ask a question")
+        ans = gr.Textbox(label="Answer")
+        gr.Button("Ask").click(vqa_answer, inputs=[img_vqa, q], outputs=ans)
 demo.launch()