Spaces:

gopalagra
/

blind-image-captioning

Sleeping

App Files Files Community

gopalagra commited on Sep 3

Commit

e1a7959

verified ·

1 Parent(s): fd13abe

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -24

app.py CHANGED Viewed

@@ -69,9 +69,6 @@
 import gradio as gr
 from transformers import Blip2Processor, Blip2ForConditionalGeneration, pipeline
 from PIL import Image
-from gtts import gTTS
-import tempfile
-import os
 # Load BLIP model
 processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
@@ -84,14 +81,7 @@ translation_models = {
     "Spanish": pipeline("translation", model="Helsinki-NLP/opus-mt-en-es"),
 }
-# Map language to gTTS codes
-tts_lang_map = {
-    "Hindi": "hi",
-    "French": "fr",
-    "Spanish": "es",
-}
-def generate_caption_translate_tts(image, target_lang):
     # Step 1: Generate English caption
     inputs = processor(image, return_tensors="pt")
     out = model.generate(**inputs, max_new_tokens=50)
@@ -103,26 +93,17 @@ def generate_caption_translate_tts(image, target_lang):
     else:
         translated = "Translation not available"
-    # Step 3: Convert to Speech
-    audio_file = None
-    if target_lang in tts_lang_map:
-        tts = gTTS(translated, lang=tts_lang_map[target_lang])
-        tmp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
-        tts.save(tmp_file.name)
-        audio_file = tmp_file.name
-    return english_caption, translated, audio_file
 # Gradio Interface
 interface = gr.Interface(
-    fn=generate_caption_translate_tts,
     inputs=[gr.Image(type="pil"), gr.Dropdown(["Hindi", "French", "Spanish"], label="Translate To")],
     outputs=[
         gr.Textbox(label="English Caption"),
-        gr.Textbox(label="Translated Caption"),
-        gr.Audio(label="Spoken Translation")
     ],
-    title="BLIP Captioning + Translation + Speech"
 )
 interface.launch()

 import gradio as gr
 from transformers import Blip2Processor, Blip2ForConditionalGeneration, pipeline
 from PIL import Image
 # Load BLIP model
 processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
     "Spanish": pipeline("translation", model="Helsinki-NLP/opus-mt-en-es"),
 }
+def generate_caption_translate(image, target_lang):
     # Step 1: Generate English caption
     inputs = processor(image, return_tensors="pt")
     out = model.generate(**inputs, max_new_tokens=50)
     else:
         translated = "Translation not available"
+    return english_caption, translated
 # Gradio Interface
 interface = gr.Interface(
+    fn=generate_caption_translate,
     inputs=[gr.Image(type="pil"), gr.Dropdown(["Hindi", "French", "Spanish"], label="Translate To")],
     outputs=[
         gr.Textbox(label="English Caption"),
+        gr.Textbox(label="Translated Caption")
     ],
+    title="BLIP Captioning + Translation"
 )
 interface.launch()