Spaces:

scmlewis
/

image_captioning

Sleeping

App Files Files Community

scmlewis commited on Oct 19, 2025

Commit

3fdf4eb

verified ·

1 Parent(s): 1f6a8b2

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -7

app.py CHANGED Viewed

@@ -6,13 +6,14 @@ from PIL import Image
 from collections import deque
 import numpy as np
-# Load BLIP model
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
-# Load YOLOv5 model
 detect_model = YOLO('yolov5s.pt')
 translation_models = {
     "English": None,
     "French": ("Helsinki-NLP/opus-mt-en-fr", "Helsinki-NLP/opus-mt-fr-en"),
@@ -71,6 +72,7 @@ def generate_caption(image, language):
     caption_translated = translate_caption(caption_en, language)
     detected_objs = detect_objects(image)
     last_images.append(image)
     last_captions.append(caption_translated)
     last_objects.append(detected_objs)
@@ -81,7 +83,8 @@ def generate_caption(image, language):
     return caption_translated, tags
 def build_history_ui():
-    components = []
     for i in range(len(last_images)):
         img = last_images[i]
         cap = last_captions[i]
@@ -95,10 +98,11 @@ def build_history_ui():
         def copy_fn(caption):
             return caption
         copy_btn.click(fn=copy_fn, inputs=cap_box, outputs=cap_box)
         row = gr.Row([
-            gr.Image(value=img, interactive=False, show_label=False),
             gr.Column([
                 gr.Markdown(f"**Caption ({lang}):**"),
                 cap_box,
@@ -106,9 +110,8 @@ def build_history_ui():
                 gr.Markdown(f"**Detected Objects:** {', '.join(obj) if obj else 'None'}")
             ])
         ])
-        components.append(row)
-    return components
 with gr.Blocks() as iface:
     gr.Markdown("# Image Captioning with Object Detection & Multilingual Support")

 from collections import deque
 import numpy as np
+# Load BLIP model for English captioning
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
+# Load YOLOv5 small model for detection
 detect_model = YOLO('yolov5s.pt')
+# Setup MarianMT translation models cache for multilingual captions
 translation_models = {
     "English": None,
     "French": ("Helsinki-NLP/opus-mt-en-fr", "Helsinki-NLP/opus-mt-fr-en"),
     caption_translated = translate_caption(caption_en, language)
     detected_objs = detect_objects(image)
+    # Update session memory
     last_images.append(image)
     last_captions.append(caption_translated)
     last_objects.append(detected_objs)
     return caption_translated, tags
 def build_history_ui():
+    # Build list of Gradio Rows containing image, caption textbox and copy button
+    rows = []
     for i in range(len(last_images)):
         img = last_images[i]
         cap = last_captions[i]
         def copy_fn(caption):
             return caption
+        # Bind copy button inside lambda to close over correct caption_box
         copy_btn.click(fn=copy_fn, inputs=cap_box, outputs=cap_box)
         row = gr.Row([
+            gr.Image(value=img, interactive=False, show_label=False, elem_id=f"history_img_{i}"),
             gr.Column([
                 gr.Markdown(f"**Caption ({lang}):**"),
                 cap_box,
                 gr.Markdown(f"**Detected Objects:** {', '.join(obj) if obj else 'None'}")
             ])
         ])
+        rows.append(row)
+    return rows
 with gr.Blocks() as iface:
     gr.Markdown("# Image Captioning with Object Detection & Multilingual Support")