Spaces:

AmandaPanda
/

Wk8Assignment_01

Sleeping

App Files Files Community

AmandaPanda commited on Nov 30, 2025

Commit

1792c67

verified ·

1 Parent(s): 1432dc1

Test DF again

Browse files

Files changed (1) hide show

app.py +31 -32

app.py CHANGED Viewed

@@ -1,20 +1,14 @@
 # Import gradio - app framework
 import gradio as gr
-# Two image datasources are available.
-# Minor adjustments (add/remove # to deactivate/activate) to switch between datasources.
-# AA comments refer to images in the DataFrame / from Coco database
-# BB comments refer to images stored in local Gradio app folder
-# Import os and random to support random selection of image (from folder)
-import os
-import random
 # Import pandas datasets, transformers, torch
 import pandas as pd
 from datasets import load_dataset
 from transformers import (
     BlipProcessor,
     BlipForConditionalGeneration,
@@ -25,70 +19,77 @@ from transformers import (
 )
 from PIL import Image
 import torch
-# AA: Load dataset. Initial image source.
 # Get merve/coco dataset
 from datasets import load_dataset
 #Load dataset (detection-datasets/coco)
 dataset = load_dataset("henryscheible/coco_val2014_tiny", split="validation")
 # Reduce dataset to 20 rows, i.e., get sample
 samples = dataset.select(range(20))
 #Convert to dataframe
 df = pd.DataFrame(samples)
-# BB: Direct to Photos folder
-IMAGE_FOLDER = "Photos"
-image_paths = [
-    os.path.join(IMAGE_FOLDER, f)
-    for f in os.listdir(IMAGE_FOLDER)
-    if f.lower().endswith((".jpg", ".jpeg", ".png"))
-]
 #Load the image captioning model (Salesforce/blip-image-captioning-large)
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
 #Load transformer for translating captions from English to Spanish
 model_name = "Helsinki-NLP/opus-mt-en-es"
 trans_tokenizer = MarianTokenizer.from_pretrained(model_name)
 trans_model = MarianMTModel.from_pretrained(model_name)
-#Configure captioning function
 def caption_random_image():
-    # AA: pick random row - from DF
-    ##sample = df.sample(1).iloc[0]
-    # BB: Pick a random image path - image from folder
-    img_path = random.choice(image_paths)
-    # BB: Load into PIL - image from folder - image from folder
-    image = Image.open(img_path).convert("RGB")
-    # AA: Image - for DF
-    ##image = sample["image"]
     # Unconditional image captioning
     inputs = processor(image, return_tensors="pt")
     out = model.generate(**inputs)
     caption_eng = processor.decode(out[0], skip_special_tokens=True)
     # Translate caption from English to Spanish
     trans_inputs = trans_tokenizer.encode(caption_eng, return_tensors="pt")
     trans_out = trans_model.generate(trans_inputs)
     caption_es = trans_tokenizer.decode(trans_out[0], skip_special_tokens=True)
-    return image, caption_eng, caption_es
 demo = gr.Interface(
@@ -96,17 +97,15 @@ demo = gr.Interface(
     inputs=None,
     outputs=[
         gr.Image(type="pil", label="Random Image"),
-        gr.Textbox(label="Caption (English)"),
-        gr.Textbox(label="Caption (Spanish)")
     ],
     title="Image Captioning (with English to Spanish translation)",
-    description="Selects a random image (from either the local folder or henryscheible/coco data subset); generates a BLIP caption; then translates the (English) caption to Spanish."
 )
-demo.launch()

 # Import gradio - app framework
 import gradio as gr
 # Import pandas datasets, transformers, torch
 import pandas as pd
+#import torch
+#import tensorflow as tf
 from datasets import load_dataset
 from transformers import (
     BlipProcessor,
     BlipForConditionalGeneration,
 )
 from PIL import Image
 import torch
 # Get merve/coco dataset
 from datasets import load_dataset
 #Load dataset (detection-datasets/coco)
 dataset = load_dataset("henryscheible/coco_val2014_tiny", split="validation")
 # Reduce dataset to 20 rows, i.e., get sample
 samples = dataset.select(range(20))
 #Convert to dataframe
 df = pd.DataFrame(samples)
+## print ("Print to show the 20 images available.")
+## print ("The app will then select an image for further exploration.")
+## print(df.head(20))
 #Load the image captioning model (Salesforce/blip-image-captioning-large)
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
 #Load transformer for translating captions from English to Spanish
 model_name = "Helsinki-NLP/opus-mt-en-es"
 trans_tokenizer = MarianTokenizer.from_pretrained(model_name)
 trans_model = MarianMTModel.from_pretrained(model_name)
+#Configure captioning function
 def caption_random_image():
+    # pick random row
+    sample = df.sample(1).iloc[0]
+    # 'image' field contains an actual PIL image
+    image = sample["image"]
     # Unconditional image captioning
     inputs = processor(image, return_tensors="pt")
     out = model.generate(**inputs)
     caption_eng = processor.decode(out[0], skip_special_tokens=True)
     # Translate caption from English to Spanish
     trans_inputs = trans_tokenizer.encode(caption_eng, return_tensors="pt")
     trans_out = trans_model.generate(trans_inputs)
     caption_es = trans_tokenizer.decode(trans_out[0], skip_special_tokens=True)
+    return image, caption_eng
 demo = gr.Interface(
     inputs=None,
     outputs=[
         gr.Image(type="pil", label="Random Image"),
+        gr.Textbox(label="Caption (English)")
     ],
     title="Image Captioning (with English to Spanish translation)",
+    description="Selects a random COCO image from 20 samples; generates a BLIP caption; then translates the (English) caption to Spanish."
 )
+demo.launch()