Spaces:

Prashanthsrn
/

Image_captioning

Sleeping

Prashanthsrn commited on Oct 15, 2024

Commit

ae8437f

verified ·

1 Parent(s): 8fecbd2

Update image_to_text.py

Files changed (1) hide show

image_to_text.py CHANGED Viewed

@@ -2,6 +2,11 @@ from PIL import Image
 import torch
 from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
 def generate_caption(image):
     # Load pre-trained model and tokenizer
     model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
@@ -12,13 +17,14 @@ def generate_caption(image):
     model.to(device)
     # Prepare image
-    if isinstance(image, Image.Image):
-        image = image.convert('RGB')
-    else:
-        image = Image.open(image).convert('RGB')
-    # Add padding=True to handle images of different sizes
-    pixel_values = feature_extractor(images=[image], return_tensors="pt", padding=True).pixel_values
     pixel_values = pixel_values.to(device)
     # Generate caption

 import torch
 from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
+def preprocess_image(image, target_size=(224, 224)):
+    # Resize the image to a fixed size
+    image = image.resize(target_size, Image.LANCZOS)
+    return image
 def generate_caption(image):
     # Load pre-trained model and tokenizer
     model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
     model.to(device)
     # Prepare image
+    if not isinstance(image, Image.Image):
+        image = Image.open(image)
+    image = image.convert('RGB')
+    image = preprocess_image(image)
+    # Convert image to pixel values
+    pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
     pixel_values = pixel_values.to(device)
     # Generate caption