Spaces:

Prashanthsrn
/

Image_captioning

Sleeping

Prashanthsrn commited on Oct 15, 2024

Commit

818bff5

verified ·

1 Parent(s): 502f248

Update image_to_text.py

Files changed (1) hide show

image_to_text.py CHANGED Viewed

@@ -1,11 +1,16 @@
 from PIL import Image
 import torch
 from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
 def preprocess_image(image, target_size=(224, 224)):
     # Resize the image to a fixed size
     image = image.resize(target_size, Image.LANCZOS)
-    return image
 def generate_caption(image):
     # Load pre-trained model and tokenizer
@@ -21,10 +26,13 @@ def generate_caption(image):
         image = Image.open(image)
     image = image.convert('RGB')
-    image = preprocess_image(image)
-    # Convert image to pixel values
-    pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
     pixel_values = pixel_values.to(device)
     # Generate caption

 from PIL import Image
 import torch
+import numpy as np
 from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
 def preprocess_image(image, target_size=(224, 224)):
     # Resize the image to a fixed size
     image = image.resize(target_size, Image.LANCZOS)
+    # Convert to numpy array and normalize
+    image_array = np.array(image) / 255.0
+    # Transpose to (channels, height, width) format
+    image_array = np.transpose(image_array, (2, 0, 1))
+    return image_array
 def generate_caption(image):
     # Load pre-trained model and tokenizer
         image = Image.open(image)
     image = image.convert('RGB')
+    image_array = preprocess_image(image)
+    # Create a batch with a single image
+    batch = np.expand_dims(image_array, axis=0)
+    # Convert to tensor
+    pixel_values = torch.tensor(batch).float()
     pixel_values = pixel_values.to(device)
     # Generate caption