test-image-Caption

Sleeping

krishnv commited on Aug 17, 2024

Commit

947d2f8

verified ·

1 Parent(s): 38284f3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,25 +1,28 @@
 import torch
 import gradio as gr
-from transformers import AutoTokenizer, ViTFeatureExtractor, VisionEncoderDecoderModel
 device = 'cpu'
 encoder_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
 decoder_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
 model_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
-feature_extractor = ViTFeatureExtractor.from_pretrained(encoder_checkpoint)
 tokenizer = AutoTokenizer.from_pretrained(decoder_checkpoint)
 model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)
 def predict(image, max_length=64, num_beams=4):
     image = image.convert('RGB')
-    image = feature_extractor(image, return_tensors="pt").pixel_values.to(device)
     clean_text = lambda x: x.replace('', '').split('\n')[0]
     caption_ids = model.generate(image, max_length=max_length, num_beams=num_beams)[0]
     caption_text = clean_text(tokenizer.decode(caption_ids, skip_special_tokens=True))
     return caption_text
-input_image = gr.inputs.Image(label="Upload your Image", type='pil', optional=True)
-output_text = gr.outputs.Textbox(type="text", label="Captions")
 examples = [f"example{i}.jpg" for i in range(1, 7)]

 import torch
 import gradio as gr
+from transformers import AutoTokenizer, ViTImageProcessor, VisionEncoderDecoderModel
 device = 'cpu'
 encoder_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
 decoder_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
 model_checkpoint = "nlpconnect/vit-gpt2-image-captioning"
+# Replace ViTFeatureExtractor with ViTImageProcessor
+feature_extractor = ViTImageProcessor.from_pretrained(encoder_checkpoint)
 tokenizer = AutoTokenizer.from_pretrained(decoder_checkpoint)
 model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)
 def predict(image, max_length=64, num_beams=4):
     image = image.convert('RGB')
+    image = feature_extractor(images=image, return_tensors="pt").pixel_values.to(device)
     clean_text = lambda x: x.replace('', '').split('\n')[0]
     caption_ids = model.generate(image, max_length=max_length, num_beams=num_beams)[0]
     caption_text = clean_text(tokenizer.decode(caption_ids, skip_special_tokens=True))
     return caption_text
+# Updated to use new Gradio API
+input_image = gr.Image(label="Upload your Image", type='pil', optional=True)
+output_text = gr.Textbox(label="Captions")
 examples = [f"example{i}.jpg" for i in range(1, 7)]