comparing-captioning-models

Runtime error

App Files Files Community

kasun commited on Jun 13, 2023

Commit

7ab6979

1 Parent(s): 344d16a

added 4 more models

Browse files

Files changed (1) hide show

app.py +22 -16

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import gradio as gr
-from transformers import AutoProcessor, BlipForConditionalGeneration, AutoModelForCausalLM
 # from transformers import AutoProcessor, AutoTokenizer, AutoImageProcessor, AutoModelForCausalLM, BlipForConditionalGeneration, Blip2ForConditionalGeneration, VisionEncoderDecoderModel
 import torch
@@ -14,17 +14,17 @@ torch.hub.download_url_to_file('https://cdn.openai.com/dall-e-2/demos/text2im/as
 git_processor_base = AutoProcessor.from_pretrained("microsoft/git-base-coco")
 git_model_base = AutoModelForCausalLM.from_pretrained("microsoft/git-base-coco")
-# git_processor_large_coco = AutoProcessor.from_pretrained("microsoft/git-large-coco")
-# git_model_large_coco = AutoModelForCausalLM.from_pretrained("microsoft/git-large-coco")
-# git_processor_large_textcaps = AutoProcessor.from_pretrained("microsoft/git-large-r-textcaps")
-# git_model_large_textcaps = AutoModelForCausalLM.from_pretrained("microsoft/git-large-r-textcaps")
 blip_processor_base = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
 blip_model_base = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
-# blip_processor_large = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
-# blip_model_large = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
 # blip2_processor = AutoProcessor.from_pretrained("Salesforce/blip2-opt-2.7b")
 # blip2_model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", torch_dtype=torch.float16)
@@ -32,9 +32,9 @@ blip_model_base = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-
 # blip2_processor_8_bit = AutoProcessor.from_pretrained("Salesforce/blip2-opt-6.7b")
 # blip2_model_8_bit = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-6.7b", device_map="auto", load_in_8bit=True)
-# vitgpt_processor = AutoImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-# vitgpt_model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-# vitgpt_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 # coca_model, _, coca_transform = open_clip.create_model_and_transforms(
 #   model_name="coca_ViT-L-14",
@@ -78,15 +78,15 @@ def generate_caption_coca(model, transform, image):
 def generate_captions(image):
     caption_git_base = generate_caption(git_processor_base, git_model_base, image)
-    # caption_git_large_coco = generate_caption(git_processor_large_coco, git_model_large_coco, image)
-    # caption_git_large_textcaps = generate_caption(git_processor_large_textcaps, git_model_large_textcaps, image)
     caption_blip_base = generate_caption(blip_processor_base, blip_model_base, image)
-    # caption_blip_large = generate_caption(blip_processor_large, blip_model_large, image)
-    # caption_vitgpt = generate_caption(vitgpt_processor, vitgpt_model, image, vitgpt_tokenizer)
     # caption_coca = generate_caption_coca(coca_model, coca_transform, image)
@@ -95,13 +95,19 @@ def generate_captions(image):
     # caption_blip2_8_bit = generate_caption(blip2_processor_8_bit, blip2_model_8_bit, image, use_float_16=True).strip()
     # return caption_git_large_coco, caption_git_large_textcaps, caption_blip_large, caption_coca, caption_blip2_8_bit
-    return caption_git_base, caption_blip_base
 examples = [["cats.jpg"], ["stop_sign.png"], ["astronaut.jpg"]]
 # outputs = [gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on COCO"), gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on TextCaps"), gr.outputs.Textbox(label="Caption generated by BLIP-large"), gr.outputs.Textbox(label="Caption generated by CoCa"), gr.outputs.Textbox(label="Caption generated by BLIP-2 OPT 6.7b")]
-outputs = [gr.outputs.Textbox(label="Caption generated by GIT-base fine-tuned on COCO"), gr.outputs.Textbox(label="Caption generated by BLIP-base")]
 title = "Interactive demo: comparing image captioning models"
 description = "Gradio Demo to compare GIT, BLIP, CoCa, and BLIP-2, 4 state-of-the-art vision+language models. To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."

 import gradio as gr
+from transformers import AutoProcessor, BlipForConditionalGeneration, AutoModelForCausalLM, AutoImageProcessor, VisionEncoderDecoderModel, AutoTokenizer
 # from transformers import AutoProcessor, AutoTokenizer, AutoImageProcessor, AutoModelForCausalLM, BlipForConditionalGeneration, Blip2ForConditionalGeneration, VisionEncoderDecoderModel
 import torch
 git_processor_base = AutoProcessor.from_pretrained("microsoft/git-base-coco")
 git_model_base = AutoModelForCausalLM.from_pretrained("microsoft/git-base-coco")
+git_processor_large_coco = AutoProcessor.from_pretrained("microsoft/git-large-coco")
+git_model_large_coco = AutoModelForCausalLM.from_pretrained("microsoft/git-large-coco")
+git_processor_large_textcaps = AutoProcessor.from_pretrained("microsoft/git-large-r-textcaps")
+git_model_large_textcaps = AutoModelForCausalLM.from_pretrained("microsoft/git-large-r-textcaps")
 blip_processor_base = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
 blip_model_base = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
+blip_processor_large = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
+blip_model_large = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
 # blip2_processor = AutoProcessor.from_pretrained("Salesforce/blip2-opt-2.7b")
 # blip2_model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", torch_dtype=torch.float16)
 # blip2_processor_8_bit = AutoProcessor.from_pretrained("Salesforce/blip2-opt-6.7b")
 # blip2_model_8_bit = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-6.7b", device_map="auto", load_in_8bit=True)
+vitgpt_processor = AutoImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+vitgpt_model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+vitgpt_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 # coca_model, _, coca_transform = open_clip.create_model_and_transforms(
 #   model_name="coca_ViT-L-14",
 def generate_captions(image):
     caption_git_base = generate_caption(git_processor_base, git_model_base, image)
+    caption_git_large_coco = generate_caption(git_processor_large_coco, git_model_large_coco, image)
+    caption_git_large_textcaps = generate_caption(git_processor_large_textcaps, git_model_large_textcaps, image)
     caption_blip_base = generate_caption(blip_processor_base, blip_model_base, image)
+    caption_blip_large = generate_caption(blip_processor_large, blip_model_large, image)
+    caption_vitgpt = generate_caption(vitgpt_processor, vitgpt_model, image, vitgpt_tokenizer)
     # caption_coca = generate_caption_coca(coca_model, coca_transform, image)
     # caption_blip2_8_bit = generate_caption(blip2_processor_8_bit, blip2_model_8_bit, image, use_float_16=True).strip()
     # return caption_git_large_coco, caption_git_large_textcaps, caption_blip_large, caption_coca, caption_blip2_8_bit
+    return caption_git_base, caption_git_large_coco, caption_git_large_textcaps, caption_blip_base, caption_blip_large, caption_vitgpt
 examples = [["cats.jpg"], ["stop_sign.png"], ["astronaut.jpg"]]
 # outputs = [gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on COCO"), gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on TextCaps"), gr.outputs.Textbox(label="Caption generated by BLIP-large"), gr.outputs.Textbox(label="Caption generated by CoCa"), gr.outputs.Textbox(label="Caption generated by BLIP-2 OPT 6.7b")]
+outputs = [gr.outputs.Textbox(label="Caption generated by GIT-base fine-tuned on COCO"),
+           gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on COCO"),
+           gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on TextCaps"),
+           gr.outputs.Textbox(label="Caption generated by BLIP-base"),
+           gr.outputs.Textbox(label="Caption generated by BLIP-large"),
+           gr.outputs.Textbox(label="Caption generated by vitgpt")
+          ]
 title = "Interactive demo: comparing image captioning models"
 description = "Gradio Demo to compare GIT, BLIP, CoCa, and BLIP-2, 4 state-of-the-art vision+language models. To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."