Spaces:

PhilHolst
/

desc

Sleeping

PhilHolst commited on Mar 15, 2023

Commit

f3bbc2a

1 Parent(s): 4c67f38

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,45 +1,30 @@
-from transformers import ViTFeatureExtractor, ViTForImageClassification
-from PIL import Image
-import requests
 import gradio as gr
-import os
-feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224')
-model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224')
-def inference(image):
-    inputs = feature_extractor(images=image, return_tensors="pt")
-    outputs = model(**inputs)
-    logits = outputs.logits
-    # model predicts one of the 1000 ImageNet classes
-    predicted_class_idx = logits.argmax(-1).item()
-    print(type(model.config.id2label[predicted_class_idx]))
-    return "Predicted class:"+model.config.id2label[predicted_class_idx]
-demo = gr.Blocks()
-with demo:
-    gr.Markdown(
-    """
-    # Welcome to this Replit Template for Gradio!
-    Start by adding a image, this demo uses google/vit-base-patch16-224 model from Hugging Face model Hub for a image classification demo, for more details read the [model card on Hugging Face](https://huggingface.co/google/vit-base-patch16-224)
-    """)
-    inp = gr.Image(type="pil")
-    out = gr.Label()
-    button = gr.Button(value="Run")
-    gr.Examples(
-        examples=[os.path.join(os.path.dirname(__file__), "lion.jpeg")],
-        inputs=inp,
-        outputs=out,
-        fn=inference,
-        cache_examples=False)
-    button.click(fn=inference,
-               inputs=inp,
-               outputs=out)
-demo.launch(share=True)

 import gradio as gr
+import requests
+from io import BytesIO
+from PIL import Image
+import torch
+from transformers import GPT2LMHeadModel, GPT2Tokenizer
+# Load GPT-2 model and tokenizer
+tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
+model = GPT2LMHeadModel.from_pretrained('gpt2')
+def generate_caption(image):
+    # Preprocess image
+    response = requests.get(image)
+    img = Image.open(BytesIO(response.content)).convert('RGB')
+    img = img.resize((224, 224))
+    # Generate caption using GPT-2
+    input_text = "This is an image of " + tokenizer.decode(tokenizer.encode(image)) + ". "
+    input_ids = tokenizer.encode(input_text, return_tensors='pt')
+    output = model.generate(input_ids=input_ids, max_length=200, do_sample=True)
+    caption = tokenizer.decode(output[0], skip_special_tokens=True)
+    return caption
+# Create Gradio interface
+inputs = gr.inputs.Image()
+outputs = gr.outputs.Textbox()
+gr.Interface(fn=generate_caption, inputs=inputs, outputs=outputs, title='Image Captioning with GPT-2', description='Upload an image and get a detailed caption generated by GPT-2.').launch()