Spaces:

santu24
/

images_to_caption

Sleeping

App Files Files Community

santu24 commited on May 30, 2024

Commit

9f8214f

verified ·

1 Parent(s): 20994f2

Upload 7 files

Browse files

Files changed (8) hide show

.gitattributes +3 -0
Image1.jpg +3 -0
Image2.png +3 -0
Image3.png +3 -0
app.py +36 -0
functions.py +48 -0
readme.txt +17 -0
requirements.txt +12 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+Image1.jpg filter=lfs diff=lfs merge=lfs -text
+Image2.png filter=lfs diff=lfs merge=lfs -text
+Image3.png filter=lfs diff=lfs merge=lfs -text

Image1.jpg ADDED Viewed

Git LFS Details

SHA256: 6509058d30a3047f22d8ce478c2099caa25d3f989e3288541a9c22a4266deeea
Pointer size: 132 Bytes
Size of remote file: 2.41 MB

Image2.png ADDED Viewed

Git LFS Details

SHA256: ea2153871d79f0a8f91b4c390167218b19cd3de563220ea4464525ab962672e7
Pointer size: 132 Bytes
Size of remote file: 2.13 MB

Image3.png ADDED Viewed

Git LFS Details

SHA256: 4a2046a944a7c4be9f6ee3e6e2a26c06cea862985f415a4660a0a365273321a5
Pointer size: 132 Bytes
Size of remote file: 1.86 MB

app.py ADDED Viewed

	@@ -0,0 +1,36 @@

+import streamlit as st
+from functions import predict_step
+from itertools import cycle
+def image_uploader():
+    with st.form("uploader"):
+        images = st.file_uploader("Upload Images",accept_multiple_files=True,type=["png","jpg","jpeg"])
+        submitted = st.form_submit_button("Submit")
+        if submitted:
+            predicted_captions = predict_step(images,False)
+            for i,caption in enumerate(predicted_captions):
+                st.write(str(i+1)+'. '+caption)
+def images_url():
+    with st.form("url"):
+        urls = st.text_input('Enter URL of Images followed by comma for multiple URLs')
+        images = urls.split(',')
+        submitted = st.form_submit_button("Submit")
+        if submitted:
+            predicted_captions = predict_step(images,True)
+            for i,caption in enumerate(predicted_captions):
+                st.write(str(i+1)+'. '+caption)
+def main():
+    st.set_page_config(page_title="Image Captioning", page_icon="🖼️")
+    st.title("Image Caption")
+    st.subheader("Upload your own Images")
+    image_uploader()
+    st.subheader("Enter Image URLs")
+    images_url()
+if __name__ == '__main__':
+    main()

functions.py ADDED Viewed

	@@ -0,0 +1,48 @@

+from PIL import Image
+from tqdm import tqdm
+from transformers import VisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
+import torch
+from PIL import Image
+from tqdm import tqdm
+import urllib.request
+from itertools import cycle
+import os
+model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+feature_extractor = ViTFeatureExtractor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+max_length = 16
+num_beams = 4
+num_return_sequences = 3  # Number of captions to generate for each image
+gen_kwargs = {"max_length": max_length, "num_beams": num_beams, "num_return_sequences": num_return_sequences}
+def predict_step(images_list,is_url):
+    images = []
+    for image in tqdm(images_list):
+        if is_url:
+            urllib.request.urlretrieve(image, "file.jpg")
+            i_image = Image.open("file.jpg")
+        else:
+            i_image = Image.open(image)
+        if i_image.mode != "RGB":
+            i_image = i_image.convert(mode="RGB")
+        images.append(i_image)
+    pixel_values = feature_extractor(images=images, return_tensors="pt").pixel_values
+    pixel_values = pixel_values.to(device)
+    output_ids = model.generate(pixel_values, **gen_kwargs)
+    preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)
+    preds = [pred.strip() for pred in preds]
+    if is_url:
+        os.remove('file.jpg')
+    return preds

readme.txt ADDED Viewed

	@@ -0,0 +1,17 @@

+TASK
+● Create an AI tool that creates captions based on the image provided by the user. Should also have
+the option to generate multiple captions based on the image.
+● Provide an interface where the user can come and upload images and get AI generated captions. ●
+You are to free use the library of your choice
+● Use the following images as test cases - Link
+Note - Try to use pre-trained models from websites like huggingface.
+To Put it out there
+Your assignment will also be evaluated on the following criteria
+● Code quality, the less the code the better.
+● Time taken to submit, the less the better.
+● Response times, the faster the better.
+Project Link:
+https://drive.google.com/drive/folders/1Ekn8HzzHbo0oULYo6o8aSeju1hDdgJnV?usp=share_link

requirements.txt ADDED Viewed

	@@ -0,0 +1,12 @@

+fastapi==0.78.0
+pandas==1.5.0
+pydantic==1.10.2
+scikit-learn==1.1.2
+servicefoundry
+mlfoundry
+streamlit==1.13.0
+uvicorn==0.18.3
+xgboost==1.6.2
+torch
+transformers
+tqdm