icce-tutorial-2024

Build error

App Files Files Community

aswin-raghavan commited on Dec 30, 2023

Commit

f30f5b4

1 Parent(s): c32f3ac

add rolling annotation

Browse files

Files changed (1) hide show

app.py +38 -16

app.py CHANGED Viewed

@@ -4,31 +4,53 @@ from transformers import pipeline
 import numpy as np
 from PIL import Image
 from transformers import CLIPProcessor, CLIPModel
 clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
 clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
 # pipe = pipeline("zero-shot-image-classification", model="openai/clip-vit-base-patch32")
 # images="dog.jpg"
-def shot(image, labels_text):
     PIL_image = Image.fromarray(np.uint8(image)).convert('RGB')
-    labels = labels_text.split(",")
     inputs = clip_processor(text=["a photo of a cat", "a photo of a dog"], images=PIL_image, return_tensors="pt", padding=True)
     outputs = clip_model(**inputs)
-    print(outputs)
     return outputs.image_embeds
-    # res = pipe(images=PIL_image,
-    #        candidate_labels=labels,
-    #        hypothesis_template= "This is a photo of a {}")
-    # return {dic["label"]: dic["score"] for dic in res}
-iface = gr.Interface(shot,
-                    ["image", "text"],
-                    "text",
-                    examples=[["dog.jpg", "dog,cat,bird,animal"],
-                            #   ["germany.jpg", "germany,belgium,colombia"],
-                              ["colombia.jpg", "germany,belgium,colombia"]],
-                    description="Add a picture and a list of labels separated by commas",
-                    title="CLIP feature extractor")
-iface.launch()

 import numpy as np
 from PIL import Image
 from transformers import CLIPProcessor, CLIPModel
+import pandas as pd
 clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
 clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
 # pipe = pipeline("zero-shot-image-classification", model="openai/clip-vit-base-patch32")
 # images="dog.jpg"
+def extract_features(image):
     PIL_image = Image.fromarray(np.uint8(image)).convert('RGB')
     inputs = clip_processor(text=["a photo of a cat", "a photo of a dog"], images=PIL_image, return_tensors="pt", padding=True)
     outputs = clip_model(**inputs)
+    print(outputs.shape)
     return outputs.image_embeds
+def update_table_up(img, df, state):
+    img_name = state.pop()
+    next_img = state[0]
+    img_embeds = extract_features(img)
+    print(img_name, img.shape, img_embeds.shape)
+    new_df = pd.DataFrame({'image_name': img_name, 'image_embed': img_embeds, 'label': 1})
+    print(new_df)
+    df = pd.concat([df, new_df])
+    return next_img, df, state
+with gr.Blocks() as demo:
+    train_images = gr.State(["dog.jpg", "colombia.jpg", "germany.jpg"])
+    # start_button = gr.Button(label="Start")
+    image_display = gr.Image()
+    # text_display = gr.Text()
+    with gr.Column():
+        upvote = gr.Button("Up")
+        downvote = gr.Button("down")
+    annotated_samples = gr.Dataframe(headers=['image_name', 'image_embed', 'label'], row_count=(1, 'dynamic'),
+                                     col_count=3, label='Annotations', wrap=True)
+    upvote.click(update_table_up, inputs=[image_display, annotated_samples, train_images], outputs=[image_display, annotated_samples, train_images])
+    # downvote.click(update_table_down, inputs=[image_display, annotated_samples], outputs=[image_display,annotated_samples])
+    # examples = gr.Examples(examples=[["dog.jpg"], ["colombia.jpg"]], inputs=[image_display])
+# iface = gr.Interface(shot,
+#                     ["image", "text"],
+#                     "text",
+#                     examples=[["dog.jpg", "dog,cat,bird,animal"],
+#                             #   ["germany.jpg", "germany,belgium,colombia"],
+#                               ["colombia.jpg", "germany,belgium,colombia"]],
+#                     description="Add a picture and a list of labels separated by commas",
+#                     title="CLIP feature extractor")
+demo.load(lambda: train_images[0], inputs=[], outputs=image_display)
+demo.launch()