Spaces:

ryaalbr
/

QuestApp

Sleeping

App Files Files

ryaalbr commited on Apr 10, 2023

Commit

54beb65

1 Parent(s): 4150f63

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -17

app.py CHANGED Viewed

@@ -15,7 +15,7 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
 processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
-orig_clip_model, orig_clip_processor = clip.load("ViT-B/32", device=device, jit=False)
 # Load the Unsplash dataset
@@ -31,15 +31,15 @@ def predict(image, labels):
     return {k: float(v) for k, v in zip(labels, probs[0])}
-def predict2(image, labels):
-    image = orig_clip_processor(image).unsqueeze(0).to(device)
-    text = clip.tokenize(labels).to(device)
-    with torch.no_grad():
-        image_features = orig_clip_model.encode_image(image)
-        text_features = orig_clip_model.encode_text(text)
-        logits_per_image, logits_per_text = orig_clip_model(image, text)
-        probs = logits_per_image.softmax(dim=-1).cpu().numpy()
-        return {k: float(v) for k, v in zip(labels, probs[0])}
 def rand_image():
     n = dataset.num_rows
@@ -64,15 +64,11 @@ with open(emb_filename, 'rb') as emb:
 def search(search_query):
     with torch.no_grad():
         # Encode and normalize the description using CLIP (HF CLIP)
-        inputs = processor(text=[text], images=None, return_tensors="pt", padding=True)
-        text_encoded =  model.get_text_features(**inputs)
         # # Encode and normalize the description using CLIP (original CLIP)
         # text_encoded = orig_clip_model.encode_text(clip.tokenize(search_query))
@@ -135,7 +131,7 @@ with gr.Blocks(css=".caption-text {font-size: 40px !important;}") as demo:
                      "day, night, dawn, dusk"], inputs=label_text)
         with gr.Row():
             with gr.Column(variant="panel"):
-                im = gr.Image(interactive=False, type="pil").style(height=height)
                 with gr.Row():
                     get_btn = gr.Button("Get Random Image").style(full_width=False)
                     reclass_btn = gr.Button("Re-Classify Image").style(full_width=False)

 model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
 processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
+#orig_clip_model, orig_clip_processor = clip.load("ViT-B/32", device=device, jit=False)
 # Load the Unsplash dataset
     return {k: float(v) for k, v in zip(labels, probs[0])}
+# def predict2(image, labels):
+#     image = orig_clip_processor(image).unsqueeze(0).to(device)
+#     text = clip.tokenize(labels).to(device)
+#     with torch.no_grad():
+#         image_features = orig_clip_model.encode_image(image)
+#         text_features = orig_clip_model.encode_text(text)
+#         logits_per_image, logits_per_text = orig_clip_model(image, text)
+#         probs = logits_per_image.softmax(dim=-1).cpu().numpy()
+#         return {k: float(v) for k, v in zip(labels, probs[0])}
 def rand_image():
     n = dataset.num_rows
 def search(search_query):
     with torch.no_grad():
         # Encode and normalize the description using CLIP (HF CLIP)
+        inputs = processor(text=search_query, images=None, return_tensors="pt", padding=True)
+        text_encoded = model.get_text_features(**inputs)
         # # Encode and normalize the description using CLIP (original CLIP)
         # text_encoded = orig_clip_model.encode_text(clip.tokenize(search_query))
                      "day, night, dawn, dusk"], inputs=label_text)
         with gr.Row():
             with gr.Column(variant="panel"):
+                im = gr.Image(interactive=False).style(height=height)
                 with gr.Row():
                     get_btn = gr.Button("Get Random Image").style(full_width=False)
                     reclass_btn = gr.Button("Re-Classify Image").style(full_width=False)