Spaces:

ashish-001
/

CLIP-based-Image-Search

Sleeping

App Files Files Community

ashish-001 commited on Sep 9, 2025

Commit

779c855

verified ·

1 Parent(s): 1cc5148

Upload 7 files

Browse files

Files changed (7) hide show

Clustering.py +56 -0
Image.jpg +0 -0
app.py +116 -0
embeddings/image_embeddings.npy +3 -0
embeddings/labels.npy +3 -0
embeddings/probabilities.npy +3 -0
requirements.txt +7 -0

Clustering.py ADDED Viewed

	@@ -0,0 +1,56 @@

+import hdbscan
+import numpy as np
+import os
+import matplotlib.pyplot as plt
+from PIL import Image
+class ClusteringData:
+    def __init__(self,min_num_clusters=5,embeddings=None):
+        self.clusterer=hdbscan.HDBSCAN(min_cluster_size=min_num_clusters)
+        self.labels=None
+        self.probabilities=None
+        self.image_list=sorted(os.listdir(os.path.join('coco','val2017','val2017')))
+        self.embeddings=embeddings
+    def create_clusters(self,embeddings):
+        self.clusterer.fit(embeddings)
+        self.labels=self.clusterer.labels_
+        self.probabilities=self.clusterer.probabilities_
+    def save_model_data(self):
+        np.save(os.path.join("embeddings","labels.npy"),self.clusterer.labels_.astype(np.int32))
+        np.save(os.path.join("embeddings","probabilities.npy"),self.clusterer.probabilities_.astype(np.float32))
+        np.save(os.path.join("embeddings","image_embeddings.npy"),self.embeddings.astype(np.float32))
+    def load_model_data(self):
+        self.labels = np.load(os.path.join("embeddings", "labels.npy"))
+        self.probabilities = np.load(os.path.join("embeddings", "probabilities.npy"))
+        self.embeddings = np.load(os.path.join("embeddings", "image_embeddings.npy"))
+    def find_similar_records(self,embedding,k=10):
+        embedding=embedding/np.linalg.norm(embedding)
+        cosine_similarities=np.dot(self.embeddings,embedding)
+        best_match_idx=np.argmax(cosine_similarities)
+        most_similar_label=self.labels[best_match_idx]
+        # narrowing search with most_similar_label
+        if most_similar_label==-1:
+            candidates=np.arange(len(self.labels))
+        else:
+            candidates=np.where(self.labels== most_similar_label)[0]
+        final_scores=0.7*cosine_similarities[candidates]+0.3*self.probabilities[candidates]
+        final_indices=candidates[np.argsort(-final_scores)[:k]]
+        top_images=[self.image_list[i] for i in final_indices]
+        return top_images
+    def display_similar_records(self,embedding,k=10):
+        top_images=self.find_similar_records(embedding,k)
+        fig, axs = plt.subplots(1, len(top_images), figsize=(15, 5))
+        axs = np.atleast_1d(axs)
+        for ax, img_name in zip(axs, top_images):
+            img_path = os.path.join('coco', 'val2017', 'val2017', img_name)
+            img = Image.open(img_path).convert('RGB')
+            ax.imshow(img)
+            ax.axis("off")
+        plt.show()

Image.jpg ADDED Viewed

app.py ADDED Viewed

	@@ -0,0 +1,116 @@

+import gradio as gr
+from Clustering import ClusteringData
+import numpy as np
+from PIL import Image
+import requests
+import tempfile
+import os
+import logging
+import json
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+cd = ClusteringData()
+cd.load_model_data()
+logger.info("Clustering data loaded")
+def search_images(text_query, uploaded_image, search_mode, top_k):
+    preview = None
+    results = []
+    if search_mode == "Text" and text_query.strip():
+        response = requests.get(
+            f"https://ashish-001-text-embedding-api.hf.space/embedding?text={text_query.strip()}")
+        if response.status_code == 200:
+            logger.info("Embedding returned successfully by text API")
+            data = json.loads(response.content)
+            embedding = data["embedding"]
+            results = cd.find_similar_records(embedding, k=top_k)
+        else:
+            logger.info(f"{response.status_code} returned by the text API")
+            results = []
+        results = [os.path.join("coco", "val2017", "val2017", fname)
+                   for i, fname in enumerate(results)]
+        return None, results
+    elif search_mode == "Image":
+        if uploaded_image is not None:
+            preview = uploaded_image
+            tmp_path = uploaded_image
+            # with tempfile.NamedTemporaryFile(delete=False, suffix=".jpg") as tmp_file:
+            #     uploaded_image.save(tmp_file.name)
+            #     tmp_path = tmp_file.name
+        else:
+            preview = 'Image.jpg'
+            tmp_path = 'Image.jpg'
+        url = "https://ashish-001-clip-image-embedding-api.hf.space/clip/process"
+        files = {"file": open(tmp_path, "rb")}
+        response = requests.post(url, files=files)
+        if response.status_code == 200:
+            embedding = np.array(response.json()['embedding']).squeeze()
+            logger.info("Embedding returned successfully by image API")
+            results = cd.find_similar_records(embedding, k=top_k)
+        else:
+            logger.info(
+                f"{response.status_code} returned by the image API")
+            results = []
+        results = [os.path.join("coco", "val2017", "val2017", fname)
+                   for i, fname in enumerate(results)]
+        return preview, results
+with gr.Blocks() as demo:
+    gr.Markdown("## Multimodal Image Search with CLIP")
+    gr.Markdown("Search images using **text** or **image upload**.")
+    with gr.Row():
+        with gr.Column(scale=1):
+            # Inputs
+            search_mode = gr.Radio(
+                ["Text", "Image"], label="Search Mode", value="Text")
+            text_input = gr.Textbox(
+                label="Enter text query", placeholder="Type something...", visible=True, value='Empty street')
+            file_input = gr.Image(
+                type="filepath",
+                label="Upload image",
+                value="Image.jpg",
+                visible=False
+            )
+            top_k = gr.Slider(1, 20, value=6, step=1,
+                              label="Number of results")
+            submit_btn = gr.Button("Search")
+        with gr.Column(scale=2):
+            preview_img = gr.Image(label="Uploaded / Default Image")
+            result_gallery = gr.Gallery(
+                label="Results", columns=3, height="auto")
+    def toggle_inputs(mode):
+        if mode == "Text":
+            return (
+                gr.update(visible=True),
+                gr.update(visible=False, value=None),
+                [],
+                None
+            )
+        else:
+            return (
+                gr.update(visible=False),
+                gr.update(visible=True, value=None),
+                [],
+                "Image.jpg"
+            )
+    search_mode.change(toggle_inputs, inputs=search_mode,
+                       outputs=[text_input, file_input, result_gallery, preview_img])
+    submit_btn.click(fn=search_images,
+                     inputs=[text_input,
+                             file_input, search_mode, top_k],
+                     outputs=[preview_img, result_gallery,])
+demo.launch()

embeddings/image_embeddings.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:080499a88f33cfae389d37eae0d50d76ca3e11e444c31ab69f49f9f35930dc2e
+size 15360128

embeddings/labels.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f988d14d0ee40b57b7e69a64890a3b320e25c3d768f8f7b4275a1f846eba72b
+size 20128

embeddings/probabilities.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16931a633a03b1b5d6eba5eaf0d9c8af42aefa7a2835bf7a1396817fd2388b3a
+size 20128

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+torch==2.8.0
+torchvision==0.23.0
+hdbscan==0.8.40
+gradio==5.44.1
+numpy==2.2.6
+transformers==4.56.0
+matplotlib==3.10.6