JanadaSroor
/

vision-models

@@ -119,6 +119,11 @@
             "metadata": {},
             "outputs": [],
             "source": [
                 "# Load a test image\n",
                 "url = \"https://images.unsplash.com/photo-1543466835-00a7907e9de1?ixlib=rb-4.0.3&auto=format&fit=crop&w=500&q=80\"\n",
                 "response = requests.get(url)\n",
@@ -126,25 +131,35 @@
                 "display(image.resize((300, 300)))\n",
                 "\n",
                 "# Define queries\n",
-                "queries = [\"a cute dog\", \"a running dog\", \"a cat\", \"a car\", \"food\"]\n",
                 "\n",
-                "# 1. Encode Image (CLIP Vision)\n",
-                "inputs = clip_processor(images=image, return_tensors=\"np\")\n",
-                "image_embeds = vision_sess.run(None, dict(inputs))[0][0]\n",
                 "\n",
-                "# 2. Encode Text & Compare\n",
-                "print(f\"\\n{'Query':<20} | {'Score':<10}\")\n",
-                "print(\"-\" * 35)\n",
                 "\n",
                 "for query in queries:\n",
-                "    # Tokenize and encode text\n",
                 "    text_inputs = clip_processor(text=[query], return_tensors=\"np\", padding=True)\n",
-                "    text_embeds = text_sess.run(None, dict(text_inputs))[0][0]\n",
-                "    \n",
-                "    # Calculate Cosine Similarity\n",
-                "    similarity = np.dot(text_embeds, image_embeds) / (np.linalg.norm(text_embeds) * np.linalg.norm(image_embeds))\n",
-                "    \n",
-                "    print(f\"{query:<20} | {similarity:.4f}\")"
             ]
         },
         {
@@ -195,4 +210,4 @@
     },
     "nbformat": 4,
     "nbformat_minor": 4
-}

             "metadata": {},
             "outputs": [],
             "source": [
+                "import numpy as np\n",
+                "import requests\n",
+                "from PIL import Image\n",
+                "from io import BytesIO\n",
+                "\n",
                 "# Load a test image\n",
                 "url = \"https://images.unsplash.com/photo-1543466835-00a7907e9de1?ixlib=rb-4.0.3&auto=format&fit=crop&w=500&q=80\"\n",
                 "response = requests.get(url)\n",
                 "display(image.resize((300, 300)))\n",
                 "\n",
                 "# Define queries\n",
+                "queries = [\"a cute dog\", \"a dog looking\", \"a cat\", \"a car\", \"food\"]\n",
                 "\n",
+                "# ---------- 1. Encode Image ----------\n",
+                "image_inputs = clip_processor(images=image, return_tensors=\"np\")\n",
+                "image_embed = vision_sess.run(None, dict(image_inputs))[0][0]\n",
                 "\n",
+                "# L2 normalize image embedding\n",
+                "image_embed = image_embed / np.linalg.norm(image_embed)\n",
+                "scores = []\n",
                 "\n",
                 "for query in queries:\n",
                 "    text_inputs = clip_processor(text=[query], return_tensors=\"np\", padding=True)\n",
+                "    text_embed = text_sess.run(None, dict(text_inputs))[0][0]\n",
+                "    text_embed = text_embed / np.linalg.norm(text_embed)\n",
+                "\n",
+                "    score = 100.0 * np.dot(text_embed, image_embed)\n",
+                "    scores.append(score)\n",
+                "\n",
+                "scores = np.array(scores)\n",
+                "\n",
+                "# Softmax over queries (THIS is what CLIP expects)\n",
+                "probs = np.exp(scores) / np.exp(scores).sum()\n",
+                "\n",
+                "print(f\"\\n{'Query':<20} | {'Logit':<10} | {'Prob'}\")\n",
+                "print(\"-\" * 50)\n",
+                "\n",
+                "for q, s, p in zip(queries, scores, probs):\n",
+                "    print(f\"{q:<20} | {s:8.2f} | {100*p:.3f}%\")\n",
+                "\n"
             ]
         },
         {
     },
     "nbformat": 4,
     "nbformat_minor": 4
+}