Spaces:

hackerloi45
/

lostfound-hack

Runtime error

App Files Files Community

hackerloi45 commited on Sep 8

Commit

08d340c

1 Parent(s): 0d5f8a4

Fix CLIrrr2 model issue in appetete.py

Browse files

Files changed (1) hide show

app.py +36 -13

app.py CHANGED Viewed

@@ -2,13 +2,17 @@
 import os
 import uuid
 import io
 from PIL import Image
 import gradio as gr
 from sentence_transformers import SentenceTransformer
-from google import genai
 from qdrant_client import QdrantClient
 from qdrant_client.http.models import VectorParams, Distance, PointStruct
 GEMINI_API_KEY = os.environ.get("GEMINI_API_KEY")
 QDRANT_URL = os.environ.get("QDRANT_URL")
 QDRANT_API_KEY = os.environ.get("QDRANT_API_KEY")
@@ -17,7 +21,8 @@ print("Loading CLIP model...")
 MODEL_ID = "sentence-transformers/clip-ViT-B-32-multilingual-v1"
 clip_model = SentenceTransformer(MODEL_ID)
-genai_client = genai.Client(api_key=GEMINI_API_KEY) if GEMINI_API_KEY else None
 if not QDRANT_URL:
     raise RuntimeError("Set QDRANT_URL env var")
@@ -25,7 +30,8 @@ qclient = QdrantClient(url=QDRANT_URL, api_key=QDRANT_API_KEY)
 COLLECTION = "lost_found_items"
 VECTOR_SIZE = 512
-if not qclient.collection_exists(COLLECTION):
     qclient.create_collection(
         collection_name=COLLECTION,
         vectors_config=VectorParams(size=VECTOR_SIZE, distance=Distance.COSINE),
@@ -37,17 +43,30 @@ def embed_text(text: str):
 def embed_image_pil(pil_img: Image.Image):
     return clip_model.encode(pil_img, convert_to_numpy=True)
-def gen_tags_from_image_file(img_bytes: io.BytesIO) -> str:
-    if not genai_client:
         return ""
     try:
-        file_obj = genai_client.files.upload(file=img_bytes)
         prompt = ("Give 4 short tags (comma-separated) describing this item in the image. "
                   "Respond only with tags.")
-        resp = genai_client.models.generate_content(model="gemini-2.5-flash",
-                                                   contents=[prompt, file_obj])
         return resp.text.strip()
-    except Exception:
         return ""
 def add_item(mode: str, uploaded_image, text_description: str):
@@ -55,12 +74,16 @@ def add_item(mode: str, uploaded_image, text_description: str):
     payload = {"mode": mode, "text": text_description}
     if uploaded_image:
-        img_bytes = io.BytesIO()
-        uploaded_image.save(img_bytes, format="PNG")
-        img_bytes.seek(0)
         vec = embed_image_pil(uploaded_image).tolist()
         payload["has_image"] = True
-        payload["tags"] = gen_tags_from_image_file(img_bytes)
         img_bytes.seek(0)
         payload["image_b64"] = base64.b64encode(img_bytes.read()).decode("utf-8")
     else:

 import os
 import uuid
 import io
+import base64 # <-- FIX: This was missing
 from PIL import Image
 import gradio as gr
 from sentence_transformers import SentenceTransformer
+import google.generativeai as genai # <-- FIX: Correct import for the genai library
 from qdrant_client import QdrantClient
 from qdrant_client.http.models import VectorParams, Distance, PointStruct
+# Note: The QDRANT_URL, QDRANT_API_KEY, and GEMINI_API_KEY environment variables
+# must be set for this application to work correctly.
 GEMINI_API_KEY = os.environ.get("GEMINI_API_KEY")
 QDRANT_URL = os.environ.get("QDRANT_URL")
 QDRANT_API_KEY = os.environ.get("QDRANT_API_KEY")
 MODEL_ID = "sentence-transformers/clip-ViT-B-32-multilingual-v1"
 clip_model = SentenceTransformer(MODEL_ID)
+# Initialize the GenAI client with the correct API key
+genai.configure(api_key=GEMINI_API_KEY)
 if not QDRANT_URL:
     raise RuntimeError("Set QDRANT_URL env var")
 COLLECTION = "lost_found_items"
 VECTOR_SIZE = 512
+# Only create the collection if it doesn't already exist
+if not qclient.get_collections().collections:
     qclient.create_collection(
         collection_name=COLLECTION,
         vectors_config=VectorParams(size=VECTOR_SIZE, distance=Distance.COSINE),
 def embed_image_pil(pil_img: Image.Image):
     return clip_model.encode(pil_img, convert_to_numpy=True)
+# FIX: This function is updated to take a PIL Image object directly and
+# uses an inlineData object for the Gemini API call, as file upload is
+# not supported for gemini-2.5-flash in this manner.
+def gen_tags_from_image(pil_img: Image.Image) -> str:
+    if not GEMINI_API_KEY:
         return ""
     try:
+        # Convert PIL Image to a byte array
+        img_bytes = io.BytesIO()
+        pil_img.save(img_bytes, format="PNG")
+        img_bytes.seek(0)
+        # Use inlineData to pass the image to the model
+        model = genai.GenerativeModel("gemini-2.5-flash")
         prompt = ("Give 4 short tags (comma-separated) describing this item in the image. "
                   "Respond only with tags.")
+        image_part = {
+            "mime_type": "image/png",
+            "data": img_bytes.getvalue()
+        }
+        resp = model.generate_content([prompt, image_part])
         return resp.text.strip()
+    except Exception as e:
+        print(f"Error generating tags: {e}")
         return ""
 def add_item(mode: str, uploaded_image, text_description: str):
     payload = {"mode": mode, "text": text_description}
     if uploaded_image:
+        # Use the PIL image directly for embedding
         vec = embed_image_pil(uploaded_image).tolist()
         payload["has_image"] = True
+        # FIX: Pass the PIL image object to the tag generation function
+        payload["tags"] = gen_tags_from_image(uploaded_image)
+        # Convert the PIL image to base64 string for storage in payload
+        img_bytes = io.BytesIO()
+        uploaded_image.save(img_bytes, format="PNG")
         img_bytes.seek(0)
         payload["image_b64"] = base64.b64encode(img_bytes.read()).decode("utf-8")
     else: