Spaces:

AdarshDRC
/

visual-search-api

Running

AdarshDRC commited on May 1

Commit

725ae84

1 Parent(s): 90a3f26

Feat: enhancing people

Files changed (2) hide show

src/core/config.py CHANGED Viewed

@@ -64,9 +64,10 @@ MAX_FACES_PER_IMAGE = int(os.getenv("MAX_FACES_PER_IMAGE", "20"))
 FACE_QUALITY_GATE = float(os.getenv("FACE_QUALITY_GATE", "0.3"))
 # Laplacian variance blur threshold for face crops.
-# Faces below this score are excluded from search results.
 # Typical values: >100 = sharp, 50-100 = acceptable, <50 = blurry.
 FACE_BLUR_THRESHOLD = float(os.getenv("FACE_BLUR_THRESHOLD", "50.0"))
 # ──────────────────────────────────────────────────────────────
 # Embedding dimensions
@@ -155,8 +156,8 @@ USE_ASYNC_UPLOADS = int(os.getenv("USE_ASYNC_UPLOADS", "1"))
 USE_CLUSTER_AWARE_SEARCH = int(os.getenv("USE_CLUSTER_AWARE_SEARCH", "1"))
 # HDBSCAN parameters — tuned for typical 1k–10k image libraries
-CLUSTER_MIN_SAMPLES = int(os.getenv("CLUSTER_MIN_SAMPLES", "3"))
-CLUSTER_MIN_CLUSTER_SIZE = int(os.getenv("CLUSTER_MIN_CLUSTER_SIZE", "3"))
 CLUSTER_EPSILON = float(os.getenv("CLUSTER_EPSILON", "0.35"))
 # Auto re-cluster after every N new face uploads (0 = disabled, manual only)

 FACE_QUALITY_GATE = float(os.getenv("FACE_QUALITY_GATE", "0.3"))
 # Laplacian variance blur threshold for face crops.
+# Faces below this score are excluded from search results AND clustering.
 # Typical values: >100 = sharp, 50-100 = acceptable, <50 = blurry.
 FACE_BLUR_THRESHOLD = float(os.getenv("FACE_BLUR_THRESHOLD", "50.0"))
+CLUSTERING_BLUR_THRESHOLD = float(os.getenv("CLUSTERING_BLUR_THRESHOLD", "30.0"))  # Slightly more lenient for clustering
 # ──────────────────────────────────────────────────────────────
 # Embedding dimensions
 USE_CLUSTER_AWARE_SEARCH = int(os.getenv("USE_CLUSTER_AWARE_SEARCH", "1"))
 # HDBSCAN parameters — tuned for typical 1k–10k image libraries
+CLUSTER_MIN_SAMPLES = int(os.getenv("CLUSTER_MIN_SAMPLES", "2"))  # Lowered from 3 to include pairs
+CLUSTER_MIN_CLUSTER_SIZE = int(os.getenv("CLUSTER_MIN_CLUSTER_SIZE", "2"))  # Lowered from 3 to 2
 CLUSTER_EPSILON = float(os.getenv("CLUSTER_EPSILON", "0.35"))
 # Auto re-cluster after every N new face uploads (0 = disabled, manual only)

src/services/clustering.py CHANGED Viewed

@@ -35,7 +35,7 @@ from src.core.config import (
     IDX_FACES_ARCFACE,
     SUPABASE_URL, SUPABASE_SERVICE_KEY,
     CLUSTER_MIN_SAMPLES, CLUSTER_MIN_CLUSTER_SIZE, CLUSTER_EPSILON,
-    FACE_SEARCH_TOP_K,
 )
@@ -193,7 +193,17 @@ async def run_clustering(pc, user_id: str) -> dict:
     ids = [r["id"] for r in raw]
     metas = [r["metadata"] for r in raw]
-    matrix = np.array([r["values"] for r in raw], dtype=np.float32)
     # L2-normalise before euclidean HDBSCAN (equivalent to angular distance)
     norms = np.linalg.norm(matrix, axis=1, keepdims=True)

     IDX_FACES_ARCFACE,
     SUPABASE_URL, SUPABASE_SERVICE_KEY,
     CLUSTER_MIN_SAMPLES, CLUSTER_MIN_CLUSTER_SIZE, CLUSTER_EPSILON,
+    FACE_SEARCH_TOP_K, CLUSTERING_BLUR_THRESHOLD,
 )
     ids = [r["id"] for r in raw]
     metas = [r["metadata"] for r in raw]
+    # Filter out blurry faces before clustering
+    valid_indices = [i for i, meta in enumerate(metas) if meta.get("blur_score", 100.0) >= CLUSTERING_BLUR_THRESHOLD]
+    if len(valid_indices) < CLUSTER_MIN_CLUSTER_SIZE:
+        return {"status": "skipped", "reason": f"only {len(valid_indices)} non-blurry vectors after blur filtering", "vectors": len(raw), "valid_vectors": len(valid_indices)}
+    ids = [ids[i] for i in valid_indices]
+    metas = [metas[i] for i in valid_indices]
+    raw_values = [r["values"] for r in raw]
+    matrix = np.array([raw_values[i] for i in valid_indices], dtype=np.float32)
     # L2-normalise before euclidean HDBSCAN (equivalent to angular distance)
     norms = np.linalg.norm(matrix, axis=1, keepdims=True)