Spaces:

yusef75
/

building-detection-2

Sleeping

App Files Files Community

yusef commited on Feb 27

Commit

29420ff

1 Parent(s): 3242e70

Replace SigLIP with CLIP (stable zero-shot classifier)

Browse files

Files changed (1) hide show

post_processor.py +39 -40

post_processor.py CHANGED Viewed

@@ -58,27 +58,27 @@ def load_mobile_sam():
         return None
-def load_siglip():
-    """تحميل SigLIP للـ Zero-Shot material classification."""
     global _siglip_model, _siglip_processor
     if _siglip_model is not None:
         return _siglip_model, _siglip_processor
     try:
-        from transformers import SiglipProcessor, SiglipModel
-        print("📥 تحميل SigLIP...")
-        model_id = "google/siglip-base-patch16-224"
-        _siglip_processor = SiglipProcessor.from_pretrained(model_id)
-        _siglip_model = SiglipModel.from_pretrained(
             model_id,
-            torch_dtype=torch.float32,   # CPU → float32 دايماً
         ).to(DEVICE).eval()
-        print("✅ SigLIP جاهز!")
         return _siglip_model, _siglip_processor
     except Exception as e:
-        print(f"⚠️ SigLIP مش متاح: {e}")
         return None, None
@@ -163,60 +163,59 @@ NUM_BUILDING = len(BUILDING_TEXTS)
 @torch.no_grad()
-def is_building_siglip(
     image_rgb: np.ndarray,
     mask: np.ndarray,
     model,
     processor,
-    threshold: float = 0.4,
 ) -> bool:
     """
-    بيستخدم SigLIP Zero-Shot عشان يتأكد إن الـ mask ده فعلاً مبنى.
-    Returns True لو مبنى، False لو لا (يتحذف).
     """
     if model is None:
-        return True  # fallback: اقبل كل حاجة لو SigLIP مش شغال
     try:
-        # Crop الـ bounding box من الصورة
         ys, xs = np.where(mask)
         if len(ys) == 0:
             return False
-        x1, x2 = max(0, xs.min() - 5), min(image_rgb.shape[1], xs.max() + 5)
-        y1, y2 = max(0, ys.min() - 5), min(image_rgb.shape[0], ys.max() + 5)
         crop = image_rgb[y1:y2, x1:x2]
         if crop.size == 0:
             return False
         pil_crop = Image.fromarray(crop)
-        # جهّز الـ inputs
         inputs = processor(
-            text=ALL_TEXTS,
             images=[pil_crop],
             return_tensors="pt",
-            padding="max_length",
         )
         inputs = {k: v.to(DEVICE) for k, v in inputs.items()}
-        if DEVICE == "cuda":
-            inputs["pixel_values"] = inputs["pixel_values"].half()
-        # احسب الـ similarity scores
         outputs = model(**inputs)
-        logits = outputs.logits_per_image[0]  # (num_texts,)
-        probs = torch.softmax(logits, dim=0).cpu().float().numpy()
-        # مجموع probability الـ building texts
-        building_score = probs[:NUM_BUILDING].sum()
-        non_building_score = probs[NUM_BUILDING:].sum()
-        return building_score > threshold
     except Exception as e:
-        print(f"⚠️ SigLIP check error: {e}")
-        return True  # fallback: اقبل
 # ============================================================
@@ -288,8 +287,8 @@ def run_v51_pipeline(
         list of dicts: [{"mask": np.array, "score": float, "area_m2": float}]
     """
     # تحميل الموديلات
-    sam_predictor      = load_mobile_sam() if use_sam else None
-    siglip_model, siglip_proc = load_siglip() if use_siglip else (None, None)
     all_masks   = []
     all_scores  = []
@@ -303,17 +302,17 @@ def run_v51_pipeline(
     print(f"   SAM: {len(v5_masks)} → {len(all_masks)} masks")
     # ── STEP 2: SigLIP Material Check ─���─────────────────────
-    if use_siglip and siglip_model is not None:
         filtered_masks  = []
         filtered_scores = []
         removed = 0
         for mask, score in zip(all_masks, all_scores):
-            if is_building_siglip(image_rgb, mask, siglip_model, siglip_proc, siglip_threshold):
                 filtered_masks.append(mask)
                 filtered_scores.append(score)
             else:
                 removed += 1
-        print(f"   SigLIP: حذف {removed} غير مباني")
         all_masks, all_scores = filtered_masks, filtered_scores
     # ── STEP 3: Geometric Rules ──────────────────────────────

         return None
+def load_clip():
+    """تحميل CLIP للـ Zero-Shot material classification (بديل SigLIP - مستقر 100%)."""
     global _siglip_model, _siglip_processor
     if _siglip_model is not None:
         return _siglip_model, _siglip_processor
     try:
+        from transformers import CLIPProcessor, CLIPModel
+        print("📥 تحميل CLIP...")
+        model_id = "openai/clip-vit-base-patch32"
+        _siglip_processor = CLIPProcessor.from_pretrained(model_id)
+        _siglip_model = CLIPModel.from_pretrained(
             model_id,
+            torch_dtype=torch.float32,
         ).to(DEVICE).eval()
+        print("✅ CLIP جاهز!")
         return _siglip_model, _siglip_processor
     except Exception as e:
+        print(f"⚠️ CLIP مش متاح: {e}")
         return None, None
 @torch.no_grad()
+def is_building_clip(
     image_rgb: np.ndarray,
     mask: np.ndarray,
     model,
     processor,
+    threshold: float = 0.5,
 ) -> bool:
     """
+    CLIP Zero-Shot: يتحقق إن الـ mask ده مبنى فعلاً.
+    Returns True لو مبنى، False لو لا.
     """
     if model is None:
+        return True
     try:
         ys, xs = np.where(mask)
         if len(ys) == 0:
             return False
+        x1 = max(0, xs.min() - 5); x2 = min(image_rgb.shape[1], xs.max() + 5)
+        y1 = max(0, ys.min() - 5); y2 = min(image_rgb.shape[0], ys.max() + 5)
         crop = image_rgb[y1:y2, x1:x2]
         if crop.size == 0:
             return False
         pil_crop = Image.fromarray(crop)
+        building_texts = [
+            "a satellite view of a building rooftop",
+            "rooftop of a house seen from above",
+        ]
+        non_building_texts = [
+            "farmland or vegetation from satellite",
+            "road or parking lot from above",
+            "water or swimming pool from satellite",
+        ]
+        all_texts = building_texts + non_building_texts
         inputs = processor(
+            text=all_texts,
             images=[pil_crop],
             return_tensors="pt",
+            padding=True,
         )
         inputs = {k: v.to(DEVICE) for k, v in inputs.items()}
         outputs = model(**inputs)
+        probs = outputs.logits_per_image[0].softmax(dim=0).cpu().float().numpy()
+        building_score = probs[:len(building_texts)].sum()
+        return float(building_score) > threshold
     except Exception as e:
+        print(f"⚠️ CLIP check error: {e}")
+        return True
 # ============================================================
         list of dicts: [{"mask": np.array, "score": float, "area_m2": float}]
     """
     # تحميل الموديلات
+    sam_predictor           = load_mobile_sam() if use_sam else None
+    clip_model, clip_proc   = load_clip() if use_siglip else (None, None)
     all_masks   = []
     all_scores  = []
     print(f"   SAM: {len(v5_masks)} → {len(all_masks)} masks")
     # ── STEP 2: SigLIP Material Check ─���─────────────────────
+    if use_siglip and clip_model is not None:
         filtered_masks  = []
         filtered_scores = []
         removed = 0
         for mask, score in zip(all_masks, all_scores):
+            if is_building_clip(image_rgb, mask, clip_model, clip_proc):
                 filtered_masks.append(mask)
                 filtered_scores.append(score)
             else:
                 removed += 1
+        print(f"   CLIP: حذف {removed} غير مباني")
         all_masks, all_scores = filtered_masks, filtered_scores
     # ── STEP 3: Geometric Rules ──────────────────────────────