Spaces:

JustForWorld
/

simba-watermark-cleaner

Running on T4

App Files Files Community

JustForWorld commited on Jul 10, 2025

Commit

16ed97d

1 Parent(s): 9c900d6

fix(dino): change core to additive logic

Browse files

Files changed (1) hide show

logic.py +29 -23

logic.py CHANGED Viewed

@@ -12,14 +12,12 @@ import time
 class WatermarkRemover:
     def __init__(self, device="cpu"):
         self.device = device
-        # --- Не загружаем модели здесь! Просто инициализируем как None ---
         self.dino_processor = None
         self.dino_model = None
         self.inpainting_model = None
         logger.info(f"WatermarkRemover инициализирован для устройства {self.device}. Модели будут загружены по первому требованию.")
     def _get_dino_components(self):
-        """Лениво загружает и возвращает компоненты DINO."""
         if self.dino_model is None:
             logger.info("Первый вызов: Загрузка модели детектора Grounding DINO...")
             dino_model_id = "IDEA-Research/grounding-dino-base"
@@ -29,7 +27,6 @@ class WatermarkRemover:
         return self.dino_processor, self.dino_model
     def _get_inpainting_model(self):
-        """Лениво загружает и возвращает модель LaMa."""
         if self.inpainting_model is None:
             logger.info("Первый вызов: Загрузка модели LaMA для закрашивания...")
             self.inpainting_model = ModelManager(name="lama", device=self.device)
@@ -43,7 +40,6 @@ class WatermarkRemover:
         with torch.no_grad():
             outputs = model(**inputs)
-        # Фильтрация будет произведена позже, на основе 'confidence'
         results = processor.post_process_grounded_object_detection(
             outputs,
             input_ids=inputs["input_ids"],
@@ -52,19 +48,12 @@ class WatermarkRemover:
             target_sizes=[image.size[::-1]]
         )[0]
-        detections = sv.Detections(
             xyxy=results["boxes"].cpu().numpy(),
             confidence=results["scores"].cpu().numpy()
         )
-        if len(detections) > 1:
-            logger.info(f"Найдено {len(detections)} боксов до NMS. Запускаю очистку...")
-            return detections.with_nms(class_agnostic=True, threshold=0.7)
-        return detections
     def _inpaint_image(self, image_np: np.ndarray, mask_np: np.ndarray) -> np.ndarray:
-        # Получаем модель через "ленивый" getter
         inpainting_model = self._get_inpainting_model()
         config = InpaintRequest(ldm_steps=50, ldm_sampler=LDMSampler.ddim, hd_strategy=HDStrategy.CROP)
         result = inpainting_model(image_np, mask_np, config)
@@ -74,25 +63,42 @@ class WatermarkRemover:
     def run(self, image: Image.Image) -> Image.Image:
         start_time = time.time()
-        logger.info("Начало процесса удаления вотермарок с Grounding DINO...")
-        TEXT_PROMPT = "watermark. logo. text."
-        BOX_THRESHOLD = 0.35  # Основной порог уверенности
-        TEXT_THRESHOLD = 0.25 # Дополнительный порог для текста
-        # Передаем оба порога в функцию
-        detections = self._detect_watermarks(image, TEXT_PROMPT, BOX_THRESHOLD, TEXT_THRESHOLD)
         if len(detections) == 0:
-            logger.info("Grounding DINO не нашел вотермарок с достаточной уверенностью. Возвращаем оригинальное изображение.")
             return image
         mask = np.zeros(image.size[::-1], dtype=np.uint8)
-        logger.info(f"Найдено {len(detections)} надежных вотермарок. Создание маски...")
-        for box in detections.xyxy:
             cv2.rectangle(mask, tuple(map(int, box[:2])), tuple(map(int, box[2:])), 255, -1)
-        kernel = np.ones((7, 7), np.uint8)
         processed_mask = cv2.dilate(mask, kernel, iterations=1)
         image_np = np.array(image.convert("RGB"))

 class WatermarkRemover:
     def __init__(self, device="cpu"):
         self.device = device
         self.dino_processor = None
         self.dino_model = None
         self.inpainting_model = None
         logger.info(f"WatermarkRemover инициализирован для устройства {self.device}. Модели будут загружены по первому требованию.")
     def _get_dino_components(self):
         if self.dino_model is None:
             logger.info("Первый вызов: Загрузка модели детектора Grounding DINO...")
             dino_model_id = "IDEA-Research/grounding-dino-base"
         return self.dino_processor, self.dino_model
     def _get_inpainting_model(self):
         if self.inpainting_model is None:
             logger.info("Первый вызов: Загрузка модели LaMA для закрашивания...")
             self.inpainting_model = ModelManager(name="lama", device=self.device)
         with torch.no_grad():
             outputs = model(**inputs)
         results = processor.post_process_grounded_object_detection(
             outputs,
             input_ids=inputs["input_ids"],
             target_sizes=[image.size[::-1]]
         )[0]
+        return sv.Detections(
             xyxy=results["boxes"].cpu().numpy(),
             confidence=results["scores"].cpu().numpy()
         )
     def _inpaint_image(self, image_np: np.ndarray, mask_np: np.ndarray) -> np.ndarray:
         inpainting_model = self._get_inpainting_model()
         config = InpaintRequest(ldm_steps=50, ldm_sampler=LDMSampler.ddim, hd_strategy=HDStrategy.CROP)
         result = inpainting_model(image_np, mask_np, config)
     def run(self, image: Image.Image) -> Image.Image:
         start_time = time.time()
+        logger.info("Начало процесса удаления вотермарок...")
+        # --- Этап 1: Поиск высококонтрастных частей (текст) ---
+        logger.info("--- ЭТАП 1: Поиск текста с высокой уверенностью ---")
+        detections_text = self._detect_watermarks(
+            image, text_prompt="text . watermark", box_threshold=0.4, text_threshold=0.4
+        )
+        logger.info(f"Найдено {len(detections_text)} текстовых фрагментов.")
+        # --- Этап 2: Поиск низкоконтрастных частей (фон) ---
+        logger.info("--- ЭТАП 2: Поиск фона с низкой уверенностью ---")
+        detections_bg = self._detect_watermarks(
+            image, text_prompt="semi-transparent background . transparent overlay . watermark background", box_threshold=0.25, text_threshold=0.25
+        )
+        logger.info(f"Найдено {len(detections_bg)} фоновых фрагментов.")
+        # --- Этап 3: Объединение и очистка ---
+        # Складываем все найденные детекции вместе
+        all_detections_list = [detections_text, detections_bg]
+        detections = sv.Detections.merge(all_detections_list)
         if len(detections) == 0:
+            logger.info("Ни один из этапов не нашел вотермарок. Возвращаем оригинальное изображение.")
             return image
+        logger.info(f"Всего найдено {len(detections)} фрагментов. Запускаю NMS для слияния...")
+        # Применяем NMS для слияния всех пересекающихся рамок в одну
+        merged_detections = detections.with_nms(class_agnostic=True, threshold=0.6)
+        logger.success(f"После слияния осталось {len(merged_detections)} уникальных областей.")
+        # --- Этап 4: Создание маски и закрашивание ---
         mask = np.zeros(image.size[::-1], dtype=np.uint8)
+        for box in merged_detections.xyxy:
             cv2.rectangle(mask, tuple(map(int, box[:2])), tuple(map(int, box[2:])), 255, -1)
+        kernel = np.ones((9, 9), np.uint8)
         processed_mask = cv2.dilate(mask, kernel, iterations=1)
         image_np = np.array(image.convert("RGB"))