Spaces:

DocForg
/

Document_Forgery_Detection

Sleeping

File size: 7,542 Bytes

ff0e79e

"""

Dataset-aware preprocessing for document forgery detection

Implements Critical Fix #1: Dataset-Aware Preprocessing

"""

import cv2
import numpy as np
from typing import Tuple, Optional
import pywt
from scipy import ndimage


class DocumentPreprocessor:
    """Dataset-aware document preprocessing"""
    
    def __init__(self, config, dataset_name: str):
        """

        Initialize preprocessor

        

        Args:

            config: Configuration object

            dataset_name: Name of dataset (for dataset-aware processing)

        """
        self.config = config
        self.dataset_name = dataset_name
        self.image_size = config.get('data.image_size', 384)
        self.noise_threshold = config.get('preprocessing.noise_threshold', 15.0)
        
        # Dataset-aware flags (Critical Fix #1)
        self.skip_deskew = config.should_skip_deskew(dataset_name)
        self.skip_denoising = config.should_skip_denoising(dataset_name)
    
    def __call__(self, image: np.ndarray, mask: Optional[np.ndarray] = None) -> Tuple[np.ndarray, Optional[np.ndarray]]:
        """

        Apply preprocessing pipeline

        

        Args:

            image: Input image (H, W, 3)

            mask: Optional ground truth mask (H, W)

        

        Returns:

            Preprocessed image and mask

        """
        # 1. Convert to RGB
        if len(image.shape) == 2:
            image = cv2.cvtColor(image, cv2.COLOR_GRAY2RGB)
        elif image.shape[2] == 4:
            image = cv2.cvtColor(image, cv2.COLOR_BGRA2RGB)
        elif image.shape[2] == 3:
            image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        
        # 2. Deskew (dataset-aware)
        if not self.skip_deskew:
            image, mask = self._deskew(image, mask)
        
        # 3. Resize
        image, mask = self._resize(image, mask)
        
        # 4. Normalize
        image = self._normalize(image)
        
        # 5. Conditional denoising (dataset-aware)
        if not self.skip_denoising:
            noise_level = self._estimate_noise(image)
            if noise_level > self.noise_threshold:
                image = self._denoise(image)
        
        return image, mask
    
    def _deskew(self, image: np.ndarray, mask: Optional[np.ndarray] = None) -> Tuple[np.ndarray, Optional[np.ndarray]]:
        """

        Deskew document image

        

        Args:

            image: Input image

            mask: Optional mask

        

        Returns:

            Deskewed image and mask

        """
        # Convert to grayscale for angle detection
        gray = cv2.cvtColor(image, cv2.COLOR_RGB2GRAY)
        
        # Detect edges
        edges = cv2.Canny(gray, 50, 150, apertureSize=3)
        
        # Detect lines using Hough transform
        lines = cv2.HoughLines(edges, 1, np.pi / 180, 200)
        
        if lines is not None and len(lines) > 0:
            # Calculate dominant angle
            angles = []
            for rho, theta in lines[:, 0]:
                angle = (theta * 180 / np.pi) - 90
                angles.append(angle)
            
            # Use median angle
            angle = np.median(angles)
            
            # Only deskew if angle is significant (> 0.5 degrees)
            if abs(angle) > 0.5:
                # Get rotation matrix
                h, w = image.shape[:2]
                center = (w // 2, h // 2)
                M = cv2.getRotationMatrix2D(center, angle, 1.0)
                
                # Rotate image
                image = cv2.warpAffine(image, M, (w, h), 
                                      flags=cv2.INTER_CUBIC,
                                      borderMode=cv2.BORDER_REPLICATE)
                
                # Rotate mask if provided
                if mask is not None:
                    mask = cv2.warpAffine(mask, M, (w, h),
                                         flags=cv2.INTER_NEAREST,
                                         borderMode=cv2.BORDER_CONSTANT,
                                         borderValue=0)
        
        return image, mask
    
    def _resize(self, image: np.ndarray, mask: Optional[np.ndarray] = None) -> Tuple[np.ndarray, Optional[np.ndarray]]:
        """

        Resize image and mask to target size

        

        Args:

            image: Input image

            mask: Optional mask

        

        Returns:

            Resized image and mask

        """
        target_size = (self.image_size, self.image_size)
        
        # Resize image
        image = cv2.resize(image, target_size, interpolation=cv2.INTER_CUBIC)
        
        # Resize mask if provided
        if mask is not None:
            mask = cv2.resize(mask, target_size, interpolation=cv2.INTER_NEAREST)
        
        return image, mask
    
    def _normalize(self, image: np.ndarray) -> np.ndarray:
        """

        Normalize pixel values to [0, 1]

        

        Args:

            image: Input image

        

        Returns:

            Normalized image

        """
        return image.astype(np.float32) / 255.0
    
    def _estimate_noise(self, image: np.ndarray) -> float:
        """

        Estimate noise level using Laplacian variance and wavelet-based estimation

        

        Args:

            image: Input image (normalized)

        

        Returns:

            Estimated noise level

        """
        # Convert to grayscale for noise estimation
        if len(image.shape) == 3:
            gray = cv2.cvtColor((image * 255).astype(np.uint8), cv2.COLOR_RGB2GRAY)
        else:
            gray = (image * 255).astype(np.uint8)
        
        # Method 1: Laplacian variance
        laplacian_var = cv2.Laplacian(gray, cv2.CV_64F).var()
        
        # Method 2: Wavelet-based noise estimation
        coeffs = pywt.dwt2(gray, 'db1')
        _, (cH, cV, cD) = coeffs
        sigma = np.median(np.abs(cD)) / 0.6745
        
        # Combine both estimates
        noise_level = (laplacian_var + sigma) / 2.0
        
        return noise_level
    
    def _denoise(self, image: np.ndarray) -> np.ndarray:
        """

        Apply conditional denoising

        

        Args:

            image: Input image (normalized)

        

        Returns:

            Denoised image

        """
        # Convert to uint8 for filtering
        image_uint8 = (image * 255).astype(np.uint8)
        
        # Apply median filter (3x3)
        median_filtered = cv2.medianBlur(image_uint8, 3)
        
        # Apply Gaussian filter (σ ≤ 0.8)
        gaussian_filtered = cv2.GaussianBlur(median_filtered, (3, 3), 0.8)
        
        # Convert back to float32
        denoised = gaussian_filtered.astype(np.float32) / 255.0
        
        return denoised


def preprocess_image(image: np.ndarray, 

                     mask: Optional[np.ndarray] = None,

                     config = None,

                     dataset_name: str = 'default') -> Tuple[np.ndarray, Optional[np.ndarray]]:
    """

    Convenience function for preprocessing

    

    Args:

        image: Input image

        mask: Optional mask

        config: Configuration object

        dataset_name: Dataset name

    

    Returns:

        Preprocessed image and mask

    """
    preprocessor = DocumentPreprocessor(config, dataset_name)
    return preprocessor(image, mask)