File size: 16,519 Bytes

2eed5eb
 
 
 
 
 
200cb5d
 
2eed5eb
 
 
 
 
 
 
 
 
 
e115a15
 
 
 
 
 
2eed5eb
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
200cb5d
2eed5eb
200cb5d
2eed5eb
200cb5d
2eed5eb
200cb5d
2eed5eb
 
 
200cb5d
2eed5eb
 
 
 
 
200cb5d
2eed5eb
 
 
 
200cb5d
2eed5eb
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
200cb5d
2eed5eb
 
 
200cb5d
2eed5eb
200cb5d
 
2eed5eb
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
200cb5d
2eed5eb
 
200cb5d
2eed5eb
 
 
2810b72
2eed5eb
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
200cb5d
 
2eed5eb
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
 
200cb5d
2eed5eb
200cb5d
2eed5eb
 
200cb5d
2eed5eb
 
 
200cb5d
 
 
2eed5eb
 
 
 
 
 
200cb5d
2eed5eb
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
200cb5d
2eed5eb
 
 
 
 
 
200cb5d
 
2eed5eb
 
200cb5d
2eed5eb
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
200cb5d
2eed5eb
2810b72
2eed5eb
200cb5d
2eed5eb
 
200cb5d
2eed5eb
2810b72
 
 
 
 
 
 
 
 
2eed5eb
 
 
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
200cb5d
2eed5eb
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
 
200cb5d
2eed5eb
 
 
 
 
 
 
 
 
200cb5d
2eed5eb

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

# src/ds_proc.py

# ============================================================
# ImageProcessor (AutoImageProcessor integration)
# ImageProcessor (AutoImageProcessor 연동)
# ============================================================

from typing import Any

import numpy as np
import torch
from transformers import AutoImageProcessor, AutoConfig
from transformers.image_processing_base import ImageProcessingMixin
from transformers.utils.generic import TensorType

try:
    # Hub/Colab: dynamic module 로딩에서는 상대 import가 정상
    from .ds_cfg import BackboneID, BACKBONE_META
except ImportError:
    # 로컬: python script.py 또는 top-level import에서는 절대 import로 fallback
    from ds_cfg import BackboneID, BACKBONE_META


class BackboneMLPHead224ImageProcessor(ImageProcessingMixin):
    """
    This processor performs image preprocessing and outputs {"pixel_values": ...}.
    이 processor는 이미지 전처리를 수행하고 {"pixel_values": ...}를 반환함.

    Key requirements:
    핵심 요구사항:

    1) save_pretrained() must produce a JSON-serializable preprocessor_config.json.
       save_pretrained()는 JSON 직렬화 가능한 preprocessor_config.json을 생성해야 함.
    2) Runtime-only objects (delegate processor, timm/torchvision transforms) must NOT be serialized.
       런타임 객체(delegate processor, timm/torchvision transform)는 절대 직렬화하면 안 됨.
    3) Runtime objects are rebuilt at init/load time based on backbone meta.
       런타임 객체는 backbone meta에 따라 init/load 시점에 재구성.
    4) For reproducibility, use_fast must be explicitly persisted and honored on load.
       재현성을 위해 use_fast는 명시적으로 저장되고, 로드시 반드시 반영되어야 함.
    """

    # HF vision models conventionally expect "pixel_values" as the primary input key.
    # HF vision 모델은 관례적으로 입력 키로 "pixel_values"를 기대.
    model_input_names = ["pixel_values"]

    def __init__(
        self,
        backbone_name_or_path: BackboneID,
        is_training: bool = False, # timm 에서 data augmentation 용.
        use_fast: bool = False,
        **kwargs,
    ):
        # ImageProcessingMixin stores extra kwargs and manages auto_map metadata.
        # ImageProcessingMixin은 추가 kwargs를 저장하고 auto_map 메타를 관리.
        super().__init__(**kwargs)

        # Enforce whitelist via BACKBONE_META to keep behavior stable.
        # 동작 안정성을 위해 BACKBONE_META 기반 화이트리스트를 강제. - fast fail
        if backbone_name_or_path not in BACKBONE_META:
            raise ValueError(
                f"Unsupported backbone_name_or_path={backbone_name_or_path}. "
                f"Allowed: {sorted(BACKBONE_META.keys())}"
            )

        # Serializable fields only: these should appear in preprocessor_config.json.
        # 직렬화 가능한 필드만: 이 값들만 preprocessor_config.json에 들어가야 함 
        self.backbone_name_or_path = backbone_name_or_path
        self.is_training = bool(is_training)

        # Reproducibility switch for transformers processors.
        # transformers processor의 fast/slow 선택을 재현 가능하게 고정.
        self.use_fast = bool(use_fast)

        # Runtime-only fields: must never be serialized.
        # 런타임 전용 필드: 절대 직렬화되면 안 됨.
        self._meta = None
        self._delegate              = None
        self._timm_transform        = None
        self._torchvision_transform = None

        # Build runtime objects according to backbone type.
        # backbone type에 따라 런타임 객체를 구성.
        self._build_runtime()

    # ============================================================
    # Runtime builders
    # 런타임 빌더
    # ============================================================
    def _build_runtime(self):
        """
        Build runtime delegate/transform based on BACKBONE_META["type"].
        BACKBONE_META["type"]에 따라 런타임 delegate/transform을 구성.
        """
        meta = BACKBONE_META[self.backbone_name_or_path]
        self._meta = meta

        # Always reset runtime fields before rebuilding.
        # 재구성 전 런타임 필드는 항상 초기화.
        self._delegate = None
        self._timm_transform = None
        self._torchvision_transform = None

        t = meta["type"]

        if t == "timm_densenet":
            # timm DenseNet uses timm.data transforms for ImageNet-style preprocessing.
            # timm DenseNet은 ImageNet 전처리를 위해 timm.data transform을 사용.
            self._timm_transform = self._build_timm_transform(
                backbone_id=self.backbone_name_or_path,
                is_training=self.is_training,
            )
            return

        if t == "torchvision_densenet":
            # torchvision DenseNet requires torchvision-style preprocessing (resize/crop/tensor/normalize).
            # torchvision DenseNet은 torchvision 스타일 전처리(resize/crop/tensor/normalize)가 필요.
            self._torchvision_transform = self._build_torchvision_densenet_transform(
                is_training=self.is_training
            )
            return

        # Default: transformers backbone delegates to its official AutoImageProcessor.
        # 기본: transformers 백본은 공식 AutoImageProcessor에 위임.
        #
        # IMPORTANT:
        # - use_fast는 transformers 기본값 변경에 흔들리지 않도록 반드시 명시적으로 전달.
        self._delegate = AutoImageProcessor.from_pretrained(
            self.backbone_name_or_path,
            use_fast=self.use_fast,
            # trust_remote_code = True,
        )

    @staticmethod
    def _build_timm_transform(*, backbone_id: str, is_training: bool):
        """
        Create timm transform without storing non-serializable objects in config.
        비직렬화 객체를 config에 저장하지 않고 timm transform을 생성.
        """
        try:
            import timm
            from timm.data import resolve_model_data_config, create_transform
        except Exception as e:
            raise ImportError(
                "timm backbone processor requires `timm`. Install: pip install timm"
            ) from e

        # We only need model metadata to resolve data config, so pretrained=False is preferred.
        # data config 추출만 필요하므로 pretrained=False를 우선 사용.
        m = timm.create_model(f"hf_hub:{backbone_id}", pretrained=False, num_classes=0)
        dc = resolve_model_data_config(m)

        # create_transform returns a torchvision-like callable that maps PIL -> torch.Tensor(C,H,W).
        # create_transform은 PIL -> torch.Tensor(C,H,W)로 매핑하는 callable을 반환.
        tfm = create_transform(**dc, is_training=is_training) # is_training :Data Aug.
        return tfm

    @staticmethod
    def _build_torchvision_densenet_transform(*, is_training: bool):
        """
        Build torchvision preprocessing for DenseNet-121 (224 pipeline).
        DenseNet-121용 torchvision 전처리(224 파이프라인)를 구성.
        """
        try:
            from torchvision import transforms
        except Exception as e:
            raise ImportError(
                "torchvision DenseNet processor requires `torchvision`. Install: pip install torchvision"
            ) from e

        # These are the standard ImageNet normalization stats used by torchvision weights.
        # 이 값들은 torchvision weights가 사용하는 표준 ImageNet 정규화 통계.
        mean = (0.485, 0.456, 0.406)
        std  = (0.229, 0.224, 0.225)

        # Training pipeline typically uses RandomResizedCrop and horizontal flip.
        # 학습 파이프라인은 보통 RandomResizedCrop과 좌우반전을 사용.
        if is_training:
            return transforms.Compose(
                [
                    # transforms.RandomResizedCrop(224),
                    # transforms.RandomHorizontalFlip(p=0.5),
                    transforms.Resize(224),
                    transforms.ToTensor(),
                    transforms.Normalize(mean=mean, std=std),
                ]
            )

        # Inference pipeline typically uses Resize(256) + CenterCrop(224).
        # 추론 파이프라인은 보통 Resize(256) + CenterCrop(224)를 사용.
        return transforms.Compose(
            [
                transforms.Resize(256),
                # transforms.CenterCrop(224),
                transforms.ToTensor(),
                transforms.Normalize(mean=mean, std=std),
            ]
        )

    # ============================================================
    # Serialization
    # 직렬화
    # ============================================================
    def to_dict(self) -> dict[str, Any]:
        """
        Return a JSON-serializable dict for preprocessor_config.json.
        preprocessor_config.json에 들어갈 JSON 직렬화 dict를 반환.

        Important: do not leak runtime objects into the serialized dict.
        중요: 런타임 객체가 직렬화 dict에 섞이면 안 됨.
        """
        # ImageProcessingMixin.to_dict() adds metadata such as image_processor_type/auto_map.
        # ImageProcessingMixin.to_dict()는 image_processor_type/auto_map 같은 메타를 추가합니다.
        d = super().to_dict()

        # Force minimal stable fields for long-term compatibility.
        # 장기 호환을 위해 최소 안정 필드를 강제로 지정.
        d["image_processor_type"]  = self.__class__.__name__
        d["backbone_name_or_path"] = self.backbone_name_or_path
        d["is_training"] = self.is_training
        d["use_fast"]    = self.use_fast

        # Remove any runtime-only fields defensively.
        # 런타임 전용 필드는 보수적으로 제거.
        for key in ["_meta", "_delegate", "_timm_transform", "_torchvision_transform"]:
            d.pop(key, None)

        return d

    @classmethod
    def from_dict(cls, image_processor_dict: dict[str, Any], **kwargs):
        """
        Standard load path used by BaseImageProcessor / AutoImageProcessor.
        BaseImageProcessor / AutoImageProcessor가 사용하는 표준 로드 경로임.
        """
        backbone = image_processor_dict.get("backbone_name_or_path", None)
        if backbone is None:
            raise ValueError("preprocessor_config.json missing key: backbone_name_or_path")

        is_training = bool(image_processor_dict.get("is_training", False))
        use_fast    = bool(image_processor_dict.get("use_fast", False))

        return cls(
            backbone_name_or_path=backbone,
            is_training=is_training,
            use_fast=use_fast,
            **kwargs,
        )

    @classmethod
    def from_pretrained(cls, pretrained_model_name_or_path: str, **kwargs):
        """
        Fallback path if AutoImageProcessor calls class.from_pretrained directly.
        AutoImageProcessor가 class.from_pretrained를 직접 호출하는 경우를 대비한 메서드.

        Strategy:
        전략:

        - Read config.json via AutoConfig and recover backbone_name_or_path.
          AutoConfig로 config.json을 읽고 backbone_name_or_path를 복구.
        """
        
        # is_training is runtime-only and should default to False for inference/serving.
        # is_training은 런타임 전용이며 추론/서빙 기본값은 False 임.
        #
        # IMPORTANT:
        # - use_fast는 kwargs로 전달될 수 있으므로, 있으면 반영.
        use_fast = bool(kwargs.pop("use_fast", False))
        
        kwargs.pop("trust_remote_code", None)
        cfg = AutoConfig.from_pretrained(
            pretrained_model_name_or_path, 
            trust_remote_code =True,
            **kwargs)
        backbone = getattr(cfg, "backbone_name_or_path", None)
        if backbone is None:
            raise ValueError("Cannot build processor: backbone_name_or_path not found in config.json")

        return cls(backbone_name_or_path=backbone, is_training=False, use_fast=use_fast)

    # ============================================================
    # Call interface
    # 호출 인터페이스
    # ============================================================
    @staticmethod
    def _ensure_list(images: Any) -> list[Any]:
        # Normalize scalar image input to a list for uniform processing.
        # 단일 입력을 리스트로 정규화하여 동일한 처리 경로를 사용.
        if isinstance(images, (list, tuple)):
            return list(images)
        return [images]

    @staticmethod
    def _to_pil_rgb(x: Any):
        # Convert common image inputs into PIL RGB images.
        # 일반적인 입력을 PIL RGB 이미지로 변환.
        from PIL import Image as PILImage

        if isinstance(x, PILImage.Image):
            return x.convert("RGB")
        if isinstance(x, np.ndarray) and x.ndim == 3:
            return PILImage.fromarray(x).convert("RGB")
        raise TypeError(f"Unsupported image type: {type(x)}")

    def __call__(
        self,
        images: Any | list[Any],
        return_tensors: str | TensorType | None = "pt",
        **kwargs,
    ) -> dict[str, Any]:
        """
        Convert images into {"pixel_values": Tensor/ndarray}.
        이미지를 {"pixel_values": Tensor/ndarray}로 변환.
        """
        images = self._ensure_list(images)

        # Rebuild runtime if needed (e.g., right after deserialization).
        # 직렬화 복원 직후 등 런타임이 비어있을 수 있으므로 재구성.
        if (self._delegate is None) and (self._timm_transform is None) and (self._torchvision_transform is None):
            self._build_runtime()

        # timm path: PIL -> torch.Tensor(C,H,W) normalized float32.
        # timm 경로: PIL -> torch.Tensor(C,H,W) 정규화 float32.
        if self._timm_transform is not None:
            pv: list[torch.Tensor] = []
            for im in images:
                pil = self._to_pil_rgb(im)
                t = self._timm_transform(pil)
                if not isinstance(t, torch.Tensor):
                    raise RuntimeError("Unexpected timm transform output (expected torch.Tensor).")
                pv.append(t)
            pixel_values = torch.stack(pv, dim=0)  # (B,C,H,W)
            return self._format_return(pixel_values, return_tensors)

        # torchvision path: PIL -> torch.Tensor(C,H,W) normalized float32.
        # torchvision 경로: PIL -> torch.Tensor(C,H,W) 정규화 float32.
        if self._torchvision_transform is not None:
            pv: list[torch.Tensor] = []
            for im in images:
                pil = self._to_pil_rgb(im)
                t = self._torchvision_transform(pil)
                if not isinstance(t, torch.Tensor):
                    raise RuntimeError("Unexpected torchvision transform output (expected torch.Tensor).")
                pv.append(t)
            pixel_values = torch.stack(pv, dim=0)  # (B,C,H,W)
            return self._format_return(pixel_values, return_tensors)

        # transformers delegate path: rely on official processor behavior.
        # transformers 위임 경로: 공식 processor 동작을 그대로 사용.
        if self._delegate is None:
            raise RuntimeError("Processor runtime not built: delegate is None and no transforms are available.")

        return self._delegate(images, return_tensors=return_tensors, **kwargs)

    @staticmethod
    def _format_return(pixel_values: torch.Tensor, return_tensors: str | TensorType | None) -> dict[str, Any]:
        """
        Format pixel_values according to return_tensors.
        return_tensors에 맞춰 pixel_values 반환 포맷을 변환.
        """
        if return_tensors is None or return_tensors in ("pt", TensorType.PYTORCH):
            return {"pixel_values": pixel_values}
        if return_tensors in ("np", TensorType.NUMPY):
            return {"pixel_values": pixel_values.detach().cpu().numpy()}
        raise ValueError(f"Unsupported return_tensors={return_tensors}. Use 'pt' or 'np'.")


# Register this processor for AutoImageProcessor resolution.
# AutoImageProcessor 해석을 위해 이 processor를 등록.
if __name__ != "__main__":
    BackboneMLPHead224ImageProcessor.register_for_auto_class("AutoImageProcessor")