bb_mlp_224 / ds_proc.py

Add/Update backbone checkpoints (count=6)

200cb5d verified 4 days ago

16.5 kB

	#!/usr/bin/env python3
	# -- coding: utf-8 --

	# src/ds_proc.py

	# ============================================================
	# ImageProcessor (AutoImageProcessor integration)
	# ImageProcessor (AutoImageProcessor 연동)
	# ============================================================

	from typing import Any

	import numpy as np
	import torch
	from transformers import AutoImageProcessor, AutoConfig
	from transformers.image_processing_base import ImageProcessingMixin
	from transformers.utils.generic import TensorType

	try:
	# Hub/Colab: dynamic module 로딩에서는 상대 import가 정상
	from .ds_cfg import BackboneID, BACKBONE_META
	except ImportError:
	# 로컬: python script.py 또는 top-level import에서는 절대 import로 fallback
	from ds_cfg import BackboneID, BACKBONE_META


	class BackboneMLPHead224ImageProcessor(ImageProcessingMixin):
	"""
	This processor performs image preprocessing and outputs {"pixel_values": ...}.
	이 processor는 이미지 전처리를 수행하고 {"pixel_values": ...}를 반환함.

	Key requirements:
	핵심 요구사항:

	1) save_pretrained() must produce a JSON-serializable preprocessor_config.json.
	save_pretrained()는 JSON 직렬화 가능한 preprocessor_config.json을 생성해야 함.
	2) Runtime-only objects (delegate processor, timm/torchvision transforms) must NOT be serialized.
	런타임 객체(delegate processor, timm/torchvision transform)는 절대 직렬화하면 안 됨.
	3) Runtime objects are rebuilt at init/load time based on backbone meta.
	런타임 객체는 backbone meta에 따라 init/load 시점에 재구성.
	4) For reproducibility, use_fast must be explicitly persisted and honored on load.
	재현성을 위해 use_fast는 명시적으로 저장되고, 로드시 반드시 반영되어야 함.
	"""

	# HF vision models conventionally expect "pixel_values" as the primary input key.
	# HF vision 모델은 관례적으로 입력 키로 "pixel_values"를 기대.
	model_input_names = ["pixel_values"]

	def __init__(
	self,
	backbone_name_or_path: BackboneID,
	is_training: bool = False, # timm 에서 data augmentation 용.
	use_fast: bool = False,
	**kwargs,
	):
	# ImageProcessingMixin stores extra kwargs and manages auto_map metadata.
	# ImageProcessingMixin은 추가 kwargs를 저장하고 auto_map 메타를 관리.
	super().__init__(**kwargs)

	# Enforce whitelist via BACKBONE_META to keep behavior stable.
	# 동작 안정성을 위해 BACKBONE_META 기반 화이트리스트를 강제. - fast fail
	if backbone_name_or_path not in BACKBONE_META:
	raise ValueError(
	f"Unsupported backbone_name_or_path={backbone_name_or_path}. "
	f"Allowed: {sorted(BACKBONE_META.keys())}"
	)

	# Serializable fields only: these should appear in preprocessor_config.json.
	# 직렬화 가능한 필드만: 이 값들만 preprocessor_config.json에 들어가야 함
	self.backbone_name_or_path = backbone_name_or_path
	self.is_training = bool(is_training)

	# Reproducibility switch for transformers processors.
	# transformers processor의 fast/slow 선택을 재현 가능하게 고정.
	self.use_fast = bool(use_fast)

	# Runtime-only fields: must never be serialized.
	# 런타임 전용 필드: 절대 직렬화되면 안 됨.
	self._meta = None
	self._delegate = None
	self._timm_transform = None
	self._torchvision_transform = None

	# Build runtime objects according to backbone type.
	# backbone type에 따라 런타임 객체를 구성.
	self._build_runtime()

	# ============================================================
	# Runtime builders
	# 런타임 빌더
	# ============================================================
	def _build_runtime(self):
	"""
	Build runtime delegate/transform based on BACKBONE_META["type"].
	BACKBONE_META["type"]에 따라 런타임 delegate/transform을 구성.
	"""
	meta = BACKBONE_META[self.backbone_name_or_path]
	self._meta = meta

	# Always reset runtime fields before rebuilding.
	# 재구성 전 런타임 필드는 항상 초기화.
	self._delegate = None
	self._timm_transform = None
	self._torchvision_transform = None

	t = meta["type"]

	if t == "timm_densenet":
	# timm DenseNet uses timm.data transforms for ImageNet-style preprocessing.
	# timm DenseNet은 ImageNet 전처리를 위해 timm.data transform을 사용.
	self._timm_transform = self._build_timm_transform(
	backbone_id=self.backbone_name_or_path,
	is_training=self.is_training,
	)
	return

	if t == "torchvision_densenet":
	# torchvision DenseNet requires torchvision-style preprocessing (resize/crop/tensor/normalize).
	# torchvision DenseNet은 torchvision 스타일 전처리(resize/crop/tensor/normalize)가 필요.
	self._torchvision_transform = self._build_torchvision_densenet_transform(
	is_training=self.is_training
	)
	return

	# Default: transformers backbone delegates to its official AutoImageProcessor.
	# 기본: transformers 백본은 공식 AutoImageProcessor에 위임.
	#
	# IMPORTANT:
	# - use_fast는 transformers 기본값 변경에 흔들리지 않도록 반드시 명시적으로 전달.
	self._delegate = AutoImageProcessor.from_pretrained(
	self.backbone_name_or_path,
	use_fast=self.use_fast,
	# trust_remote_code = True,
	)

	@staticmethod
	def _build_timm_transform(*, backbone_id: str, is_training: bool):
	"""
	Create timm transform without storing non-serializable objects in config.
	비직렬화 객체를 config에 저장하지 않고 timm transform을 생성.
	"""
	try:
	import timm
	from timm.data import resolve_model_data_config, create_transform
	except Exception as e:
	raise ImportError(
	"timm backbone processor requires `timm`. Install: pip install timm"
	) from e

	# We only need model metadata to resolve data config, so pretrained=False is preferred.
	# data config 추출만 필요하므로 pretrained=False를 우선 사용.
	m = timm.create_model(f"hf_hub:{backbone_id}", pretrained=False, num_classes=0)
	dc = resolve_model_data_config(m)

	# create_transform returns a torchvision-like callable that maps PIL -> torch.Tensor(C,H,W).
	# create_transform은 PIL -> torch.Tensor(C,H,W)로 매핑하는 callable을 반환.
	tfm = create_transform(**dc, is_training=is_training) # is_training :Data Aug.
	return tfm

	@staticmethod
	def _build_torchvision_densenet_transform(*, is_training: bool):
	"""
	Build torchvision preprocessing for DenseNet-121 (224 pipeline).
	DenseNet-121용 torchvision 전처리(224 파이프라인)를 구성.
	"""
	try:
	from torchvision import transforms
	except Exception as e:
	raise ImportError(
	"torchvision DenseNet processor requires `torchvision`. Install: pip install torchvision"
	) from e

	# These are the standard ImageNet normalization stats used by torchvision weights.
	# 이 값들은 torchvision weights가 사용하는 표준 ImageNet 정규화 통계.
	mean = (0.485, 0.456, 0.406)
	std = (0.229, 0.224, 0.225)

	# Training pipeline typically uses RandomResizedCrop and horizontal flip.
	# 학습 파이프라인은 보통 RandomResizedCrop과 좌우반전을 사용.
	if is_training:
	return transforms.Compose(
	[
	# transforms.RandomResizedCrop(224),
	# transforms.RandomHorizontalFlip(p=0.5),
	transforms.Resize(224),
	transforms.ToTensor(),
	transforms.Normalize(mean=mean, std=std),
	]
	)

	# Inference pipeline typically uses Resize(256) + CenterCrop(224).
	# 추론 파이프라인은 보통 Resize(256) + CenterCrop(224)를 사용.
	return transforms.Compose(
	[
	transforms.Resize(256),
	# transforms.CenterCrop(224),
	transforms.ToTensor(),
	transforms.Normalize(mean=mean, std=std),
	]
	)

	# ============================================================
	# Serialization
	# 직렬화
	# ============================================================
	def to_dict(self) -> dict[str, Any]:
	"""
	Return a JSON-serializable dict for preprocessor_config.json.
	preprocessor_config.json에 들어갈 JSON 직렬화 dict를 반환.

	Important: do not leak runtime objects into the serialized dict.
	중요: 런타임 객체가 직렬화 dict에 섞이면 안 됨.
	"""
	# ImageProcessingMixin.to_dict() adds metadata such as image_processor_type/auto_map.
	# ImageProcessingMixin.to_dict()는 image_processor_type/auto_map 같은 메타를 추가합니다.
	d = super().to_dict()

	# Force minimal stable fields for long-term compatibility.
	# 장기 호환을 위해 최소 안정 필드를 강제로 지정.
	d["image_processor_type"] = self.__class__.__name__
	d["backbone_name_or_path"] = self.backbone_name_or_path
	d["is_training"] = self.is_training
	d["use_fast"] = self.use_fast

	# Remove any runtime-only fields defensively.
	# 런타임 전용 필드는 보수적으로 제거.
	for key in ["_meta", "_delegate", "_timm_transform", "_torchvision_transform"]:
	d.pop(key, None)

	return d

	@classmethod
	def from_dict(cls, image_processor_dict: dict[str, Any], **kwargs):
	"""
	Standard load path used by BaseImageProcessor / AutoImageProcessor.
	BaseImageProcessor / AutoImageProcessor가 사용하는 표준 로드 경로임.
	"""
	backbone = image_processor_dict.get("backbone_name_or_path", None)
	if backbone is None:
	raise ValueError("preprocessor_config.json missing key: backbone_name_or_path")

	is_training = bool(image_processor_dict.get("is_training", False))
	use_fast = bool(image_processor_dict.get("use_fast", False))

	return cls(
	backbone_name_or_path=backbone,
	is_training=is_training,
	use_fast=use_fast,
	**kwargs,
	)

	@classmethod
	def from_pretrained(cls, pretrained_model_name_or_path: str, **kwargs):
	"""
	Fallback path if AutoImageProcessor calls class.from_pretrained directly.
	AutoImageProcessor가 class.from_pretrained를 직접 호출하는 경우를 대비한 메서드.

	Strategy:
	전략:

	- Read config.json via AutoConfig and recover backbone_name_or_path.
	AutoConfig로 config.json을 읽고 backbone_name_or_path를 복구.
	"""

	# is_training is runtime-only and should default to False for inference/serving.
	# is_training은 런타임 전용이며 추론/서빙 기본값은 False 임.
	#
	# IMPORTANT:
	# - use_fast는 kwargs로 전달될 수 있으므로, 있으면 반영.
	use_fast = bool(kwargs.pop("use_fast", False))

	kwargs.pop("trust_remote_code", None)
	cfg = AutoConfig.from_pretrained(
	pretrained_model_name_or_path,
	trust_remote_code =True,
	**kwargs)
	backbone = getattr(cfg, "backbone_name_or_path", None)
	if backbone is None:
	raise ValueError("Cannot build processor: backbone_name_or_path not found in config.json")

	return cls(backbone_name_or_path=backbone, is_training=False, use_fast=use_fast)

	# ============================================================
	# Call interface
	# 호출 인터페이스
	# ============================================================
	@staticmethod
	def _ensure_list(images: Any) -> list[Any]:
	# Normalize scalar image input to a list for uniform processing.
	# 단일 입력을 리스트로 정규화하여 동일한 처리 경로를 사용.
	if isinstance(images, (list, tuple)):
	return list(images)
	return [images]

	@staticmethod
	def _to_pil_rgb(x: Any):
	# Convert common image inputs into PIL RGB images.
	# 일반적인 입력을 PIL RGB 이미지로 변환.
	from PIL import Image as PILImage

	if isinstance(x, PILImage.Image):
	return x.convert("RGB")
	if isinstance(x, np.ndarray) and x.ndim == 3:
	return PILImage.fromarray(x).convert("RGB")
	raise TypeError(f"Unsupported image type: {type(x)}")

	def __call__(
	self,
	images: Any \| list[Any],
	return_tensors: str \| TensorType \| None = "pt",
	**kwargs,
	) -> dict[str, Any]:
	"""
	Convert images into {"pixel_values": Tensor/ndarray}.
	이미지를 {"pixel_values": Tensor/ndarray}로 변환.
	"""
	images = self._ensure_list(images)

	# Rebuild runtime if needed (e.g., right after deserialization).
	# 직렬화 복원 직후 등 런타임이 비어있을 수 있으므로 재구성.
	if (self._delegate is None) and (self._timm_transform is None) and (self._torchvision_transform is None):
	self._build_runtime()

	# timm path: PIL -> torch.Tensor(C,H,W) normalized float32.
	# timm 경로: PIL -> torch.Tensor(C,H,W) 정규화 float32.
	if self._timm_transform is not None:
	pv: list[torch.Tensor] = []
	for im in images:
	pil = self._to_pil_rgb(im)
	t = self._timm_transform(pil)
	if not isinstance(t, torch.Tensor):
	raise RuntimeError("Unexpected timm transform output (expected torch.Tensor).")
	pv.append(t)
	pixel_values = torch.stack(pv, dim=0) # (B,C,H,W)
	return self._format_return(pixel_values, return_tensors)

	# torchvision path: PIL -> torch.Tensor(C,H,W) normalized float32.
	# torchvision 경로: PIL -> torch.Tensor(C,H,W) 정규화 float32.
	if self._torchvision_transform is not None:
	pv: list[torch.Tensor] = []
	for im in images:
	pil = self._to_pil_rgb(im)
	t = self._torchvision_transform(pil)
	if not isinstance(t, torch.Tensor):
	raise RuntimeError("Unexpected torchvision transform output (expected torch.Tensor).")
	pv.append(t)
	pixel_values = torch.stack(pv, dim=0) # (B,C,H,W)
	return self._format_return(pixel_values, return_tensors)

	# transformers delegate path: rely on official processor behavior.
	# transformers 위임 경로: 공식 processor 동작을 그대로 사용.
	if self._delegate is None:
	raise RuntimeError("Processor runtime not built: delegate is None and no transforms are available.")

	return self._delegate(images, return_tensors=return_tensors, **kwargs)

	@staticmethod
	def _format_return(pixel_values: torch.Tensor, return_tensors: str \| TensorType \| None) -> dict[str, Any]:
	"""
	Format pixel_values according to return_tensors.
	return_tensors에 맞춰 pixel_values 반환 포맷을 변환.
	"""
	if return_tensors is None or return_tensors in ("pt", TensorType.PYTORCH):
	return {"pixel_values": pixel_values}
	if return_tensors in ("np", TensorType.NUMPY):
	return {"pixel_values": pixel_values.detach().cpu().numpy()}
	raise ValueError(f"Unsupported return_tensors={return_tensors}. Use 'pt' or 'np'.")


	# Register this processor for AutoImageProcessor resolution.
	# AutoImageProcessor 해석을 위해 이 processor를 등록.
	if __name__ != "__main__":
	BackboneMLPHead224ImageProcessor.register_for_auto_class("AutoImageProcessor")