see-through-demo

Runtime error

App Files Files Community

see-through-demo / common /modules /extend_sam.py

ljsabc

HF Space: see-through layer decomposition demo

e4338d2 2 months ago

raw

history blame contribute delete

9.34 kB

	# Extended SAMs are structured following https://github.com/ziqi-jin/finetune-anything
	# but are re-writing for flexibility

	from typing import List, Tuple

	from torch import nn
	from PIL import Image
	import numpy as np
	import torch
	import torch.nn.functional as F
	import torchvision.transforms.functional as tv_functional

	from utils.torch_utils import fix_params, img2tensor, tensor2img
	from .sam.build_sam import sam_model_registry, Sam
	from .sam.modeling.mask_decoder import MaskDecoder
	from .sam.modeling.prompt_encoder import PromptEncoder
	from .sam.modeling.image_encoder import ImageEncoderViT
	from .sam.utils.transforms import resize_longside_torch

	def pair_params(self, target_model: nn.Module):
	src_dict = self.sam_mask_decoder.state_dict()
	for name, value in target_model.named_parameters():
	if name in src_dict.keys():
	value.data.copy_(src_dict[name].data)


	class BaseImgEncodeAdapter(nn.Module):

	def __init__(self, sam_img_encoder: ImageEncoderViT, fix=False):
	super(BaseImgEncodeAdapter, self).__init__()
	self.sam_img_encoder = sam_img_encoder
	if fix:
	fix_params(self.sam_img_encoder)

	def forward(self, args, *kwargs):
	return self.sam_img_encoder(args, *kwargs)


	class BaseMaskDecoderAdapter(nn.Module):
	'''
	multimask_output (bool): If true, the model will return three masks.
	For ambiguous input prompts (such as a single click), this will often
	produce better masks than a single prediction. If only a single
	mask is needed, the model's predicted quality score can be used
	to select the best mask. For non-ambiguous prompts, such as multiple
	input prompts, multimask_output=False can give better results.
	'''

	_hidden_param_keywords = ['transformer']
	# _hidden_param_exclude_keywords = ['transformer', 'hf_mlp', 'output_hypernetworks_mlps']

	# is fix and load params
	def __init__(self, sam_mask_decoder: MaskDecoder, fix=False):
	super(BaseMaskDecoderAdapter, self).__init__()
	# mask_decoder = ori_sam.mask_decoder
	self.sam_mask_decoder: MaskDecoder = sam_mask_decoder
	if fix:
	fix_params(self.sam_mask_decoder) # move to runner to implement

	def forward(self, args, *kwargs):
	return self.sam_mask_decoder(args, *kwargs)

	def get_muon_training_params(self):
	hidden_weights, nonhidden_params = [], []
	for pname, p in self.named_parameters():
	if not p.requires_grad:
	continue
	is_hidden_weights = False
	for hidden_param_name in self._hidden_param_keywords:
	if hidden_param_name in pname:
	is_hidden_weights = True
	break
	if is_hidden_weights and p.ndim >= 2:
	hidden_weights.append(p)
	else:
	nonhidden_params.append(p)
	return hidden_weights, nonhidden_params


	class BasePromptEncodeAdapter(nn.Module):

	def __init__(self, sam_prompt_encoder: PromptEncoder, fix=False):
	super(BasePromptEncodeAdapter, self).__init__()
	self.sam_prompt_encoder = sam_prompt_encoder
	if fix:
	fix_params(self.sam_prompt_encoder)

	def forward(self, args, *kwargs):
	return self.sam_prompt_encoder(args, *kwargs)



	class BaseExtendSam(nn.Module):

	def __init__(self,
	sam: Sam,
	fix_img_en=False,
	fix_prompt_en=False,
	fix_mask_de=False):
	super(BaseExtendSam, self).__init__()
	# self.ori_sam: Sam = sam
	self.img_adapter = BaseImgEncodeAdapter(sam.image_encoder, fix=fix_img_en)
	self.prompt_adapter = BasePromptEncodeAdapter(sam.prompt_encoder, fix=fix_prompt_en)
	self.mask_adapter = BaseMaskDecoderAdapter(sam.mask_decoder, fix=fix_mask_de)
	del sam.mask_decoder
	del sam.image_encoder
	del sam.prompt_encoder

	@property
	def img_size(self):
	return self.img_adapter.sam_img_encoder.img_size

	def postprocess_masks(
	self,
	masks: torch.Tensor,
	input_size: Tuple[int, ...],
	original_size: Tuple[int, ...],
	) -> torch.Tensor:
	"""
	Remove padding and upscale masks to the original image size.

	Arguments:
	masks (torch.Tensor): Batched masks from the mask_decoder,
	in BxCxHxW format.
	input_size (tuple(int, int)): The size of the image input to the
	model, in (H, W) format. Used to remove padding.
	original_size (tuple(int, int)): The original size of the image
	before resizing for input to the model, in (H, W) format.

	Returns:
	(torch.Tensor): Batched masks in BxCxHxW format, where (H, W)
	is given by original_size.
	"""
	masks = F.interpolate(
	masks,
	(self.image_encoder.img_size, self.image_encoder.img_size),
	mode="bilinear",
	align_corners=False,
	)
	masks = masks[..., : input_size[0], : input_size[1]]
	masks = F.interpolate(masks, original_size, mode="bilinear", align_corners=False)
	return masks

	def inference(self, batch_imgs, normalize=True, output_dtype='tensor'):

	if isinstance(batch_imgs, (Image.Image, np.ndarray)):
	batch_imgs = [batch_imgs]

	preprocess_lst = []
	_batch_imgs = []
	device = self.device
	dtype = self.dtype
	for x in batch_imgs:
	if isinstance(x, (Image.Image, np.ndarray)):
	x = img2tensor(x)
	ori_sz = x.shape[-2:]
	x = resize_longside_torch(x, target_length=self.img_size)
	h, w = x.shape[-2:]
	padh = self.img_size - h
	padw = self.img_size - w
	x1 = padw // 2
	y1 = padh // 2
	preprocess_lst.append(((y1, x1, ori_sz[0], ori_sz[1]), (h, w)))
	if padh > 0 or padw > 0:
	x = F.pad(x, (x1, padw - x1, y1, padh - y1))
	_batch_imgs.append(x)

	_batch_imgs = torch.cat(_batch_imgs).to(device=self.device, dtype=self.dtype)
	batch_imgs = _batch_imgs
	if normalize:
	batch_imgs = tv_functional.normalize(batch_imgs, mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375])

	rst, _ = self(batch_imgs)
	rst_imgs = []
	for ii, pred in enumerate(rst):
	pred = F.interpolate(
	pred[None],
	(self.img_size, self.img_size),
	mode="bilinear",
	align_corners=False,
	)
	ori_sz, input_size = preprocess_lst[ii]
	pred = pred[..., ori_sz[0]: ori_sz[0] + input_size[0], ori_sz[1]: ori_sz[1] + input_size[1]]
	pred = F.interpolate(pred, (ori_sz[2], ori_sz[3]), mode="bilinear", align_corners=False)[0]
	if output_dtype == 'numpy':
	pred = pred.to(device='cpu', dtype=torch.float32).numpy()
	rst_imgs.append(pred)
	return rst_imgs

	def forward(
	self,
	img,
	hq_token_only=False,
	multimask_output=True
	):
	image_embeddings, interm_embeddings = self.img_adapter(img, get_interm_embeds=self.mask_adapter.is_hq)
	points = None
	boxes = None
	masks = None

	sparse_embeddings, dense_embeddings = self.prompt_adapter(
	points=points,
	boxes=boxes,
	masks=masks,
	)

	image_pe = self.prompt_adapter.sam_prompt_encoder.get_dense_pe()

	low_res_masks, iou_predictions = self.mask_adapter(
	image_embeddings=image_embeddings,
	image_pe=image_pe,
	sparse_prompt_embeddings=sparse_embeddings,
	dense_prompt_embeddings=dense_embeddings,
	multimask_output=multimask_output,
	hq_token_only=hq_token_only,
	interm_embeddings=interm_embeddings,
	)

	return low_res_masks, iou_predictions

	@property
	def dtype(self):
	return next(self.parameters()).dtype


	@property
	def device(self):
	return next(self.parameters()).device


	def get_muon_training_params(self):
	def _get_adapter_muon_params(adapter):
	if hasattr(adapter, 'get_muon_training_params'):
	return adapter.get_muon_training_params()
	else:
	hidden_weights = [p for p in adapter.parameters() if p.ndim >= 2 and p.requires_grad]
	hidden_gains_biases = [p for p in adapter.parameters() if p.ndim < 2 and p.requires_grad]
	return hidden_weights, hidden_gains_biases

	hidden_weights = []
	nonhidden_params = []
	for module_name in ['img_adapter', 'prompt_adapter', 'mask_adapter']:
	h, n = _get_adapter_muon_params(getattr(self, module_name))
	hidden_weights += h
	nonhidden_params += n

	return hidden_weights, nonhidden_params

	# hidden_weights = [p for p in model.body.parameters() if p.ndim >= 2]
	# hidden_gains_biases = [p for p in model.body.parameters() if p.ndim < 2]
	# nonhidden_params = [model.head.parameters(), model.embed.parameters()]