track-anything-annotate / XMem2 /inference /interact /resource_manager.py

add model

0e83290 verified 8 months ago

12.3 kB

	import json
	import os
	from os import path
	from pathlib import Path
	import shutil
	import collections

	import cv2
	from PIL import Image
	import torch

	from util.image_loader import PaletteConverter

	if not hasattr(Image, 'Resampling'): # Pillow<9.0
	Image.Resampling = Image
	import numpy as np

	from util.palette import davis_palette
	import progressbar


	# https://bugs.python.org/issue28178
	# ah python ah why
	class LRU:
	def __init__(self, func, maxsize=128):
	self.cache = collections.OrderedDict()
	self.func = func
	self.maxsize = maxsize

	def __call__(self, *args):
	cache = self.cache
	if args in cache:
	cache.move_to_end(args)
	return cache[args]
	result = self.func(*args)
	cache[args] = result
	if len(cache) > self.maxsize:
	cache.popitem(last=False)
	return result

	def invalidate(self, key):
	self.cache.pop(key, None)


	class ResourceManager:
	def __init__(self, config):
	# determine inputs
	images = config['images']
	video = config['video']
	self.workspace = config['workspace']
	self.size = config['size']
	self.palette = davis_palette
	self.palette_converter = PaletteConverter(self.palette)

	# create temporary workspace if not specified
	if self.workspace is None:
	if images is not None:
	p_images = Path(images)
	if p_images.name == 'JPEGImages' or (Path.cwd() / 'workspace') in p_images.parents:
	# take the name instead of actual images dir (second case checks for videos already in ./workspace )
	basename = p_images.parent.name
	else:
	basename = p_images.name
	elif video is not None:
	basename = path.basename(video)[:-4]
	else:
	raise NotImplementedError(
	'Either images, video, or workspace has to be specified')

	self.workspace = path.join('./workspace', basename)

	print(f'Workspace is in: {self.workspace}')
	self.workspace_info_file = path.join(self.workspace, 'info.json')
	self.references = set()
	self._num_objects = None
	self._try_load_info()

	if config['num_objects'] is not None: # forced overwrite from user
	self._num_objects = config['num_objects']
	elif self._num_objects is None: # both are None, single object first run use case
	self._num_objects = config['num_objects_default_value']
	self._save_info()

	# determine the location of input images
	need_decoding = False
	need_resizing = False
	if path.exists(path.join(self.workspace, 'images')):
	pass
	elif images is not None:
	need_resizing = True
	elif video is not None:
	# will decode video into frames later
	need_decoding = True

	# create workspace subdirectories
	self.image_dir = path.join(self.workspace, 'images')
	self.mask_dir = path.join(self.workspace, 'masks')
	os.makedirs(self.image_dir, exist_ok=True)
	os.makedirs(self.mask_dir, exist_ok=True)

	# convert read functions to be buffered
	self.get_image = LRU(self._get_image_unbuffered, maxsize=config['buffer_size'])
	self.get_mask = LRU(self._get_mask_unbuffered, maxsize=config['buffer_size'])

	# extract frames from video
	if need_decoding:
	self._extract_frames(video)

	# copy/resize existing images to the workspace
	if need_resizing:
	self._copy_resize_frames(images)

	# read all frame names
	self.names = sorted(os.listdir(self.image_dir))
	self.names = [f[:-4] for f in self.names] # remove extensions
	self.length = len(self.names)

	assert self.length > 0, f'No images found! Check {self.workspace}/images. Remove folder if necessary.'

	print(f'{self.length} images found.')

	self.height, self.width = self.get_image(0).shape[:2]
	self.visualization_init = False

	self._resize = None
	self._masks = None
	self._keys = None
	self._keys_processed = np.zeros(self.length, dtype=bool)
	self.key_h = None
	self.key_w = None

	def _extract_frames(self, video):
	cap = cv2.VideoCapture(video)
	frame_index = 0
	print(f'Extracting frames from {video} into {self.image_dir}...')
	bar = progressbar.ProgressBar(max_value=progressbar.UnknownLength)
	while(cap.isOpened()):
	_, frame = cap.read()
	if frame is None:
	break
	if self.size > 0:
	h, w = frame.shape[:2]
	new_w = (w*self.size//min(w, h))
	new_h = (h*self.size//min(w, h))
	if new_w != w or new_h != h:
	frame = cv2.resize(frame,dsize=(new_w,new_h),interpolation=cv2.INTER_AREA)
	cv2.imwrite(path.join(self.image_dir, f'frame_{frame_index:06d}.jpg'), frame)
	frame_index += 1
	bar.update(frame_index)
	bar.finish()
	print('Done!')

	def _copy_resize_frames(self, images):
	image_list = os.listdir(images)
	print(f'Copying/resizing frames into {self.image_dir}...')
	for image_name in progressbar.progressbar(image_list):
	if self.size < 0:
	# just copy
	shutil.copy2(path.join(images, image_name), self.image_dir)
	else:
	frame = cv2.imread(path.join(images, image_name))
	h, w = frame.shape[:2]
	new_w = (w*self.size//min(w, h))
	new_h = (h*self.size//min(w, h))
	if new_w != w or new_h != h:
	frame = cv2.resize(frame,dsize=(new_w,new_h),interpolation=cv2.INTER_AREA)
	cv2.imwrite(path.join(self.image_dir, image_name), frame)
	print('Done!')

	def add_key_and_stuff_with_mask(self, ti, key, shrinkage, selection, mask):
	if self._keys is None:
	c, h, w = key.squeeze().shape
	if self.key_h is None:
	self.key_h = h
	if self.key_w is None:
	self.key_w = w
	c_mask, h_mask, w_mask = mask.shape
	self._keys = torch.empty((self.length, c, h, w), dtype=key.dtype, device=key.device)
	self._shrinkages = torch.empty((self.length, 1, h, w), dtype=key.dtype, device=key.device)
	self._selections = torch.empty((self.length, c, h, w), dtype=key.dtype, device=key.device)
	self._masks = torch.empty((self.length, c_mask, h_mask, w_mask), dtype=mask.dtype, device=key.device)
	# self._resize = Resize((h, w), interpolation=InterpolationMode.NEAREST)

	if not self._keys_processed[ti]:
	# keys don't change for the video, so we only save them once
	self._keys[ti] = key
	self._shrinkages[ti] = shrinkage
	self._selections[ti] = selection
	self._keys_processed[ti] = True

	self._masks[ti] = mask# self._resize(mask)

	def all_masks_present(self):
	return self._keys_processed.sum() == self.length

	def add_reference(self, frame_id: int):
	self.references.add(frame_id)
	self._save_info()

	def remove_reference(self, frame_id: int):
	print(self.references)
	self.references.remove(frame_id)
	self._save_info()

	def _save_info(self):
	p_workspace_subdir = Path(self.workspace_info_file).parent
	p_workspace_subdir.mkdir(parents=True, exist_ok=True)
	with open(self.workspace_info_file, 'wt') as f:
	data = {'references': sorted(self.references), 'num_objects': self._num_objects}

	json.dump(data, f, indent=4)

	def _try_load_info(self):
	try:
	with open(self.workspace_info_file) as f:
	data = json.load(f)
	self._num_objects = data['num_objects']

	# We might have num_objects, but not references if imported the project
	self.references = set(data['references'])
	except Exception:
	pass


	def save_mask(self, ti, mask):
	# mask should be uint8 H*W without channels
	assert 0 <= ti < self.length
	assert isinstance(mask, np.ndarray)

	mask = Image.fromarray(mask)
	mask.putpalette(self.palette)
	mask.save(path.join(self.mask_dir, self.names[ti]+'.png'))
	self.invalidate(ti)

	def save_visualization(self, ti, image):
	# image should be uint8 3HW
	assert 0 <= ti < self.length
	assert isinstance(image, np.ndarray)
	if not self.visualization_init:
	self.visualization_dir = path.join(self.workspace, 'visualization')
	os.makedirs(self.visualization_dir, exist_ok=True)
	self.visualization_init = True

	image = Image.fromarray(image)
	image.save(path.join(self.visualization_dir, self.names[ti]+'.jpg'))

	def _get_image_unbuffered(self, ti):
	# returns HW3 uint8 array
	assert 0 <= ti < self.length

	image = Image.open(path.join(self.image_dir, self.names[ti]+'.jpg'))
	image = np.array(image)
	return image

	def _get_mask_unbuffered(self, ti):
	# returns H*W uint8 array
	assert 0 <= ti < self.length

	mask_path = path.join(self.mask_dir, self.names[ti]+'.png')
	if path.exists(mask_path):
	mask = Image.open(mask_path)
	mask = np.array(mask)
	return mask
	else:
	return None

	def read_external_image(self, file_name, size=None, force_mask=False):
	image = Image.open(file_name)
	is_mask = image.mode in ['L', 'P']

	if size is not None:
	# PIL uses (width, height)
	image = image.resize((size[1], size[0]),
	resample=Image.Resampling.NEAREST if is_mask or force_mask else Image.Resampling.BICUBIC)

	if force_mask and image.mode != 'P':
	image = self.palette_converter.image_to_index_mask(image)
	# if image.mode in ['RGB', 'L'] and len(image.getcolors()) <= 2:
	# image = np.array(image.convert('L'))
	# # hardcoded for b&w images
	# image = np.where(image, 1, 0) # 255 (or whatever) -> binarize

	# return image.astype('uint8')
	# elif image.mode == 'RGB':
	# image = image.convert('P', palette=self.palette)
	# tmp_image = np.array(image)
	# out_image = np.zeros_like(tmp_image)
	# for i, c in enumerate(np.unique(tmp_image)):
	# if i == 0:
	# continue
	# out_image[tmp_image == c] = i # palette indices into 0, 1, 2, ...
	# self.palette = image.getpalette()
	# return out_image

	# image = image.convert('P', palette=self.palette) # saved without DAVIS palette, just number objects 0, 1, ...

	image = np.array(image)
	return image

	def invalidate(self, ti):
	# the image buffer is never invalidated
	self.get_mask.invalidate((ti,))

	def __len__(self):
	return self.length

	@property
	def h(self):
	return self.height

	@property
	def w(self):
	return self.width

	@property
	def small_masks(self):
	return self._masks

	@property
	def keys(self):
	return self._keys


	@property
	def shrinkages(self):
	return self._shrinkages

	@property
	def selections(self):
	return self._selections

	@property
	def num_objects(self):
	return self._num_objects