Spaces:

aikenml
/

SAMmodel

Runtime error

App Files Files Community

aikenml commited on Dec 8, 2023

Commit

31be3d8

1 Parent(s): e021a24

Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

SegTracker.py +264 -0
aot_tracker.py +186 -0
app.py +782 -0
img2vid.py +26 -0
model_args.py +28 -0
seg_track_anything.py +300 -0

SegTracker.py ADDED Viewed

	@@ -0,0 +1,264 @@

+import sys
+sys.path.append("..")
+sys.path.append("./sam")
+from sam.segment_anything import sam_model_registry, SamAutomaticMaskGenerator
+from aot_tracker import get_aot
+import numpy as np
+from tool.segmentor import Segmentor
+from tool.detector import Detector
+from tool.transfer_tools import draw_outline, draw_points
+import cv2
+from seg_track_anything import draw_mask
+class SegTracker():
+    def __init__(self,segtracker_args, sam_args, aot_args) -> None:
+        """
+         Initialize SAM and AOT.
+        """
+        self.sam = Segmentor(sam_args)
+        self.tracker = get_aot(aot_args)
+        self.detector = Detector(self.sam.device)
+        self.sam_gap = segtracker_args['sam_gap']
+        self.min_area = segtracker_args['min_area']
+        self.max_obj_num = segtracker_args['max_obj_num']
+        self.min_new_obj_iou = segtracker_args['min_new_obj_iou']
+        self.reference_objs_list = []
+        self.object_idx = 1
+        self.curr_idx = 1
+        self.origin_merged_mask = None  # init by segment-everything or update
+        self.first_frame_mask = None
+        # debug
+        self.everything_points = []
+        self.everything_labels = []
+        print("SegTracker has been initialized")
+    def seg(self,frame):
+        '''
+        Arguments:
+            frame: numpy array (h,w,3)
+        Return:
+            origin_merged_mask: numpy array (h,w)
+        '''
+        frame = frame[:, :, ::-1]
+        anns = self.sam.everything_generator.generate(frame)
+        # anns is a list recording all predictions in an image
+        if len(anns) == 0:
+            return
+        # merge all predictions into one mask (h,w)
+        # note that the merged mask may lost some objects due to the overlapping
+        self.origin_merged_mask = np.zeros(anns[0]['segmentation'].shape,dtype=np.uint8)
+        idx = 1
+        for ann in anns:
+            if ann['area'] > self.min_area:
+                m = ann['segmentation']
+                self.origin_merged_mask[m==1] = idx
+                idx += 1
+                self.everything_points.append(ann["point_coords"][0])
+                self.everything_labels.append(1)
+        obj_ids = np.unique(self.origin_merged_mask)
+        obj_ids = obj_ids[obj_ids!=0]
+        self.object_idx = 1
+        for id in obj_ids:
+            if np.sum(self.origin_merged_mask==id) < self.min_area or self.object_idx > self.max_obj_num:
+                self.origin_merged_mask[self.origin_merged_mask==id] = 0
+            else:
+                self.origin_merged_mask[self.origin_merged_mask==id] = self.object_idx
+                self.object_idx += 1
+        self.first_frame_mask = self.origin_merged_mask
+        return self.origin_merged_mask
+    def update_origin_merged_mask(self, updated_merged_mask):
+        self.origin_merged_mask = updated_merged_mask
+        # obj_ids = np.unique(updated_merged_mask)
+        # obj_ids = obj_ids[obj_ids!=0]
+        # self.object_idx = int(max(obj_ids)) + 1
+    def reset_origin_merged_mask(self, mask, id):
+        self.origin_merged_mask = mask
+        self.curr_idx = id
+    def add_reference(self,frame,mask,frame_step=0):
+        '''
+        Add objects in a mask for tracking.
+        Arguments:
+            frame: numpy array (h,w,3)
+            mask: numpy array (h,w)
+        '''
+        self.reference_objs_list.append(np.unique(mask))
+        self.curr_idx = self.get_obj_num() + 1
+        self.tracker.add_reference_frame(frame,mask, self.curr_idx - 1, frame_step)
+    def track(self,frame,update_memory=False):
+        '''
+        Track all known objects.
+        Arguments:
+            frame: numpy array (h,w,3)
+        Return:
+            origin_merged_mask: numpy array (h,w)
+        '''
+        pred_mask = self.tracker.track(frame)
+        if update_memory:
+            self.tracker.update_memory(pred_mask)
+        return pred_mask.squeeze(0).squeeze(0).detach().cpu().numpy().astype(np.uint8)
+    def get_tracking_objs(self):
+        objs = set()
+        for ref in self.reference_objs_list:
+            objs.update(set(ref))
+        objs = list(sorted(list(objs)))
+        objs = [i for i in objs if i!=0]
+        return objs
+    def get_obj_num(self):
+        objs = self.get_tracking_objs()
+        if len(objs) == 0: return 0
+        return int(max(objs))
+    def find_new_objs(self, track_mask, seg_mask):
+        '''
+        Compare tracked results from AOT with segmented results from SAM. Select objects from background if they are not tracked.
+        Arguments:
+            track_mask: numpy array (h,w)
+            seg_mask: numpy array (h,w)
+        Return:
+            new_obj_mask: numpy array (h,w)
+        '''
+        new_obj_mask = (track_mask==0) * seg_mask
+        new_obj_ids = np.unique(new_obj_mask)
+        new_obj_ids = new_obj_ids[new_obj_ids!=0]
+        # obj_num = self.get_obj_num() + 1
+        obj_num = self.curr_idx
+        for idx in new_obj_ids:
+            new_obj_area = np.sum(new_obj_mask==idx)
+            obj_area = np.sum(seg_mask==idx)
+            if new_obj_area/obj_area < self.min_new_obj_iou or new_obj_area < self.min_area\
+                or obj_num > self.max_obj_num:
+                new_obj_mask[new_obj_mask==idx] = 0
+            else:
+                new_obj_mask[new_obj_mask==idx] = obj_num
+                obj_num += 1
+        return new_obj_mask
+    def restart_tracker(self):
+        self.tracker.restart()
+    def seg_acc_bbox(self, origin_frame: np.ndarray, bbox: np.ndarray,):
+        ''''
+        Use bbox-prompt to get mask
+        Parameters:
+            origin_frame: H, W, C
+            bbox: [[x0, y0], [x1, y1]]
+        Return:
+            refined_merged_mask: numpy array (h, w)
+            masked_frame: numpy array (h, w, c)
+        '''
+        # get interactive_mask
+        interactive_mask = self.sam.segment_with_box(origin_frame, bbox)[0]
+        refined_merged_mask = self.add_mask(interactive_mask)
+        # draw mask
+        masked_frame = draw_mask(origin_frame.copy(), refined_merged_mask)
+        # draw bbox
+        masked_frame = cv2.rectangle(masked_frame, bbox[0], bbox[1], (0, 0, 255))
+        return refined_merged_mask, masked_frame
+    def seg_acc_click(self, origin_frame: np.ndarray, coords: np.ndarray, modes: np.ndarray, multimask=True):
+        '''
+        Use point-prompt to get mask
+        Parameters:
+            origin_frame: H, W, C
+            coords: nd.array [[x, y]]
+            modes: nd.array [[1]]
+        Return:
+            refined_merged_mask: numpy array (h, w)
+            masked_frame: numpy array (h, w, c)
+        '''
+        # get interactive_mask
+        interactive_mask = self.sam.segment_with_click(origin_frame, coords, modes, multimask)
+        refined_merged_mask = self.add_mask(interactive_mask)
+        # draw mask
+        masked_frame = draw_mask(origin_frame.copy(), refined_merged_mask)
+        # draw points
+        # self.everything_labels = np.array(self.everything_labels).astype(np.int64)
+        # self.everything_points = np.array(self.everything_points).astype(np.int64)
+        masked_frame = draw_points(coords, modes, masked_frame)
+        # draw outline
+        masked_frame = draw_outline(interactive_mask, masked_frame)
+        return refined_merged_mask, masked_frame
+    def add_mask(self, interactive_mask: np.ndarray):
+        '''
+        Merge interactive mask with self.origin_merged_mask
+        Parameters:
+            interactive_mask: numpy array (h, w)
+        Return:
+            refined_merged_mask: numpy array (h, w)
+        '''
+        if self.origin_merged_mask is None:
+            self.origin_merged_mask = np.zeros(interactive_mask.shape,dtype=np.uint8)
+        refined_merged_mask = self.origin_merged_mask.copy()
+        refined_merged_mask[interactive_mask > 0] = self.curr_idx
+        return refined_merged_mask
+    def detect_and_seg(self, origin_frame: np.ndarray, grounding_caption, box_threshold, text_threshold, box_size_threshold=1, reset_image=False):
+        '''
+        Using Grounding-DINO to detect object acc Text-prompts
+        Retrun:
+            refined_merged_mask: numpy array (h, w)
+            annotated_frame: numpy array (h, w, 3)
+        '''
+        # backup id and origin-merged-mask
+        bc_id = self.curr_idx
+        bc_mask = self.origin_merged_mask
+        # get annotated_frame and boxes
+        annotated_frame, boxes = self.detector.run_grounding(origin_frame, grounding_caption, box_threshold, text_threshold)
+        for i in range(len(boxes)):
+            bbox = boxes[i]
+            if (bbox[1][0] - bbox[0][0]) * (bbox[1][1] - bbox[0][1]) > annotated_frame.shape[0] * annotated_frame.shape[1] * box_size_threshold:
+                continue
+            interactive_mask = self.sam.segment_with_box(origin_frame, bbox, reset_image)[0]
+            refined_merged_mask = self.add_mask(interactive_mask)
+            self.update_origin_merged_mask(refined_merged_mask)
+            self.curr_idx += 1
+        # reset origin_mask
+        self.reset_origin_merged_mask(bc_mask, bc_id)
+        return refined_merged_mask, annotated_frame
+if __name__ == '__main__':
+    from model_args import segtracker_args,sam_args,aot_args
+    Seg_Tracker = SegTracker(segtracker_args, sam_args, aot_args)
+    # ------------------ detect test ----------------------
+    origin_frame = cv2.imread('/data2/cym/Seg_Tra_any/Segment-and-Track-Anything/debug/point.png')
+    origin_frame = cv2.cvtColor(origin_frame, cv2.COLOR_BGR2RGB)
+    grounding_caption = "swan.water"
+    box_threshold = 0.25
+    text_threshold = 0.25
+    predicted_mask, annotated_frame = Seg_Tracker.detect_and_seg(origin_frame, grounding_caption, box_threshold, text_threshold)
+    masked_frame = draw_mask(annotated_frame, predicted_mask)
+    origin_frame = cv2.cvtColor(origin_frame, cv2.COLOR_RGB2BGR)
+    cv2.imwrite('./debug/masked_frame.png', masked_frame)
+    cv2.imwrite('./debug/x.png', annotated_frame)

aot_tracker.py ADDED Viewed

	@@ -0,0 +1,186 @@

+from statistics import mode
+import torch
+import torch.nn.functional as F
+import os
+import sys
+sys.path.append("./aot")
+from aot.networks.engines.aot_engine import AOTEngine,AOTInferEngine
+from aot.networks.engines.deaot_engine import DeAOTEngine,DeAOTInferEngine
+import importlib
+import numpy as np
+from PIL import Image
+from skimage.morphology.binary import binary_dilation
+np.random.seed(200)
+_palette = ((np.random.random((3*255))*0.7+0.3)*255).astype(np.uint8).tolist()
+_palette = [0,0,0]+_palette
+import aot.dataloaders.video_transforms as tr
+from aot.utils.checkpoint import load_network
+from aot.networks.models import build_vos_model
+from aot.networks.engines import build_engine
+from torchvision import transforms
+class AOTTracker(object):
+    def __init__(self, cfg, gpu_id=0):
+        self.gpu_id = gpu_id
+        self.model = build_vos_model(cfg.MODEL_VOS, cfg).cuda(gpu_id)
+        self.model, _ = load_network(self.model, cfg.TEST_CKPT_PATH, gpu_id)
+        # self.engine = self.build_tracker_engine(cfg.MODEL_ENGINE,
+        #                            aot_model=self.model,
+        #                            gpu_id=gpu_id,
+        #                            short_term_mem_skip=4,
+        #                            long_term_mem_gap=cfg.TEST_LONG_TERM_MEM_GAP)
+        self.engine = build_engine(cfg.MODEL_ENGINE,
+                                   phase='eval',
+                                   aot_model=self.model,
+                                   gpu_id=gpu_id,
+                                   short_term_mem_skip=1,
+                                   long_term_mem_gap=cfg.TEST_LONG_TERM_MEM_GAP,
+                                   max_len_long_term=cfg.MAX_LEN_LONG_TERM)
+        self.transform = transforms.Compose([
+            tr.MultiRestrictSize(cfg.TEST_MAX_SHORT_EDGE,
+                                 cfg.TEST_MAX_LONG_EDGE, cfg.TEST_FLIP,
+                                 cfg.TEST_MULTISCALE, cfg.MODEL_ALIGN_CORNERS),
+            tr.MultiToTensor()
+        ])
+        self.model.eval()
+    @torch.no_grad()
+    def add_reference_frame(self, frame, mask, obj_nums, frame_step, incremental=False):
+        # mask = cv2.resize(mask, frame.shape[:2][::-1], interpolation = cv2.INTER_NEAREST)
+        sample = {
+            'current_img': frame,
+            'current_label': mask,
+        }
+        sample = self.transform(sample)
+        frame = sample[0]['current_img'].unsqueeze(0).float().cuda(self.gpu_id)
+        mask = sample[0]['current_label'].unsqueeze(0).float().cuda(self.gpu_id)
+        _mask = F.interpolate(mask,size=frame.shape[-2:],mode='nearest')
+        if incremental:
+            self.engine.add_reference_frame_incremental(frame, _mask, obj_nums=obj_nums, frame_step=frame_step)
+        else:
+            self.engine.add_reference_frame(frame, _mask, obj_nums=obj_nums, frame_step=frame_step)
+    @torch.no_grad()
+    def track(self, image):
+        output_height, output_width = image.shape[0], image.shape[1]
+        sample = {'current_img': image}
+        sample = self.transform(sample)
+        image = sample[0]['current_img'].unsqueeze(0).float().cuda(self.gpu_id)
+        self.engine.match_propogate_one_frame(image)
+        pred_logit = self.engine.decode_current_logits((output_height, output_width))
+        # pred_prob = torch.softmax(pred_logit, dim=1)
+        pred_label = torch.argmax(pred_logit, dim=1,
+                                    keepdim=True).float()
+        return  pred_label
+    @torch.no_grad()
+    def update_memory(self, pred_label):
+        self.engine.update_memory(pred_label)
+    @torch.no_grad()
+    def restart(self):
+        self.engine.restart_engine()
+    @torch.no_grad()
+    def build_tracker_engine(self, name, **kwargs):
+        if name == 'aotengine':
+            return AOTTrackerInferEngine(**kwargs)
+        elif name == 'deaotengine':
+            return DeAOTTrackerInferEngine(**kwargs)
+        else:
+            raise NotImplementedError
+class AOTTrackerInferEngine(AOTInferEngine):
+    def __init__(self, aot_model, gpu_id=0, long_term_mem_gap=9999, short_term_mem_skip=1, max_aot_obj_num=None):
+        super().__init__(aot_model, gpu_id, long_term_mem_gap, short_term_mem_skip, max_aot_obj_num)
+    def add_reference_frame_incremental(self, img, mask, obj_nums, frame_step=-1):
+        if isinstance(obj_nums, list):
+            obj_nums = obj_nums[0]
+        self.obj_nums = obj_nums
+        aot_num = max(np.ceil(obj_nums / self.max_aot_obj_num), 1)
+        while (aot_num > len(self.aot_engines)):
+            new_engine = AOTEngine(self.AOT, self.gpu_id,
+                                   self.long_term_mem_gap,
+                                   self.short_term_mem_skip)
+            new_engine.eval()
+            self.aot_engines.append(new_engine)
+        separated_masks, separated_obj_nums = self.separate_mask(
+            mask, obj_nums)
+        img_embs = None
+        for aot_engine, separated_mask, separated_obj_num in zip(
+                self.aot_engines, separated_masks, separated_obj_nums):
+            if aot_engine.obj_nums is None or aot_engine.obj_nums[0] < separated_obj_num:
+                aot_engine.add_reference_frame(img,
+                                            separated_mask,
+                                            obj_nums=[separated_obj_num],
+                                            frame_step=frame_step,
+                                            img_embs=img_embs)
+            else:
+                aot_engine.update_short_term_memory(separated_mask)
+            if img_embs is None:  # reuse image embeddings
+                img_embs = aot_engine.curr_enc_embs
+        self.update_size()
+class DeAOTTrackerInferEngine(DeAOTInferEngine):
+    def __init__(self, aot_model, gpu_id=0, long_term_mem_gap=9999, short_term_mem_skip=1, max_aot_obj_num=None):
+        super().__init__(aot_model, gpu_id, long_term_mem_gap, short_term_mem_skip, max_aot_obj_num)
+    def add_reference_frame_incremental(self, img, mask, obj_nums, frame_step=-1):
+        if isinstance(obj_nums, list):
+            obj_nums = obj_nums[0]
+        self.obj_nums = obj_nums
+        aot_num = max(np.ceil(obj_nums / self.max_aot_obj_num), 1)
+        while (aot_num > len(self.aot_engines)):
+            new_engine = DeAOTEngine(self.AOT, self.gpu_id,
+                                   self.long_term_mem_gap,
+                                   self.short_term_mem_skip)
+            new_engine.eval()
+            self.aot_engines.append(new_engine)
+        separated_masks, separated_obj_nums = self.separate_mask(
+            mask, obj_nums)
+        img_embs = None
+        for aot_engine, separated_mask, separated_obj_num in zip(
+                self.aot_engines, separated_masks, separated_obj_nums):
+            if aot_engine.obj_nums is None or aot_engine.obj_nums[0] < separated_obj_num:
+                aot_engine.add_reference_frame(img,
+                                            separated_mask,
+                                            obj_nums=[separated_obj_num],
+                                            frame_step=frame_step,
+                                            img_embs=img_embs)
+            else:
+                aot_engine.update_short_term_memory(separated_mask)
+            if img_embs is None:  # reuse image embeddings
+                img_embs = aot_engine.curr_enc_embs
+        self.update_size()
+def get_aot(args):
+    # build vos engine
+    engine_config = importlib.import_module('configs.' + 'pre_ytb_dav')
+    cfg = engine_config.EngineConfig(args['phase'], args['model'])
+    cfg.TEST_CKPT_PATH = args['model_path']
+    cfg.TEST_LONG_TERM_MEM_GAP = args['long_term_mem_gap']
+    cfg.MAX_LEN_LONG_TERM = args['max_len_long_term']
+    # init AOTTracker
+    tracker = AOTTracker(cfg, args['gpu_id'])
+    return tracker

app.py ADDED Viewed

	@@ -0,0 +1,782 @@

+from PIL.ImageOps import colorize, scale
+import gradio as gr
+import importlib
+import sys
+import os
+from matplotlib.pyplot import step
+from model_args import segtracker_args,sam_args,aot_args
+from SegTracker import SegTracker
+# sys.path.append('.')
+# sys.path.append('..')
+import cv2
+from PIL import Image
+from skimage.morphology.binary import binary_dilation
+import argparse
+import torch
+import time
+from seg_track_anything import aot_model2ckpt, tracking_objects_in_video, draw_mask
+import gc
+import numpy as np
+import json
+from tool.transfer_tools import mask2bbox
+def clean():
+    return None, None, None, None, None, None, [[], []]
+def get_click_prompt(click_stack, point):
+    click_stack[0].append(point["coord"])
+    click_stack[1].append(point["mode"]
+    )
+    prompt = {
+        "points_coord":click_stack[0],
+        "points_mode":click_stack[1],
+        "multimask":"True",
+    }
+    return prompt
+def get_meta_from_video(input_video):
+    if input_video is None:
+        return None, None, None, ""
+    print("get meta information of input video")
+    cap = cv2.VideoCapture(input_video)
+    _, first_frame = cap.read()
+    cap.release()
+    first_frame = cv2.cvtColor(first_frame, cv2.COLOR_BGR2RGB)
+    return first_frame, first_frame, first_frame, ""
+def get_meta_from_img_seq(input_img_seq):
+    if input_img_seq is None:
+        return None, None, None, ""
+    print("get meta information of img seq")
+    # Create dir
+    file_name = input_img_seq.name.split('/')[-1].split('.')[0]
+    file_path = f'./assets/{file_name}'
+    if os.path.isdir(file_path):
+        os.system(f'rm -r {file_path}')
+    os.makedirs(file_path)
+    # Unzip file
+    os.system(f'unzip {input_img_seq.name} -d ./assets ')
+    imgs_path = sorted([os.path.join(file_path, img_name) for img_name in os.listdir(file_path)])
+    first_frame = imgs_path[0]
+    first_frame = cv2.imread(first_frame)
+    first_frame = cv2.cvtColor(first_frame, cv2.COLOR_BGR2RGB)
+    return first_frame, first_frame, first_frame
+def SegTracker_add_first_frame(Seg_Tracker, origin_frame, predicted_mask):
+    with torch.cuda.amp.autocast():
+        # Reset the first frame's mask
+        frame_idx = 0
+        Seg_Tracker.restart_tracker()
+        Seg_Tracker.add_reference(origin_frame, predicted_mask, frame_idx)
+        Seg_Tracker.first_frame_mask = predicted_mask
+    return Seg_Tracker
+def init_SegTracker(aot_model, long_term_mem, max_len_long_term, sam_gap, max_obj_num, points_per_side, origin_frame):
+    if origin_frame is None:
+        return None, origin_frame, [[], []], ""
+    # reset aot args
+    aot_args["model"] = aot_model
+    aot_args["model_path"] = aot_model2ckpt[aot_model]
+    aot_args["long_term_mem_gap"] = long_term_mem
+    aot_args["max_len_long_term"] = max_len_long_term
+    # reset sam args
+    segtracker_args["sam_gap"] = sam_gap
+    segtracker_args["max_obj_num"] = max_obj_num
+    sam_args["generator_args"]["points_per_side"] = points_per_side
+    Seg_Tracker = SegTracker(segtracker_args, sam_args, aot_args)
+    Seg_Tracker.restart_tracker()
+    return Seg_Tracker, origin_frame, [[], []], ""
+def init_SegTracker_Stroke(aot_model, long_term_mem, max_len_long_term, sam_gap, max_obj_num, points_per_side, origin_frame):
+    if origin_frame is None:
+        return None, origin_frame, [[], []], origin_frame
+    # reset aot args
+    aot_args["model"] = aot_model
+    aot_args["model_path"] = aot_model2ckpt[aot_model]
+    aot_args["long_term_mem_gap"] = long_term_mem
+    aot_args["max_len_long_term"] = max_len_long_term
+    # reset sam args
+    segtracker_args["sam_gap"] = sam_gap
+    segtracker_args["max_obj_num"] = max_obj_num
+    sam_args["generator_args"]["points_per_side"] = points_per_side
+    Seg_Tracker = SegTracker(segtracker_args, sam_args, aot_args)
+    Seg_Tracker.restart_tracker()
+    return Seg_Tracker, origin_frame, [[], []], origin_frame
+def undo_click_stack_and_refine_seg(Seg_Tracker, origin_frame, click_stack, aot_model, long_term_mem, max_len_long_term, sam_gap, max_obj_num, points_per_side):
+    if Seg_Tracker is None:
+        return Seg_Tracker, origin_frame, [[], []]
+    print("Undo!")
+    if len(click_stack[0]) > 0:
+        click_stack[0] = click_stack[0][: -1]
+        click_stack[1] = click_stack[1][: -1]
+    if len(click_stack[0]) > 0:
+        prompt = {
+            "points_coord":click_stack[0],
+            "points_mode":click_stack[1],
+            "multimask":"True",
+        }
+        masked_frame = seg_acc_click(Seg_Tracker, prompt, origin_frame)
+        return Seg_Tracker, masked_frame, click_stack
+    else:
+        return Seg_Tracker, origin_frame, [[], []]
+def seg_acc_click(Seg_Tracker, prompt, origin_frame):
+    # seg acc to click
+    predicted_mask, masked_frame = Seg_Tracker.seg_acc_click(
+                                                      origin_frame=origin_frame,
+                                                      coords=np.array(prompt["points_coord"]),
+                                                      modes=np.array(prompt["points_mode"]),
+                                                      multimask=prompt["multimask"],
+                                                    )
+    Seg_Tracker = SegTracker_add_first_frame(Seg_Tracker, origin_frame, predicted_mask)
+    return masked_frame
+def sam_click(Seg_Tracker, origin_frame, point_mode, click_stack, aot_model, long_term_mem, max_len_long_term, sam_gap, max_obj_num, points_per_side, evt:gr.SelectData):
+    """
+    Args:
+        origin_frame: nd.array
+        click_stack: [[coordinate], [point_mode]]
+    """
+    print("Click")
+    if point_mode == "Positive":
+        point = {"coord": [evt.index[0], evt.index[1]], "mode": 1}
+    else:
+        # TODO：add everything positive points
+        point = {"coord": [evt.index[0], evt.index[1]], "mode": 0}
+    if Seg_Tracker is None:
+        Seg_Tracker, _, _, _ = init_SegTracker(aot_model, long_term_mem, max_len_long_term, sam_gap, max_obj_num, points_per_side, origin_frame)
+    # get click prompts for sam to predict mask
+    click_prompt = get_click_prompt(click_stack, point)
+    # Refine acc to prompt
+    masked_frame = seg_acc_click(Seg_Tracker, click_prompt, origin_frame)
+    return Seg_Tracker, masked_frame, click_stack
+def sam_stroke(Seg_Tracker, origin_frame, drawing_board, aot_model, long_term_mem, max_len_long_term, sam_gap, max_obj_num, points_per_side):
+    if Seg_Tracker is None:
+        Seg_Tracker, _ , _, _ = init_SegTracker(aot_model, long_term_mem, max_len_long_term, sam_gap, max_obj_num, points_per_side, origin_frame)
+    print("Stroke")
+    mask = drawing_board["mask"]
+    bbox = mask2bbox(mask[:, :, 0])  # bbox: [[x0, y0], [x1, y1]]
+    predicted_mask, masked_frame = Seg_Tracker.seg_acc_bbox(origin_frame, bbox)
+    Seg_Tracker = SegTracker_add_first_frame(Seg_Tracker, origin_frame, predicted_mask)
+    return Seg_Tracker, masked_frame, origin_frame
+def gd_detect(Seg_Tracker, origin_frame, grounding_caption, box_threshold, text_threshold, aot_model, long_term_mem, max_len_long_term, sam_gap, max_obj_num, points_per_side):
+    if Seg_Tracker is None:
+        Seg_Tracker, _ , _, _ = init_SegTracker(aot_model, long_term_mem, max_len_long_term, sam_gap, max_obj_num, points_per_side, origin_frame)
+    print("Detect")
+    predicted_mask, annotated_frame= Seg_Tracker.detect_and_seg(origin_frame, grounding_caption, box_threshold, text_threshold)
+    Seg_Tracker = SegTracker_add_first_frame(Seg_Tracker, origin_frame, predicted_mask)
+    masked_frame = draw_mask(annotated_frame, predicted_mask)
+    return Seg_Tracker, masked_frame, origin_frame
+def segment_everything(Seg_Tracker, aot_model, long_term_mem, max_len_long_term, origin_frame, sam_gap, max_obj_num, points_per_side):
+    if Seg_Tracker is None:
+        Seg_Tracker, _ , _, _ = init_SegTracker(aot_model, long_term_mem, max_len_long_term, sam_gap, max_obj_num, points_per_side, origin_frame)
+    print("Everything")
+    frame_idx = 0
+    with torch.cuda.amp.autocast():
+        pred_mask = Seg_Tracker.seg(origin_frame)
+        torch.cuda.empty_cache()
+        gc.collect()
+        Seg_Tracker.add_reference(origin_frame, pred_mask, frame_idx)
+        Seg_Tracker.first_frame_mask = pred_mask
+    masked_frame = draw_mask(origin_frame.copy(), pred_mask)
+    return Seg_Tracker, masked_frame
+def add_new_object(Seg_Tracker):
+    prev_mask = Seg_Tracker.first_frame_mask
+    Seg_Tracker.update_origin_merged_mask(prev_mask)
+    Seg_Tracker.curr_idx += 1
+    print("Ready to add new object!")
+    return Seg_Tracker, [[], []]
+def tracking_objects(Seg_Tracker, input_video, input_img_seq, fps):
+    print("Start tracking !")
+    return tracking_objects_in_video(Seg_Tracker, input_video, input_img_seq, fps)
+def seg_track_app():
+    ##########################################################
+    ######################  Front-end ########################
+    ##########################################################
+    app = gr.Blocks()
+    with app:
+        gr.Markdown(
+            '''
+            <div style="text-align:center;">
+                <span style="font-size:3em; font-weight:bold;">Segment and Track Anything(SAM-Track)</span>
+            </div>
+            '''
+        )
+        click_stack = gr.State([[],[]]) # Storage clicks status
+        origin_frame = gr.State(None)
+        Seg_Tracker = gr.State(None)
+        aot_model = gr.State(None)
+        sam_gap = gr.State(None)
+        points_per_side = gr.State(None)
+        max_obj_num = gr.State(None)
+        with gr.Row():
+            # video input
+            with gr.Column(scale=0.5):
+                tab_video_input = gr.Tab(label="Video type input")
+                with tab_video_input:
+                    input_video = gr.Video(label='Input video').style(height=550)
+                tab_img_seq_input = gr.Tab(label="Image-Seq type input")
+                with tab_img_seq_input:
+                    with gr.Row():
+                        input_img_seq = gr.File(label='Input Image-Seq').style(height=550)
+                        with gr.Column(scale=0.25):
+                            extract_button = gr.Button(value="extract")
+                            fps = gr.Slider(label='fps', minimum=5, maximum=50, value=8, step=1)
+                input_first_frame = gr.Image(label='Segment result of first frame',interactive=True).style(height=550)
+                tab_everything = gr.Tab(label="Everything")
+                with tab_everything:
+                    with gr.Row():
+                        seg_every_first_frame = gr.Button(value="Segment everything for first frame", interactive=True)
+                        point_mode = gr.Radio(
+                            choices=["Positive"],
+                            value="Positive",
+                            label="Point Prompt",
+                            interactive=True)
+                        every_undo_but = gr.Button(
+                                    value="Undo",
+                                    interactive=True
+                                    )
+                            # every_reset_but = gr.Button(
+                            #             value="Reset",
+                            #             interactive=True
+                            #                     )
+                tab_click = gr.Tab(label="Click")
+                with tab_click:
+                    with gr.Row():
+                        point_mode = gr.Radio(
+                                    choices=["Positive",  "Negative"],
+                                    value="Positive",
+                                    label="Point Prompt",
+                                    interactive=True)
+                        # args for modify and tracking
+                        click_undo_but = gr.Button(
+                                    value="Undo",
+                                    interactive=True
+                                    )
+                            # click_reset_but = gr.Button(
+                            #             value="Reset",
+                            #             interactive=True
+                            #                     )
+                tab_stroke = gr.Tab(label="Stroke")
+                with tab_stroke:
+                    drawing_board = gr.Image(label='Drawing Board', tool="sketch", brush_radius=10, interactive=True)
+                    with gr.Row():
+                        seg_acc_stroke = gr.Button(value="Segment", interactive=True)
+                        # stroke_reset_but = gr.Button(
+                        #                 value="Reset",
+                        #                 interactive=True
+                        #                         )
+                tab_text = gr.Tab(label="Text")
+                with tab_text:
+                    grounding_caption = gr.Textbox(label="Detection Prompt")
+                    detect_button = gr.Button(value="Detect")
+                    with gr.Accordion("Advanced options", open=False):
+                        with gr.Row():
+                            with gr.Column(scale=0.5):
+                                box_threshold = gr.Slider(
+                                    label="Box Threshold", minimum=0.0, maximum=1.0, value=0.25, step=0.001
+                                )
+                            with gr.Column(scale=0.5):
+                                text_threshold = gr.Slider(
+                                    label="Text Threshold", minimum=0.0, maximum=1.0, value=0.25, step=0.001
+                                )
+                with gr.Row():
+                    with gr.Column(scale=0.5):
+                        with gr.Tab(label="SegTracker Args"):
+                            # args for tracking in video do segment-everthing
+                            points_per_side = gr.Slider(
+                                label = "points_per_side",
+                                minimum= 1,
+                                step = 1,
+                                maximum=100,
+                                value=16,
+                                interactive=True
+                            )
+                            sam_gap = gr.Slider(
+                                label='sam_gap',
+                                minimum = 1,
+                                step=1,
+                                maximum = 9999,
+                                value=100,
+                                interactive=True,
+                            )
+                            max_obj_num = gr.Slider(
+                                label='max_obj_num',
+                                minimum = 50,
+                                step=1,
+                                maximum = 300,
+                                value=255,
+                                interactive=True
+                            )
+                            with gr.Accordion("aot advanced options", open=False):
+                                aot_model = gr.Dropdown(
+                                    label="aot_model",
+                                    choices = [
+                                        "deaotb",
+                                        "deaotl",
+                                        "r50_deaotl"
+                                    ],
+                                    value = "r50_deaotl",
+                                    interactive=True,
+                                )
+                                long_term_mem = gr.Slider(label="long term memory gap", minimum=1, maximum=9999, value=9999, step=1)
+                                max_len_long_term = gr.Slider(label="max len of long term memory", minimum=1, maximum=9999, value=9999, step=1)
+                    with gr.Column():
+                        new_object_button = gr.Button(
+                            value="Add new object",
+                            interactive=True
+                        )
+                        reset_button = gr.Button(
+                            value="Reset",
+                            interactive=True,
+                        )
+                        track_for_video = gr.Button(
+                            value="Start Tracking",
+                                interactive=True,
+                                )
+            with gr.Column(scale=0.5):
+                output_video = gr.Video(label='Output video').style(height=550)
+                output_mask = gr.File(label="Predicted masks")
+    ##########################################################
+    ######################  back-end #########################
+    ##########################################################
+        # listen to the input_video to get the first frame of video
+        input_video.change(
+            fn=get_meta_from_video,
+            inputs=[
+                input_video
+            ],
+            outputs=[
+                input_first_frame, origin_frame, drawing_board, grounding_caption
+            ]
+        )
+        # listen to the input_img_seq to get the first frame of video
+        input_img_seq.change(
+            fn=get_meta_from_img_seq,
+            inputs=[
+                input_img_seq
+            ],
+            outputs=[
+                input_first_frame, origin_frame, drawing_board, grounding_caption
+            ]
+        )
+        #-------------- Input compont -------------
+        tab_video_input.select(
+            fn = clean,
+            inputs=[],
+            outputs=[
+                input_video,
+                input_img_seq,
+                Seg_Tracker,
+                input_first_frame,
+                origin_frame,
+                drawing_board,
+                click_stack,
+            ]
+        )
+        tab_img_seq_input.select(
+            fn = clean,
+            inputs=[],
+            outputs=[
+                input_video,
+                input_img_seq,
+                Seg_Tracker,
+                input_first_frame,
+                origin_frame,
+                drawing_board,
+                click_stack,
+            ]
+        )
+        extract_button.click(
+            fn=get_meta_from_img_seq,
+            inputs=[
+                input_img_seq
+            ],
+            outputs=[
+                input_first_frame, origin_frame, drawing_board
+            ]
+        )
+        # ------------------- Interactive component -----------------
+        # listen to the tab to init SegTracker
+        tab_everything.select(
+            fn=init_SegTracker,
+            inputs=[
+                aot_model,
+                long_term_mem,
+                max_len_long_term,
+                sam_gap,
+                max_obj_num,
+                points_per_side,
+                origin_frame
+            ],
+            outputs=[
+                Seg_Tracker, input_first_frame, click_stack, grounding_caption
+            ],
+            queue=False,
+        )
+        tab_click.select(
+            fn=init_SegTracker,
+            inputs=[
+                aot_model,
+                long_term_mem,
+                max_len_long_term,
+                sam_gap,
+                max_obj_num,
+                points_per_side,
+                origin_frame
+            ],
+            outputs=[
+                Seg_Tracker, input_first_frame, click_stack, grounding_caption
+            ],
+            queue=False,
+        )
+        tab_stroke.select(
+            fn=init_SegTracker_Stroke,
+            inputs=[
+                aot_model,
+                long_term_mem,
+                max_len_long_term,
+                sam_gap,
+                max_obj_num,
+                points_per_side,
+                origin_frame,
+            ],
+            outputs=[
+                Seg_Tracker, input_first_frame, click_stack, drawing_board
+            ],
+            queue=False,
+        )
+        tab_text.select(
+            fn=init_SegTracker,
+            inputs=[
+                aot_model,
+                long_term_mem,
+                max_len_long_term,
+                sam_gap,
+                max_obj_num,
+                points_per_side,
+                origin_frame
+            ],
+            outputs=[
+                Seg_Tracker, input_first_frame, click_stack, grounding_caption
+            ],
+            queue=False,
+        )
+        # Use SAM to segment everything for the first frame of video
+        seg_every_first_frame.click(
+            fn=segment_everything,
+            inputs=[
+                Seg_Tracker,
+                aot_model,
+                long_term_mem,
+                max_len_long_term,
+                origin_frame,
+                sam_gap,
+                max_obj_num,
+                points_per_side,
+            ],
+            outputs=[
+                Seg_Tracker,
+                input_first_frame,
+            ],
+            )
+        # Interactively modify the mask acc click
+        input_first_frame.select(
+            fn=sam_click,
+            inputs=[
+                Seg_Tracker, origin_frame, point_mode, click_stack,
+                aot_model,
+                long_term_mem,
+                max_len_long_term,
+                sam_gap,
+                max_obj_num,
+                points_per_side,
+            ],
+            outputs=[
+                Seg_Tracker, input_first_frame, click_stack
+            ]
+        )
+        # Interactively segment acc stroke
+        seg_acc_stroke.click(
+            fn=sam_stroke,
+            inputs=[
+                Seg_Tracker, origin_frame, drawing_board,
+                aot_model,
+                long_term_mem,
+                max_len_long_term,
+                sam_gap,
+                max_obj_num,
+                points_per_side,
+            ],
+            outputs=[
+                Seg_Tracker, input_first_frame, drawing_board
+            ]
+        )
+        # Use grounding-dino to detect object
+        detect_button.click(
+            fn=gd_detect,
+            inputs=[
+                Seg_Tracker, origin_frame, grounding_caption, box_threshold, text_threshold,
+                aot_model, long_term_mem, max_len_long_term, sam_gap, max_obj_num, points_per_side
+                ],
+            outputs=[
+                Seg_Tracker, input_first_frame
+                ]
+                )
+        # Add new object
+        new_object_button.click(
+            fn=add_new_object,
+            inputs=
+            [
+                Seg_Tracker
+            ],
+            outputs=
+            [
+                Seg_Tracker, click_stack
+            ]
+        )
+        # Track object in video
+        track_for_video.click(
+            fn=tracking_objects,
+            inputs=[
+                Seg_Tracker,
+                input_video,
+                input_img_seq,
+                fps,
+            ],
+            outputs=[
+                output_video, output_mask
+            ]
+        )
+        # ----------------- Reset and Undo ---------------------------
+        # Rest
+        reset_button.click(
+            fn=init_SegTracker,
+            inputs=[
+                aot_model,
+                long_term_mem,
+                max_len_long_term,
+                sam_gap,
+                max_obj_num,
+                points_per_side,
+                origin_frame
+            ],
+            outputs=[
+                Seg_Tracker, input_first_frame, click_stack, grounding_caption
+            ],
+            queue=False,
+            show_progress=False
+        )
+        # every_reset_but.click(
+        #     fn=init_SegTracker,
+        #     inputs=[
+        #         aot_model,
+        #         sam_gap,
+        #         max_obj_num,
+        #         points_per_side,
+        #         origin_frame
+        #     ],
+        #     outputs=[
+        #         Seg_Tracker, input_first_frame, click_stack, grounding_caption
+        #     ],
+        #     queue=False,
+        #     show_progress=False
+        # )
+        # click_reset_but.click(
+        #     fn=init_SegTracker,
+        #     inputs=[
+        #         aot_model,
+        #         sam_gap,
+        #         max_obj_num,
+        #         points_per_side,
+        #         origin_frame
+        #     ],
+        #     outputs=[
+        #         Seg_Tracker, input_first_frame, click_stack, grounding_caption
+        #     ],
+        #     queue=False,
+        #     show_progress=False
+        # )
+        # stroke_reset_but.click(
+        #     fn=init_SegTracker_Stroke,
+        #     inputs=[
+        #         aot_model,
+        #         sam_gap,
+        #         max_obj_num,
+        #         points_per_side,
+        #         origin_frame,
+        #     ],
+        #     outputs=[
+        #         Seg_Tracker, input_first_frame, click_stack, drawing_board
+        #     ],
+        #     queue=False,
+        #     show_progress=False
+        # )
+        # Undo click
+        click_undo_but.click(
+            fn = undo_click_stack_and_refine_seg,
+            inputs=[
+                Seg_Tracker, origin_frame, click_stack,
+                aot_model,
+                long_term_mem,
+                max_len_long_term,
+                sam_gap,
+                max_obj_num,
+                points_per_side,
+            ],
+            outputs=[
+               Seg_Tracker, input_first_frame, click_stack
+            ]
+        )
+        every_undo_but.click(
+            fn = undo_click_stack_and_refine_seg,
+            inputs=[
+                Seg_Tracker, origin_frame, click_stack,
+                aot_model,
+                long_term_mem,
+                max_len_long_term,
+                sam_gap,
+                max_obj_num,
+                points_per_side,
+            ],
+            outputs=[
+               Seg_Tracker, input_first_frame, click_stack
+            ]
+        )
+        with gr.Tab(label='Video example'):
+            gr.Examples(
+                examples=[
+                    # os.path.join(os.path.dirname(__file__), "assets", "840_iSXIa0hE8Ek.mp4"),
+                    os.path.join(os.path.dirname(__file__), "assets", "blackswan.mp4"),
+                    # os.path.join(os.path.dirname(__file__), "assets", "bear.mp4"),
+                    # os.path.join(os.path.dirname(__file__), "assets", "camel.mp4"),
+                    # os.path.join(os.path.dirname(__file__), "assets", "skate-park.mp4"),
+                    # os.path.join(os.path.dirname(__file__), "assets", "swing.mp4"),
+                    ],
+                inputs=[input_video],
+            )
+        with gr.Tab(label='Image-seq expamle'):
+            gr.Examples(
+                examples=[
+                    os.path.join(os.path.dirname(__file__), "assets", "840_iSXIa0hE8Ek.zip"),
+                ],
+                inputs=[input_img_seq],
+            )
+    app.queue(concurrency_count=1)
+    app.launch(debug=True, enable_queue=True, share=True)
+if __name__ == "__main__":
+    seg_track_app()

img2vid.py ADDED Viewed

	@@ -0,0 +1,26 @@

+import cv2
+import os
+# set the directory containing the images
+img_dir = './assets/840_iSXIa0hE8Ek'
+# set the output video file name and codec
+out_file = './assets/840_iSXIa0hE8Ek.mp4'
+fourcc = cv2.VideoWriter_fourcc(*'mp4v')
+# get the dimensions of the first image
+img_path = os.path.join(img_dir, os.listdir(img_dir)[0])
+img = cv2.imread(img_path)
+height, width, channels = img.shape
+# create the VideoWriter object
+out = cv2.VideoWriter(out_file, fourcc, 10, (width, height))
+# loop through the images and write them to the video
+for img_name in sorted(os.listdir(img_dir)):
+    img_path = os.path.join(img_dir, img_name)
+    img = cv2.imread(img_path)
+    out.write(img)
+# release the VideoWriter object and close the video file
+out.release()

model_args.py ADDED Viewed

	@@ -0,0 +1,28 @@

+# Explanation of generator_args is in sam/segment_anything/automatic_mask_generator.py: SamAutomaticMaskGenerator
+sam_args = {
+    'sam_checkpoint': "ckpt/sam_vit_b_01ec64.pth",
+    'model_type': "vit_b",
+    'generator_args':{
+        'points_per_side': 16,
+        'pred_iou_thresh': 0.8,
+        'stability_score_thresh': 0.9,
+        'crop_n_layers': 1,
+        'crop_n_points_downscale_factor': 2,
+        'min_mask_region_area': 200,
+    },
+    'gpu_id': 0,
+}
+aot_args = {
+    'phase': 'PRE_YTB_DAV',
+    'model': 'r50_deaotl',
+    'model_path': 'ckpt/R50_DeAOTL_PRE_YTB_DAV.pth',
+    'long_term_mem_gap': 9999,
+    'max_len_long_term': 9999,
+    'gpu_id': 0,
+}
+segtracker_args = {
+    'sam_gap': 10, # the interval to run sam to segment new objects
+    'min_area': 200, # minimal mask area to add a new mask as a new object
+    'max_obj_num': 255, # maximal object number to track in a video
+    'min_new_obj_iou': 0.8, # the background area ratio of a new object should > 80%
+}

seg_track_anything.py ADDED Viewed

	@@ -0,0 +1,300 @@

+import os
+import cv2
+from model_args import segtracker_args,sam_args,aot_args
+from PIL import Image
+from aot_tracker import _palette
+import numpy as np
+import torch
+import gc
+import imageio
+from scipy.ndimage import binary_dilation
+def save_prediction(pred_mask,output_dir,file_name):
+    save_mask = Image.fromarray(pred_mask.astype(np.uint8))
+    save_mask = save_mask.convert(mode='P')
+    save_mask.putpalette(_palette)
+    save_mask.save(os.path.join(output_dir,file_name))
+def colorize_mask(pred_mask):
+    save_mask = Image.fromarray(pred_mask.astype(np.uint8))
+    save_mask = save_mask.convert(mode='P')
+    save_mask.putpalette(_palette)
+    save_mask = save_mask.convert(mode='RGB')
+    return np.array(save_mask)
+def draw_mask(img, mask, alpha=0.5, id_countour=False):
+    img_mask = np.zeros_like(img)
+    img_mask = img
+    if id_countour:
+        # very slow ~ 1s per image
+        obj_ids = np.unique(mask)
+        obj_ids = obj_ids[obj_ids!=0]
+        for id in obj_ids:
+            # Overlay color on  binary mask
+            if id <= 255:
+                color = _palette[id*3:id*3+3]
+            else:
+                color = [0,0,0]
+            foreground = img * (1-alpha) + np.ones_like(img) * alpha * np.array(color)
+            binary_mask = (mask == id)
+            # Compose image
+            img_mask[binary_mask] = foreground[binary_mask]
+            countours = binary_dilation(binary_mask,iterations=1) ^ binary_mask
+            img_mask[countours, :] = 0
+    else:
+        binary_mask = (mask!=0)
+        countours = binary_dilation(binary_mask,iterations=1) ^ binary_mask
+        foreground = img*(1-alpha)+colorize_mask(mask)*alpha
+        img_mask[binary_mask] = foreground[binary_mask]
+        img_mask[countours,:] = 0
+    return img_mask.astype(img.dtype)
+def create_dir(dir_path):
+    if os.path.isdir(dir_path):
+        os.system(f"rm -r {dir_path}")
+    os.makedirs(dir_path)
+aot_model2ckpt = {
+    "deaotb": "./ckpt/DeAOTB_PRE_YTB_DAV.pth",
+    "deaotl": "./ckpt/DeAOTL_PRE_YTB_DAV",
+    "r50_deaotl": "./ckpt/R50_DeAOTL_PRE_YTB_DAV.pth",
+}
+def tracking_objects_in_video(SegTracker, input_video, input_img_seq, fps):
+    if input_video is not None:
+        video_name = os.path.basename(input_video).split('.')[0]
+    elif input_img_seq is not None:
+        file_name = input_img_seq.name.split('/')[-1].split('.')[0]
+        file_path = f'./assets/{file_name}'
+        imgs_path = sorted([os.path.join(file_path, img_name) for img_name in os.listdir(file_path)])
+        video_name = file_name
+    else:
+        return None, None
+    # create dir to save result
+    tracking_result_dir = f'{os.path.join(os.path.dirname(__file__), "tracking_results", f"{video_name}")}'
+    create_dir(tracking_result_dir)
+    io_args = {
+        'tracking_result_dir': tracking_result_dir,
+        'output_mask_dir': f'{tracking_result_dir}/{video_name}_masks',
+        'output_masked_frame_dir': f'{tracking_result_dir}/{video_name}_masked_frames',
+        'output_video': f'{tracking_result_dir}/{video_name}_seg.mp4', # keep same format as input video
+        'output_gif': f'{tracking_result_dir}/{video_name}_seg.gif',
+    }
+    if input_video is not None:
+        return video_type_input_tracking(SegTracker, input_video, io_args, video_name)
+    elif input_img_seq is not None:
+        return img_seq_type_input_tracking(SegTracker, io_args, video_name, imgs_path, fps)
+def video_type_input_tracking(SegTracker, input_video, io_args, video_name):
+    # source video to segment
+    cap = cv2.VideoCapture(input_video)
+    fps = cap.get(cv2.CAP_PROP_FPS)
+    # create dir to save predicted mask and masked frame
+    output_mask_dir = io_args['output_mask_dir']
+    create_dir(io_args['output_mask_dir'])
+    create_dir(io_args['output_masked_frame_dir'])
+    pred_list = []
+    masked_pred_list = []
+    torch.cuda.empty_cache()
+    gc.collect()
+    sam_gap = SegTracker.sam_gap
+    frame_idx = 0
+    with torch.cuda.amp.autocast():
+        while cap.isOpened():
+            ret, frame = cap.read()
+            if not ret:
+                break
+            frame = cv2.cvtColor(frame,cv2.COLOR_BGR2RGB)
+            if frame_idx == 0:
+                pred_mask = SegTracker.first_frame_mask
+                torch.cuda.empty_cache()
+                gc.collect()
+            elif (frame_idx % sam_gap) == 0:
+                seg_mask = SegTracker.seg(frame)
+                torch.cuda.empty_cache()
+                gc.collect()
+                track_mask = SegTracker.track(frame)
+                # find new objects, and update tracker with new objects
+                new_obj_mask = SegTracker.find_new_objs(track_mask,seg_mask)
+                save_prediction(new_obj_mask, output_mask_dir, str(frame_idx).zfill(5) + '_new.png')
+                pred_mask = track_mask + new_obj_mask
+                # segtracker.restart_tracker()
+                SegTracker.add_reference(frame, pred_mask)
+            else:
+                pred_mask = SegTracker.track(frame,update_memory=True)
+            torch.cuda.empty_cache()
+            gc.collect()
+            save_prediction(pred_mask, output_mask_dir, str(frame_idx).zfill(5) + '.png')
+            pred_list.append(pred_mask)
+            print("processed frame {}, obj_num {}".format(frame_idx, SegTracker.get_obj_num()),end='\r')
+            frame_idx += 1
+        cap.release()
+        print('\nfinished')
+    ##################
+    # Visualization
+    ##################
+    # draw pred mask on frame and save as a video
+    cap = cv2.VideoCapture(input_video)
+    fps = cap.get(cv2.CAP_PROP_FPS)
+    width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
+    height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
+    num_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+    fourcc =  cv2.VideoWriter_fourcc(*"mp4v")
+    # if input_video[-3:]=='mp4':
+    #     fourcc =  cv2.VideoWriter_fourcc(*"mp4v")
+    # elif input_video[-3:] == 'avi':
+    #     fourcc =  cv2.VideoWriter_fourcc(*"MJPG")
+    #     # fourcc = cv2.VideoWriter_fourcc(*"XVID")
+    # else:
+    #     fourcc = int(cap.get(cv2.CAP_PROP_FOURCC))
+    out = cv2.VideoWriter(io_args['output_video'], fourcc, fps, (width, height))
+    frame_idx = 0
+    while cap.isOpened():
+        ret, frame = cap.read()
+        if not ret:
+            break
+        frame = cv2.cvtColor(frame,cv2.COLOR_BGR2RGB)
+        pred_mask = pred_list[frame_idx]
+        masked_frame = draw_mask(frame, pred_mask)
+        cv2.imwrite(f"{io_args['output_masked_frame_dir']}/{str(frame_idx).zfill(5)}.png", masked_frame[:, :, ::-1])
+        masked_pred_list.append(masked_frame)
+        masked_frame = cv2.cvtColor(masked_frame,cv2.COLOR_RGB2BGR)
+        out.write(masked_frame)
+        print('frame {} writed'.format(frame_idx),end='\r')
+        frame_idx += 1
+    out.release()
+    cap.release()
+    print("\n{} saved".format(io_args['output_video']))
+    print('\nfinished')
+    # save colorized masks as a gif
+    imageio.mimsave(io_args['output_gif'], masked_pred_list, fps=fps)
+    print("{} saved".format(io_args['output_gif']))
+    # zip predicted mask
+    os.system(f"zip -r {io_args['tracking_result_dir']}/{video_name}_pred_mask.zip {io_args['output_mask_dir']}")
+    # manually release memory (after cuda out of memory)
+    del SegTracker
+    torch.cuda.empty_cache()
+    gc.collect()
+    return io_args['output_video'], f"{io_args['tracking_result_dir']}/{video_name}_pred_mask.zip"
+def img_seq_type_input_tracking(SegTracker, io_args, video_name, imgs_path, fps):
+    # create dir to save predicted mask and masked frame
+    output_mask_dir = io_args['output_mask_dir']
+    create_dir(io_args['output_mask_dir'])
+    create_dir(io_args['output_masked_frame_dir'])
+    pred_list = []
+    masked_pred_list = []
+    torch.cuda.empty_cache()
+    gc.collect()
+    sam_gap = SegTracker.sam_gap
+    frame_idx = 0
+    with torch.cuda.amp.autocast():
+        for img_path in imgs_path:
+            frame_name = os.path.basename(img_path).split('.')[0]
+            frame = cv2.imread(img_path)
+            frame = cv2.cvtColor(frame,cv2.COLOR_BGR2RGB)
+            if frame_idx == 0:
+                pred_mask = SegTracker.first_frame_mask
+                torch.cuda.empty_cache()
+                gc.collect()
+            elif (frame_idx % sam_gap) == 0:
+                seg_mask = SegTracker.seg(frame)
+                torch.cuda.empty_cache()
+                gc.collect()
+                track_mask = SegTracker.track(frame)
+                # find new objects, and update tracker with new objects
+                new_obj_mask = SegTracker.find_new_objs(track_mask,seg_mask)
+                save_prediction(new_obj_mask, output_mask_dir, f'{frame_name}_new.png')
+                pred_mask = track_mask + new_obj_mask
+                # segtracker.restart_tracker()
+                SegTracker.add_reference(frame, pred_mask)
+            else:
+                pred_mask = SegTracker.track(frame,update_memory=True)
+            torch.cuda.empty_cache()
+            gc.collect()
+            save_prediction(pred_mask, output_mask_dir, f'{frame_name}.png')
+            pred_list.append(pred_mask)
+            print("processed frame {}, obj_num {}".format(frame_idx, SegTracker.get_obj_num()),end='\r')
+            frame_idx += 1
+        print('\nfinished')
+    ##################
+    # Visualization
+    ##################
+    # draw pred mask on frame and save as a video
+    height, width = pred_list[0].shape
+    fourcc =  cv2.VideoWriter_fourcc(*"mp4v")
+    out = cv2.VideoWriter(io_args['output_video'], fourcc, fps, (width, height))
+    frame_idx = 0
+    for img_path in imgs_path:
+        frame_name = os.path.basename(img_path).split('.')[0]
+        frame = cv2.imread(img_path)
+        frame = cv2.cvtColor(frame,cv2.COLOR_BGR2RGB)
+        pred_mask = pred_list[frame_idx]
+        masked_frame = draw_mask(frame, pred_mask)
+        masked_pred_list.append(masked_frame)
+        cv2.imwrite(f"{io_args['output_masked_frame_dir']}/{frame_name}.png", masked_frame[:, :, ::-1])
+        masked_frame = cv2.cvtColor(masked_frame,cv2.COLOR_RGB2BGR)
+        out.write(masked_frame)
+        print('frame {} writed'.format(frame_name),end='\r')
+        frame_idx += 1
+    out.release()
+    print("\n{} saved".format(io_args['output_video']))
+    print('\nfinished')
+    # save colorized masks as a gif
+    imageio.mimsave(io_args['output_gif'], masked_pred_list, fps=fps)
+    print("{} saved".format(io_args['output_gif']))
+    # zip predicted mask
+    os.system(f"zip -r {io_args['tracking_result_dir']}/{video_name}_pred_mask.zip {io_args['output_mask_dir']}")
+    # manually release memory (after cuda out of memory)
+    del SegTracker
+    torch.cuda.empty_cache()
+    gc.collect()
+    return io_args['output_video'], f"{io_args['tracking_result_dir']}/{video_name}_pred_mask.zip"