Spaces:

BiasLab2025
/

detection_base

Paused

Zhen Ye Claude Opus 4.6 commited on Feb 20

Commit

b17bd6d

1 Parent(s): 5aec47c

perf: enable torch.compile for SAM2 via vos_optimized flag

Uses Facebook's official SAM2VideoPredictorVOS which compiles all five
model components (image_encoder, memory_encoder, memory_attention,
sam_prompt_encoder, sam_mask_decoder) with torch.compile max-autotune.
First inference has ~30s warmup cost; subsequent frames benefit from
fused kernels and reduced memory round-trips.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

Files changed (1) hide show

models/segmenters/grounded_sam2.py +4 -1

models/segmenters/grounded_sam2.py CHANGED Viewed

@@ -362,8 +362,11 @@ class GroundedSAM2Segmenter(Segmenter):
         from sam2.sam2_image_predictor import SAM2ImagePredictor
         # Video predictor (for process_video)
         self._video_predictor = build_sam2_video_predictor_hf(
-            hf_id, device=self.device
         )
         # Image predictor (for single-frame predict)

         from sam2.sam2_image_predictor import SAM2ImagePredictor
         # Video predictor (for process_video)
+        # vos_optimized=True enables SAM2VideoPredictorVOS which compiles
+        # image_encoder, memory_encoder, memory_attention, sam_prompt_encoder,
+        # and sam_mask_decoder with torch.compile(mode="max-autotune").
         self._video_predictor = build_sam2_video_predictor_hf(
+            hf_id, device=self.device, vos_optimized=True,
         )
         # Image predictor (for single-frame predict)