Spaces:

junma
/

MedSAM2

Runtime error

App Files Files Community

WorkTimer commited on Aug 13, 2024

Commit

d4bcb75

1 Parent(s): f3caa5b

Update frame interval handling and frame_per slider to reflect exported image interval in video processing

Browse files

Files changed (1) hide show

app.py +33 -6

app.py CHANGED Viewed

@@ -38,6 +38,23 @@ def clean(Seg_Tracker):
         torch.cuda.empty_cache()
     return None, ({}, {}), None, None, 0, None, None, None, 0
 def get_meta_from_video(Seg_Tracker, input_video, scale_slider, checkpoint):
     output_dir = '/tmp/output_frames'
@@ -49,10 +66,10 @@ def get_meta_from_video(Seg_Tracker, input_video, scale_slider, checkpoint):
     if input_video is None:
         return None, ({}, {}), None, None, 0, None, None, None, 0
     cap = cv2.VideoCapture(input_video)
     total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
     cap.release()
-    output_frames = int(total_frames * scale_slider)
-    frame_interval = max(1, total_frames // output_frames)
     print(f"frame_interval: {frame_interval}")
     try:
         ffmpeg.input(input_video, hwaccel='cuda').output(
@@ -99,7 +116,11 @@ def get_meta_from_video(Seg_Tracker, input_video, scale_slider, checkpoint):
     image_predictor = SAM2ImagePredictor(sam2_model)
     inference_state = predictor.init_state(video_path=output_dir)
     predictor.reset_state(inference_state)
-    return (predictor, inference_state, image_predictor), ({}, {}), first_frame_rgb, first_frame_rgb, 0, None, None, None, 0
 def mask2bbox(mask):
     if len(np.where(mask > 0)[0]) == 0:
@@ -142,7 +163,7 @@ def draw_rect(image, bbox, obj_id):
     rgb_color = tuple(map(int, (color[:3] * 255).astype(np.uint8)))
     inv_color = tuple(map(int, (255 - color[:3] * 255).astype(np.uint8)))
     x0, y0, x1, y1 = bbox
-    image_with_rect = cv2.rectangle(image.copy(), (x0, y0), (x1, y1), inv_color, thickness=2)
     return image_with_rect
 def sam_click(Seg_Tracker, frame_num, point_mode, click_stack, ann_obj_id, evt: gr.SelectData):
@@ -432,7 +453,7 @@ def seg_track_app():
                         with gr.Row():
                             checkpoint = gr.Dropdown(label="Model Size", choices=["tiny", "small", "base-plus", "large"], value="tiny")
                             scale_slider = gr.Slider(
-                                label="Downsampe Frame Rate",
                                 minimum=0.0,
                                 maximum=1.0,
                                 step=0.25,
@@ -464,7 +485,7 @@ def seg_track_app():
                 with gr.Row():
                     with gr.Column():
                         frame_per = gr.Slider(
-                            label = "Percentage of Frames Viewed",
                             minimum= 0.0,
                             maximum= 100.0,
                             step=0.01,
@@ -611,6 +632,12 @@ def seg_track_app():
                 Seg_Tracker, input_first_frame, drawing_board, last_draw
             ]
         )
     app.queue(concurrency_count=1)
     app.launch(debug=True, enable_queue=True, share=False)

         torch.cuda.empty_cache()
     return None, ({}, {}), None, None, 0, None, None, None, 0
+def change_video(input_video):
+    if input_video is None:
+        return 0, 0
+    cap = cv2.VideoCapture(input_video)
+    fps = cap.get(cv2.CAP_PROP_FPS)
+    total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+    cap.release()
+    scale_slider = gr.Slider.update(minimum=1.0,
+                                maximum=fps,
+                                step=1.0,
+                                value=fps,)
+    frame_per = gr.Slider.update(minimum= 0.0,
+                            maximum= total_frames / fps,
+                            step=1.0/fps,
+                            value=0.0,)
+    return scale_slider, frame_per
 def get_meta_from_video(Seg_Tracker, input_video, scale_slider, checkpoint):
     output_dir = '/tmp/output_frames'
     if input_video is None:
         return None, ({}, {}), None, None, 0, None, None, None, 0
     cap = cv2.VideoCapture(input_video)
+    fps = cap.get(cv2.CAP_PROP_FPS)
     total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
     cap.release()
+    frame_interval = max(1, int(fps // scale_slider))
     print(f"frame_interval: {frame_interval}")
     try:
         ffmpeg.input(input_video, hwaccel='cuda').output(
     image_predictor = SAM2ImagePredictor(sam2_model)
     inference_state = predictor.init_state(video_path=output_dir)
     predictor.reset_state(inference_state)
+    frame_per = gr.Slider.update(minimum= 0.0,
+                            maximum= total_frames / fps,
+                            step=frame_interval / fps,
+                            value=0.0,)
+    return (predictor, inference_state, image_predictor), ({}, {}), first_frame_rgb, first_frame_rgb, frame_per, None, None, None, 0
 def mask2bbox(mask):
     if len(np.where(mask > 0)[0]) == 0:
     rgb_color = tuple(map(int, (color[:3] * 255).astype(np.uint8)))
     inv_color = tuple(map(int, (255 - color[:3] * 255).astype(np.uint8)))
     x0, y0, x1, y1 = bbox
+    image_with_rect = cv2.rectangle(image.copy(), (x0, y0), (x1, y1), rgb_color, thickness=2)
     return image_with_rect
 def sam_click(Seg_Tracker, frame_num, point_mode, click_stack, ann_obj_id, evt: gr.SelectData):
                         with gr.Row():
                             checkpoint = gr.Dropdown(label="Model Size", choices=["tiny", "small", "base-plus", "large"], value="tiny")
                             scale_slider = gr.Slider(
+                                label="Downsampe Frame Rate (fps)",
                                 minimum=0.0,
                                 maximum=1.0,
                                 step=0.25,
                 with gr.Row():
                     with gr.Column():
                         frame_per = gr.Slider(
+                            label = "Time (seconds)",
                             minimum= 0.0,
                             maximum= 100.0,
                             step=0.01,
                 Seg_Tracker, input_first_frame, drawing_board, last_draw
             ]
         )
+        input_video.change(
+            fn=change_video,
+            inputs=[input_video],
+            outputs=[scale_slider, frame_per]
+        )
     app.queue(concurrency_count=1)
     app.launch(debug=True, enable_queue=True, share=False)