Spaces:

alexnasa
/

Wan2.2-Animate-ZEROGPU

Running on Zero

App Files Files Community

alex commited on about 1 month ago

Commit

5fb16c4

1 Parent(s): f77572e

unlogged users

Browse files

Files changed (3) hide show

app.py +21 -5
wan/modules/animate/preprocess/preprocess_data.py +8 -2
wan/modules/animate/preprocess/process_pipepline.py +2 -2

app.py CHANGED Viewed

@@ -252,6 +252,8 @@ def is_portrait(video_file):
 def calculate_time_required(max_duration_s, rc_bool):
     if max_duration_s == 2:
         return 120
     elif max_duration_s == 4:
@@ -300,9 +302,15 @@ def _animate(input_video, max_duration_s, edited_frame, rc_bool, pts_by_frame, l
     else:
         w, h = 832, 480
     tag_string = "replace_flag" if rc_bool else "retarget_flag"
-    preprocess_model = load_preprocess_models()
     # NOTE: run_preprocess now receives dicts keyed by frame_idx.
     # Update run_preprocess(...) accordingly in your preprocess_data.py.
@@ -422,10 +430,9 @@ def get_sam_mask(prompt_state, frames, frame_idx, input_points, input_labels):
     :return: (H, W) boolean mask, (H, W) float32 logits (or None), prompt_state
     """
-    model_cfg = "sam2_hiera_l.yaml"
     ckpt_path = "./Wan2.2-Animate-14B/process_checkpoint"
-    sam2_checkpoint_path = os.path.join(ckpt_path, 'sam2/sam2_hiera_large.pt')
     video_predictor_local = build_sam2_video_predictor(model_cfg, sam2_checkpoint_path, device="cpu")
     inference_state = video_predictor_local.init_state(images=np.array(frames), device="cpu")
@@ -508,7 +515,16 @@ def animate_scene(input_video, max_duration_s, edited_frame, rc_str,
     except Exception as e:
         err = str(e).lower()
         print(f"{session_id} failed due to {err}")
-        raise
     final_video_path = os.path.join(output_dir, 'final_result.mp4')

 def calculate_time_required(max_duration_s, rc_bool):
+    if max_duration_s == -1:
+        return 75
     if max_duration_s == 2:
         return 120
     elif max_duration_s == 4:
     else:
         w, h = 832, 480
+    if max_duration_s == -1:
+        if is_portrait(input_video):
+            w, h = 360, 640
+        else:
+            w, h = 640, 360
     tag_string = "replace_flag" if rc_bool else "retarget_flag"
+    preprocess_model = load_preprocess_models(max_duration_s)
     # NOTE: run_preprocess now receives dicts keyed by frame_idx.
     # Update run_preprocess(...) accordingly in your preprocess_data.py.
     :return: (H, W) boolean mask, (H, W) float32 logits (or None), prompt_state
     """
+    model_cfg = "sam2_hiera_s.yaml"
     ckpt_path = "./Wan2.2-Animate-14B/process_checkpoint"
+    sam2_checkpoint_path = os.path.join(ckpt_path, 'sam2/sam2_hiera_small.pt')
     video_predictor_local = build_sam2_video_predictor(model_cfg, sam2_checkpoint_path, device="cpu")
     inference_state = video_predictor_local.init_state(images=np.array(frames), device="cpu")
     except Exception as e:
         err = str(e).lower()
         print(f"{session_id} failed due to {err}")
+        try:
+            output_video_path = _animate(
+                input_video, -1, edited_frame_png, rc_bool,
+                pts_by_frame, lbs_by_frame, session_id, progress
+            )
+        except Exception as e:
+            err = str(e).lower()
+            print(f"{session_id} failed due to {err}")
+            raise
     final_video_path = os.path.join(output_dir, 'final_result.mp4')

wan/modules/animate/preprocess/preprocess_data.py CHANGED Viewed

@@ -33,12 +33,18 @@ def _parse_args():
     return args
-def load_preprocess_models():
     ckpt_path = "./Wan2.2-Animate-14B/process_checkpoint"
     pose2d_checkpoint_path = os.path.join(ckpt_path, 'pose2d/vitpose_h_wholebody.onnx')
     det_checkpoint_path = os.path.join(ckpt_path, 'det/yolov10m.onnx')
-    sam2_checkpoint_path = os.path.join(ckpt_path, 'sam2/sam2_hiera_large.pt')
     flux_kontext_path = None
     process_pipeline = ProcessPipeline(det_checkpoint_path=det_checkpoint_path, pose2d_checkpoint_path=pose2d_checkpoint_path, sam_checkpoint_path=sam2_checkpoint_path, flux_kontext_path=flux_kontext_path)

     return args
+def load_preprocess_models(max_duration_s):
     ckpt_path = "./Wan2.2-Animate-14B/process_checkpoint"
     pose2d_checkpoint_path = os.path.join(ckpt_path, 'pose2d/vitpose_h_wholebody.onnx')
     det_checkpoint_path = os.path.join(ckpt_path, 'det/yolov10m.onnx')
+    if max_duration_s == -1:
+        print("using small sam2")
+        sam2_checkpoint_path = [os.path.join(ckpt_path, 'sam2/sam2_hiera_small.pt'),"sam2_hiera_s.yaml"]
+    else:
+        sam2_checkpoint_path = [os.path.join(ckpt_path, 'sam2/sam2_hiera_large.pt'),"sam2_hiera_l.yaml"]
     flux_kontext_path = None
     process_pipeline = ProcessPipeline(det_checkpoint_path=det_checkpoint_path, pose2d_checkpoint_path=pose2d_checkpoint_path, sam_checkpoint_path=sam2_checkpoint_path, flux_kontext_path=flux_kontext_path)

wan/modules/animate/preprocess/process_pipepline.py CHANGED Viewed

@@ -73,9 +73,9 @@ class ProcessPipeline():
     def __init__(self, det_checkpoint_path, pose2d_checkpoint_path, sam_checkpoint_path, flux_kontext_path):
         self.pose2d = Pose2d(checkpoint=pose2d_checkpoint_path, detector_checkpoint=det_checkpoint_path)
-        model_cfg = "sam2_hiera_l.yaml"
         if sam_checkpoint_path is not None:
-            self.predictor = build_sam2_video_predictor(model_cfg, sam_checkpoint_path, device="cuda")
         if flux_kontext_path is not None:
             self.flux_kontext = FluxKontextPipeline.from_pretrained(flux_kontext_path, torch_dtype=torch.bfloat16).to("cuda")

     def __init__(self, det_checkpoint_path, pose2d_checkpoint_path, sam_checkpoint_path, flux_kontext_path):
         self.pose2d = Pose2d(checkpoint=pose2d_checkpoint_path, detector_checkpoint=det_checkpoint_path)
         if sam_checkpoint_path is not None:
+            model_cfg = sam_checkpoint_path[1]
+            self.predictor = build_sam2_video_predictor(model_cfg, sam_checkpoint_path[0], device="cuda")
         if flux_kontext_path is not None:
             self.flux_kontext = FluxKontextPipeline.from_pretrained(flux_kontext_path, torch_dtype=torch.bfloat16).to("cuda")