Spaces:

JackIsNotInTheBox
/

Generate_Audio_for_Video

Sleeping

BoxOfColors commited on 19 days ago

Commit

d5399ac

1 Parent(s): e7175d4

Fix regen GPU fns: move seg clip extraction inside GPU scope

_regen_mmaudio_gpu and _regen_hunyuan_gpu now call _extract_segment_clip
internally (pure ffmpeg, safe within GPU window) instead of relying on
_ctx_store/_ctx_load cross-process context passing.

Removes redundant _extract_segment_clip + _ctx_store calls from CPU
wrappers: regen_mmaudio_segment, regen_hunyuan_segment, xregen_mmaudio,
xregen_hunyuan.

Files changed (1) hide show

app.py +16 -48

app.py CHANGED Viewed

@@ -1389,8 +1389,12 @@ def _regen_mmaudio_gpu(video_file, seg_idx, seg_meta_json,
     net, feature_utils, model_cfg, seq_cfg = _load_mmaudio_models(device, dtype)
     sr = seq_cfg.sampling_rate
-    seg_path = _ctx_load("regen_mmaudio_gpu").get("seg_path")
-    assert seg_path, "[MMAudio regen] seg_path not set — wrapper must pre-extract segment clip"
     rng = torch.Generator(device=device)
     rng.manual_seed(random.randint(0, 2**32 - 1))
@@ -1422,18 +1426,8 @@ def regen_mmaudio_segment(video_file, seg_idx, seg_meta_json,
     """Regenerate one MMAudio segment. GPU inference + CPU splice/save."""
     meta    = json.loads(seg_meta_json)
     seg_idx = int(seg_idx)
-    seg_start, seg_end = meta["segments"][seg_idx]
-    seg_dur = seg_end - seg_start
-    # CPU: pre-extract segment clip
-    tmp_dir  = _register_tmp_dir(tempfile.mkdtemp())
-    seg_path = _extract_segment_clip(
-        meta["silent_video"], seg_start, seg_dur,
-        os.path.join(tmp_dir, "regen_seg.mp4"),
-    )
-    _ctx_store("regen_mmaudio_gpu", {"seg_path": seg_path})
-    # GPU: inference only
     new_wav, sr = _regen_mmaudio_gpu(video_file, seg_idx, seg_meta_json,
                                      prompt, negative_prompt, seed_val,
                                      cfg_strength, num_steps, crossfade_s, crossfade_db,
@@ -1481,11 +1475,13 @@ def _regen_hunyuan_gpu(video_file, seg_idx, seg_meta_json,
     set_global_seed(random.randint(0, 2**32 - 1))
-    ctx      = _ctx_load("regen_hunyuan_gpu")
-    seg_path = ctx.get("seg_path")
-    assert seg_path, "[HunyuanFoley regen] seg_path not set — wrapper must pre-extract segment clip"
-    text_feats_path = ctx.get("text_feats_path", "")
     if text_feats_path and os.path.exists(text_feats_path):
         print("[HunyuanFoley regen] Loading cached text features from disk")
         from hunyuanvideo_foley.utils.feature_utils import encode_video_features
@@ -1516,21 +1512,8 @@ def regen_hunyuan_segment(video_file, seg_idx, seg_meta_json,
     """Regenerate one HunyuanFoley segment. GPU inference + CPU splice/save."""
     meta    = json.loads(seg_meta_json)
     seg_idx = int(seg_idx)
-    seg_start, seg_end = meta["segments"][seg_idx]
-    seg_dur = seg_end - seg_start
-    # CPU: pre-extract segment clip + pre-load cached text features
-    tmp_dir  = _register_tmp_dir(tempfile.mkdtemp())
-    seg_path = _extract_segment_clip(
-        meta["silent_video"], seg_start, seg_dur,
-        os.path.join(tmp_dir, "regen_seg.mp4"),
-    )
-    _ctx_store("regen_hunyuan_gpu", {
-        "seg_path": seg_path,
-        "text_feats_path": meta.get("text_feats_path", ""),
-    })
-    # GPU: inference only
     new_wav, sr = _regen_hunyuan_gpu(video_file, seg_idx, seg_meta_json,
                                      prompt, negative_prompt, seed_val,
                                      guidance_scale, num_steps, model_size,
@@ -1643,15 +1626,9 @@ def xregen_mmaudio(seg_idx, state_json, slot_id,
                    request: gr.Request = None):
     """Cross-model regen: run MMAudio inference and splice into *slot_id*."""
     seg_idx = int(seg_idx)
-    meta    = json.loads(state_json)
-    seg_start, seg_end = meta["segments"][seg_idx]
     def _run():
-        seg_path = _extract_segment_clip(
-            meta["silent_video"], seg_start, seg_end - seg_start,
-            os.path.join(tempfile.mkdtemp(), "xregen_seg.mp4"),
-        )
-        _ctx_store("regen_mmaudio_gpu", {"seg_path": seg_path})
         wav, src_sr = _regen_mmaudio_gpu(None, seg_idx, state_json,
                                          prompt, negative_prompt, seed_val,
                                          cfg_strength, num_steps,
@@ -1668,18 +1645,9 @@ def xregen_hunyuan(seg_idx, state_json, slot_id,
                    request: gr.Request = None):
     """Cross-model regen: run HunyuanFoley inference and splice into *slot_id*."""
     seg_idx = int(seg_idx)
-    meta    = json.loads(state_json)
-    seg_start, seg_end = meta["segments"][seg_idx]
     def _run():
-        seg_path = _extract_segment_clip(
-            meta["silent_video"], seg_start, seg_end - seg_start,
-            os.path.join(tempfile.mkdtemp(), "xregen_seg.mp4"),
-        )
-        _ctx_store("regen_hunyuan_gpu", {
-            "seg_path": seg_path,
-            "text_feats_path": meta.get("text_feats_path", ""),
-        })
         wav, src_sr = _regen_hunyuan_gpu(None, seg_idx, state_json,
                                          prompt, negative_prompt, seed_val,
                                          guidance_scale, num_steps, model_size,

     net, feature_utils, model_cfg, seq_cfg = _load_mmaudio_models(device, dtype)
     sr = seq_cfg.sampling_rate
+    # Extract segment clip inside the GPU function — ffmpeg is CPU-only and safe here.
+    # This avoids any cross-process context passing that fails under ZeroGPU isolation.
+    seg_path = _extract_segment_clip(
+        meta["silent_video"], seg_start, seg_dur,
+        os.path.join(tempfile.mkdtemp(), "regen_seg.mp4"),
+    )
     rng = torch.Generator(device=device)
     rng.manual_seed(random.randint(0, 2**32 - 1))
     """Regenerate one MMAudio segment. GPU inference + CPU splice/save."""
     meta    = json.loads(seg_meta_json)
     seg_idx = int(seg_idx)
+    # GPU: inference (segment clip extraction happens inside the GPU function)
     new_wav, sr = _regen_mmaudio_gpu(video_file, seg_idx, seg_meta_json,
                                      prompt, negative_prompt, seed_val,
                                      cfg_strength, num_steps, crossfade_s, crossfade_db,
     set_global_seed(random.randint(0, 2**32 - 1))
+    # Extract segment clip inside the GPU function — ffmpeg is CPU-only and safe here.
+    seg_path = _extract_segment_clip(
+        meta["silent_video"], seg_start, seg_dur,
+        os.path.join(tempfile.mkdtemp(), "regen_seg.mp4"),
+    )
+    text_feats_path = meta.get("text_feats_path", "")
     if text_feats_path and os.path.exists(text_feats_path):
         print("[HunyuanFoley regen] Loading cached text features from disk")
         from hunyuanvideo_foley.utils.feature_utils import encode_video_features
     """Regenerate one HunyuanFoley segment. GPU inference + CPU splice/save."""
     meta    = json.loads(seg_meta_json)
     seg_idx = int(seg_idx)
+    # GPU: inference (segment clip extraction happens inside the GPU function)
     new_wav, sr = _regen_hunyuan_gpu(video_file, seg_idx, seg_meta_json,
                                      prompt, negative_prompt, seed_val,
                                      guidance_scale, num_steps, model_size,
                    request: gr.Request = None):
     """Cross-model regen: run MMAudio inference and splice into *slot_id*."""
     seg_idx = int(seg_idx)
     def _run():
+        # Segment clip extraction happens inside _regen_mmaudio_gpu
         wav, src_sr = _regen_mmaudio_gpu(None, seg_idx, state_json,
                                          prompt, negative_prompt, seed_val,
                                          cfg_strength, num_steps,
                    request: gr.Request = None):
     """Cross-model regen: run HunyuanFoley inference and splice into *slot_id*."""
     seg_idx = int(seg_idx)
     def _run():
+        # Segment clip extraction happens inside _regen_hunyuan_gpu
         wav, src_sr = _regen_hunyuan_gpu(None, seg_idx, state_json,
                                          prompt, negative_prompt, seed_val,
                                          guidance_scale, num_steps, model_size,