Spaces:

JackIsNotInTheBox
/

Generate_Audio_for_Video

Running on Zero

BoxOfColors commited on 5 days ago

Commit

95c5c55

1 Parent(s): 1c5fa8d

Add crossfade Duration/Boost controls to MMAudio and HunyuanFoley tabs

- Add Crossfade Duration (s) slider and Crossfade Boost (dB) textbox to both
MMAudio and HunyuanFoley UI tabs, matching TARO existing controls exactly
- Update generate_mmaudio() and generate_hunyuan() signatures to accept
crossfade_s and crossfade_db parameters (same defaults as before)
- Replace hardcoded MMA_CF_S/MMA_CF_DB and CF_S/CF_DB with user-supplied values
passed through _run_mmaudio and _run_hunyuan wrappers
- All 3 models now share identical crossfade UI and equal-power implementation

Files changed (1) hide show

app.py +20 -12

app.py CHANGED Viewed

@@ -360,7 +360,8 @@ MMAUDIO_WINDOW = 8.0   # seconds — MMAudio's fixed generation window
 @spaces.GPU(duration=600)
 def generate_mmaudio(video_file, prompt, negative_prompt, seed_val,
-                     cfg_strength, num_steps, num_samples):
     """MMAudio: flow-matching video-to-audio, 44.1 kHz, 8 s sliding window."""
     # MMAudio is a local package in ./MMAudio/ — add it to sys.path so imports work.
     import sys as _sys, os as _os
@@ -412,8 +413,8 @@ def generate_mmaudio(video_file, prompt, negative_prompt, seed_val,
     # MMAudio's fixed window is 8 s. For longer videos we slide over 8 s segments
     # with a 1 s crossfade overlap and stitch the results into a full-length track.
     total_dur_s = get_video_duration(video_file)
-    MMA_CF_S    = 1.0   # crossfade seconds between segments
-    MMA_CF_DB   = 3.0
     def _mma_build_segments(total_s, cf_s):
         if total_s <= MMAUDIO_WINDOW:
@@ -524,7 +525,8 @@ HUNYUAN_MAX_DUR = 15.0   # seconds
 @spaces.GPU(duration=600)
 def generate_hunyuan(video_file, prompt, negative_prompt, seed_val,
-                     guidance_scale, num_steps, model_size, num_samples):
     """HunyuanVideoFoley: text-guided foley, 48 kHz, up to 15 s."""
     import torchaudio
     import sys as _sys
@@ -570,8 +572,8 @@ def generate_hunyuan(video_file, prompt, negative_prompt, seed_val,
     # input into overlapping segments, generate audio for each, then crossfade-
     # stitch the results into a single full-length audio track.
     total_dur_s = get_video_duration(video_file)
-    CF_S  = 2.0   # crossfade seconds between segments
-    CF_DB = 3.0   # crossfade boost in dB
     segments = _taro_build_segments(total_dur_s, CF_S)   # reuse TARO helper
     print(f"[HunyuanFoley] Video={total_dur_s:.2f}s | {len(segments)} segment(s) × ≤15 s")
@@ -767,6 +769,8 @@ with gr.Blocks(title="Generate Audio for Video") as demo:
                     mma_seed     = gr.Number(label="Seed (-1 = random)", value=get_random_seed(), precision=0)
                     mma_cfg      = gr.Slider(label="CFG Strength", minimum=1, maximum=10, value=4.5, step=0.5)
                     mma_steps    = gr.Slider(label="Steps", minimum=10, maximum=50, value=25, step=1)
                     mma_samples  = gr.Slider(label="Generations", minimum=1, maximum=MAX_SLOTS, value=1, step=1)
                     mma_btn      = gr.Button("Generate", variant="primary")
@@ -786,8 +790,9 @@ with gr.Blocks(title="Generate Audio for Video") as demo:
                 outputs=mma_slot_grps,
             )
-            def _run_mmaudio(video, prompt, neg, seed, cfg, steps, n):
-                flat = generate_mmaudio(video, prompt, neg, seed, cfg, steps, n)
                 n = int(n)
                 grp_upd = [gr.update(visible=(i < n)) for i in range(MAX_SLOTS)]
                 vid_upd = [gr.update(value=flat[i * 2])     for i in range(MAX_SLOTS)]
@@ -797,7 +802,7 @@ with gr.Blocks(title="Generate Audio for Video") as demo:
             mma_btn.click(
                 fn=_run_mmaudio,
                 inputs=[mma_video, mma_prompt, mma_neg, mma_seed,
-                        mma_cfg, mma_steps, mma_samples],
                 outputs=mma_slot_grps + mma_slot_vids + mma_slot_auds,
             )
@@ -814,6 +819,8 @@ with gr.Blocks(title="Generate Audio for Video") as demo:
                     hf_guidance = gr.Slider(label="Guidance Scale", minimum=1, maximum=10, value=4.5, step=0.5)
                     hf_steps    = gr.Slider(label="Steps", minimum=10, maximum=100, value=50, step=5)
                     hf_size     = gr.Radio(label="Model Size", choices=["xl", "xxl"], value="xxl")
                     hf_samples  = gr.Slider(label="Generations", minimum=1, maximum=MAX_SLOTS, value=1, step=1)
                     hf_btn      = gr.Button("Generate", variant="primary")
@@ -833,8 +840,9 @@ with gr.Blocks(title="Generate Audio for Video") as demo:
                 outputs=hf_slot_grps,
             )
-            def _run_hunyuan(video, prompt, neg, seed, guidance, steps, size, n):
-                flat = generate_hunyuan(video, prompt, neg, seed, guidance, steps, size, n)
                 n = int(n)
                 grp_upd = [gr.update(visible=(i < n)) for i in range(MAX_SLOTS)]
                 vid_upd = [gr.update(value=flat[i * 2])     for i in range(MAX_SLOTS)]
@@ -844,7 +852,7 @@ with gr.Blocks(title="Generate Audio for Video") as demo:
             hf_btn.click(
                 fn=_run_hunyuan,
                 inputs=[hf_video, hf_prompt, hf_neg, hf_seed,
-                        hf_guidance, hf_steps, hf_size, hf_samples],
                 outputs=hf_slot_grps + hf_slot_vids + hf_slot_auds,
             )

 @spaces.GPU(duration=600)
 def generate_mmaudio(video_file, prompt, negative_prompt, seed_val,
+                     cfg_strength, num_steps, num_samples,
+                     crossfade_s=1.0, crossfade_db=3.0):
     """MMAudio: flow-matching video-to-audio, 44.1 kHz, 8 s sliding window."""
     # MMAudio is a local package in ./MMAudio/ — add it to sys.path so imports work.
     import sys as _sys, os as _os
     # MMAudio's fixed window is 8 s. For longer videos we slide over 8 s segments
     # with a 1 s crossfade overlap and stitch the results into a full-length track.
     total_dur_s = get_video_duration(video_file)
+    MMA_CF_S    = float(crossfade_s)
+    MMA_CF_DB   = float(crossfade_db)
     def _mma_build_segments(total_s, cf_s):
         if total_s <= MMAUDIO_WINDOW:
 @spaces.GPU(duration=600)
 def generate_hunyuan(video_file, prompt, negative_prompt, seed_val,
+                     guidance_scale, num_steps, model_size, num_samples,
+                     crossfade_s=2.0, crossfade_db=3.0):
     """HunyuanVideoFoley: text-guided foley, 48 kHz, up to 15 s."""
     import torchaudio
     import sys as _sys
     # input into overlapping segments, generate audio for each, then crossfade-
     # stitch the results into a single full-length audio track.
     total_dur_s = get_video_duration(video_file)
+    CF_S  = float(crossfade_s)
+    CF_DB = float(crossfade_db)
     segments = _taro_build_segments(total_dur_s, CF_S)   # reuse TARO helper
     print(f"[HunyuanFoley] Video={total_dur_s:.2f}s | {len(segments)} segment(s) × ≤15 s")
                     mma_seed     = gr.Number(label="Seed (-1 = random)", value=get_random_seed(), precision=0)
                     mma_cfg      = gr.Slider(label="CFG Strength", minimum=1, maximum=10, value=4.5, step=0.5)
                     mma_steps    = gr.Slider(label="Steps", minimum=10, maximum=50, value=25, step=1)
+                    mma_cf_dur   = gr.Slider(label="Crossfade Duration (s)", minimum=0, maximum=8, value=1, step=0.1)
+                    mma_cf_db    = gr.Textbox(label="Crossfade Boost (dB)", value="3")
                     mma_samples  = gr.Slider(label="Generations", minimum=1, maximum=MAX_SLOTS, value=1, step=1)
                     mma_btn      = gr.Button("Generate", variant="primary")
                 outputs=mma_slot_grps,
             )
+            def _run_mmaudio(video, prompt, neg, seed, cfg, steps, cf_dur, cf_db, n):
+                flat = generate_mmaudio(video, prompt, neg, seed, cfg, steps, n,
+                                        crossfade_s=cf_dur, crossfade_db=cf_db)
                 n = int(n)
                 grp_upd = [gr.update(visible=(i < n)) for i in range(MAX_SLOTS)]
                 vid_upd = [gr.update(value=flat[i * 2])     for i in range(MAX_SLOTS)]
             mma_btn.click(
                 fn=_run_mmaudio,
                 inputs=[mma_video, mma_prompt, mma_neg, mma_seed,
+                        mma_cfg, mma_steps, mma_cf_dur, mma_cf_db, mma_samples],
                 outputs=mma_slot_grps + mma_slot_vids + mma_slot_auds,
             )
                     hf_guidance = gr.Slider(label="Guidance Scale", minimum=1, maximum=10, value=4.5, step=0.5)
                     hf_steps    = gr.Slider(label="Steps", minimum=10, maximum=100, value=50, step=5)
                     hf_size     = gr.Radio(label="Model Size", choices=["xl", "xxl"], value="xxl")
+                    hf_cf_dur   = gr.Slider(label="Crossfade Duration (s)", minimum=0, maximum=8, value=2, step=0.1)
+                    hf_cf_db    = gr.Textbox(label="Crossfade Boost (dB)", value="3")
                     hf_samples  = gr.Slider(label="Generations", minimum=1, maximum=MAX_SLOTS, value=1, step=1)
                     hf_btn      = gr.Button("Generate", variant="primary")
                 outputs=hf_slot_grps,
             )
+            def _run_hunyuan(video, prompt, neg, seed, guidance, steps, size, cf_dur, cf_db, n):
+                flat = generate_hunyuan(video, prompt, neg, seed, guidance, steps, size, n,
+                                        crossfade_s=cf_dur, crossfade_db=cf_db)
                 n = int(n)
                 grp_upd = [gr.update(visible=(i < n)) for i in range(MAX_SLOTS)]
                 vid_upd = [gr.update(value=flat[i * 2])     for i in range(MAX_SLOTS)]
             hf_btn.click(
                 fn=_run_hunyuan,
                 inputs=[hf_video, hf_prompt, hf_neg, hf_seed,
+                        hf_guidance, hf_steps, hf_size, hf_cf_dur, hf_cf_db, hf_samples],
                 outputs=hf_slot_grps + hf_slot_vids + hf_slot_auds,
             )