Spaces:

JackIsNotInTheBox
/

Generate_Audio_for_Video

Running on Zero

BoxOfColors commited on about 13 hours ago

Commit

166fb8e

1 Parent(s): 9f07d3f

Remove pre-truncation from all inference paths — stitch_wavs owns trimming

All generate_* and regen GPU functions now return full window audio.
_stitch_wavs is the single place that trims to contact-edge windows
before crossfade-join, ensuring regen respects the same segment timing
as the original generation.

Files changed (1) hide show

app.py +5 -14

app.py CHANGED Viewed

@@ -647,8 +647,7 @@ def _taro_infer_segment(
     # Decode: AudioLDM2 VAE → mel → vocoder → waveform
     samples = vae.decode(samples / latents_scale).sample
     wav = vocoder(samples.squeeze().float()).detach().cpu().numpy()
-    seg_samples = int(round((seg_end_s - seg_start_s) * TARO_SR))
-    return wav[:seg_samples]
 # ================================================================== #
@@ -1059,9 +1058,7 @@ def _mmaudio_gpu_infer(video_file, prompt, negative_prompt, seed_val,
                     rng=rng,
                     cfg_strength=float(cfg_strength),
                 )
-            wav = audios.float().cpu()[0].numpy()  # (C, T)
-            seg_samples = int(round(seg_dur * sr))
-            wav = wav[:, :seg_samples]
             seg_audios.append(wav)
         _log_inference_timing("MMAudio", time.perf_counter() - _t_mma_start,
@@ -1207,9 +1204,7 @@ def _hunyuan_gpu_infer(video_file, prompt, negative_prompt, seed_val,
                 num_inference_steps=int(num_steps),
                 batch_size=1,
             )
-            wav = audio_batch[0].float().cpu().numpy()
-            seg_samples = int(round(seg_dur * sr))
-            wav = wav[:, :seg_samples]
             seg_wavs.append(wav)
         _log_inference_timing("HunyuanFoley", time.perf_counter() - _t_hny_start,
@@ -1472,9 +1467,7 @@ def _regen_mmaudio_gpu(video_file, seg_idx, seg_meta_json,
             feature_utils=feature_utils, net=net, fm=fm, rng=rng,
             cfg_strength=float(cfg_strength),
         )
-    new_wav     = audios.float().cpu()[0].numpy()
-    seg_samples = int(round(seg_dur * sr))
-    new_wav     = new_wav[:, :seg_samples]
     return new_wav, sr
@@ -1557,9 +1550,7 @@ def _regen_hunyuan_gpu(video_file, seg_idx, seg_meta_json,
         num_inference_steps=int(num_steps),
         batch_size=1,
     )
-    new_wav     = audio_batch[0].float().cpu().numpy()
-    seg_samples = int(round(seg_dur * sr))
-    new_wav     = new_wav[:, :seg_samples]
     return new_wav, sr

     # Decode: AudioLDM2 VAE → mel → vocoder → waveform
     samples = vae.decode(samples / latents_scale).sample
     wav = vocoder(samples.squeeze().float()).detach().cpu().numpy()
+    return wav  # full window — _stitch_wavs handles contact-edge trimming
 # ================================================================== #
                     rng=rng,
                     cfg_strength=float(cfg_strength),
                 )
+            wav = audios.float().cpu()[0].numpy()  # (C, T) — full window
             seg_audios.append(wav)
         _log_inference_timing("MMAudio", time.perf_counter() - _t_mma_start,
                 num_inference_steps=int(num_steps),
                 batch_size=1,
             )
+            wav = audio_batch[0].float().cpu().numpy()  # full window
             seg_wavs.append(wav)
         _log_inference_timing("HunyuanFoley", time.perf_counter() - _t_hny_start,
             feature_utils=feature_utils, net=net, fm=fm, rng=rng,
             cfg_strength=float(cfg_strength),
         )
+    new_wav = audios.float().cpu()[0].numpy()  # full window — _stitch_wavs trims
     return new_wav, sr
         num_inference_steps=int(num_steps),
         batch_size=1,
     )
+    new_wav = audio_batch[0].float().cpu().numpy()  # full window — _stitch_wavs trims
     return new_wav, sr