Spaces:

JackIsNotInTheBox
/

Generate_Audio_for_Video

Running on Zero

BoxOfColors Claude Sonnet 4.6 commited on 5 days ago

Commit

5aeadc9

1 Parent(s): 39d7b17

Add per-model inference timing to calibrate GPU duration constants

Wraps the segment inference loop in each generate_* function with
time.perf_counter() and prints actual wall-clock time, steps/segs,
and measured s/step alongside the current constant after every run.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (1) hide show

app.py +24 -0

app.py CHANGED Viewed

@@ -14,6 +14,7 @@ import random
 from math import floor
 from pathlib import Path
 import torch
 import numpy as np
 import torchaudio
@@ -354,6 +355,7 @@ def generate_taro(video_file, seed_val, cfg_scale, num_steps, mode,
             set_global_seed(sample_seed)
             onset_feats = extract_onset(silent_video, onset_model, tmp_path=tmp_dir, device=device)
             wavs = []
             for seg_start_s, seg_end_s in segments:
                 print(f"[TARO] Sample {sample_idx+1} | {seg_start_s:.2f}s – {seg_end_s:.2f}s")
                 wav = _taro_infer_segment(
@@ -366,6 +368,12 @@ def generate_taro(video_file, seed_val, cfg_scale, num_steps, mode,
                     euler_sampler, euler_maruyama_sampler,
                 )
                 wavs.append(wav)
             _TARO_INFERENCE_CACHE[cache_key] = {"wavs": wavs}
         final_wav  = _stitch_wavs(wavs, crossfade_s, crossfade_db, total_dur_s, TARO_SR)
@@ -474,6 +482,7 @@ def generate_mmaudio(video_file, prompt, negative_prompt, seed_val,
             rng.seed()
         seg_audios = []   # list of (channels, samples) numpy arrays
         for seg_i, (seg_start, seg_end) in enumerate(segments):
             seg_dur = seg_end - seg_start
@@ -512,6 +521,13 @@ def generate_mmaudio(video_file, prompt, negative_prompt, seed_val,
             wav = wav[:, :seg_samples]
             seg_audios.append(wav)
         # Crossfade-stitch all segments using shared equal-power helper
         full_wav = seg_audios[0]
         for nw in seg_audios[1:]:
@@ -627,6 +643,7 @@ def generate_hunyuan(video_file, prompt, negative_prompt, seed_val,
     for sample_idx in range(num_samples):
         seg_wavs = []
         sr = 48000  # HunyuanFoley always outputs 48 kHz
         for seg_i, (seg_start, seg_end) in enumerate(segments):
             seg_dur = seg_end - seg_start
             seg_path = os.path.join(tmp_dir, f"seg_{sample_idx}_{seg_i}.mp4")
@@ -661,6 +678,13 @@ def generate_hunyuan(video_file, prompt, negative_prompt, seed_val,
             wav = wav[:, :seg_samples]
             seg_wavs.append(wav)
         # Crossfade-stitch all segments using shared equal-power helper
         full_wav = seg_wavs[0]
         for nw in seg_wavs[1:]:

 from math import floor
 from pathlib import Path
+import time
 import torch
 import numpy as np
 import torchaudio
             set_global_seed(sample_seed)
             onset_feats = extract_onset(silent_video, onset_model, tmp_path=tmp_dir, device=device)
             wavs = []
+            _t_infer_start = time.perf_counter()
             for seg_start_s, seg_end_s in segments:
                 print(f"[TARO] Sample {sample_idx+1} | {seg_start_s:.2f}s – {seg_end_s:.2f}s")
                 wav = _taro_infer_segment(
                     euler_sampler, euler_maruyama_sampler,
                 )
                 wavs.append(wav)
+            _t_infer_elapsed = time.perf_counter() - _t_infer_start
+            _n_segs = len(segments)
+            _secs_per_step = _t_infer_elapsed / (_n_segs * int(num_steps)) if _n_segs * int(num_steps) > 0 else 0
+            print(f"[TARO] Inference done: {_n_segs} seg(s) × {int(num_steps)} steps in "
+                  f"{_t_infer_elapsed:.1f}s wall → {_secs_per_step:.3f}s/step "
+                  f"(current constant={TARO_SECS_PER_STEP})")
             _TARO_INFERENCE_CACHE[cache_key] = {"wavs": wavs}
         final_wav  = _stitch_wavs(wavs, crossfade_s, crossfade_db, total_dur_s, TARO_SR)
             rng.seed()
         seg_audios = []   # list of (channels, samples) numpy arrays
+        _t_mma_start = time.perf_counter()
         for seg_i, (seg_start, seg_end) in enumerate(segments):
             seg_dur = seg_end - seg_start
             wav = wav[:, :seg_samples]
             seg_audios.append(wav)
+        _t_mma_elapsed = time.perf_counter() - _t_mma_start
+        _n_segs_mma = len(segments)
+        _secs_per_step_mma = _t_mma_elapsed / (_n_segs_mma * int(num_steps)) if _n_segs_mma * int(num_steps) > 0 else 0
+        print(f"[MMAudio] Inference done: {_n_segs_mma} seg(s) × {int(num_steps)} steps in "
+              f"{_t_mma_elapsed:.1f}s wall → {_secs_per_step_mma:.3f}s/step "
+              f"(current constant={MMAUDIO_SECS_PER_STEP})")
         # Crossfade-stitch all segments using shared equal-power helper
         full_wav = seg_audios[0]
         for nw in seg_audios[1:]:
     for sample_idx in range(num_samples):
         seg_wavs = []
         sr = 48000  # HunyuanFoley always outputs 48 kHz
+        _t_hny_start = time.perf_counter()
         for seg_i, (seg_start, seg_end) in enumerate(segments):
             seg_dur = seg_end - seg_start
             seg_path = os.path.join(tmp_dir, f"seg_{sample_idx}_{seg_i}.mp4")
             wav = wav[:, :seg_samples]
             seg_wavs.append(wav)
+        _t_hny_elapsed = time.perf_counter() - _t_hny_start
+        _n_segs_hny = len(segments)
+        _secs_per_step_hny = _t_hny_elapsed / (_n_segs_hny * int(num_steps)) if _n_segs_hny * int(num_steps) > 0 else 0
+        print(f"[HunyuanFoley] Inference done: {_n_segs_hny} seg(s) × {int(num_steps)} steps in "
+              f"{_t_hny_elapsed:.1f}s wall → {_secs_per_step_hny:.3f}s/step "
+              f"(current constant={HUNYUAN_SECS_PER_STEP})")
         # Crossfade-stitch all segments using shared equal-power helper
         full_wav = seg_wavs[0]
         for nw in seg_wavs[1:]: