Spaces:

JackIsNotInTheBox
/

Generate_Audio_for_Video

Running on Zero

BoxOfColors Claude Sonnet 4.6 commited on 3 days ago

Commit

0bc4a35

1 Parent(s): 60d3e36

Move FlashSR inside GPU window, fix xregen routing, refactor helpers

- FlashSR upsampling (16kHz→48kHz) now runs inside _taro_gpu_infer
under @spaces.GPU to comply with ZeroGPU CUDA-init rules
- Remove stale _apply_flashsr calls from xregen_taro and regen_taro_segment
(FlashSR already applied per-segment inside _taro_infer_segment)
- Add api_name to queue/join fetch body to fix xregen "Too many arguments"
routing issue in Gradio 5
- Extract _build_seg_meta, _cpu_preprocess, _save_wav, _log_inference_timing
helpers; replace inline stitch with _stitch_wavs
- Cap crossfade slider max at 4s + safety clamp in _build_segments
- Add diagonal hatch waveform indicator for crossfade overlap zones
- Remove HF Token settings accordion (ZeroGPU attribution via JWT)

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (1) hide show

app.py +15 -23

app.py CHANGED Viewed

@@ -686,6 +686,12 @@ def _taro_gpu_infer(video_file, seed_val, cfg_scale, num_steps, mode,
                     latents_scale,
                     euler_sampler, euler_maruyama_sampler,
                 )
                 wavs.append(wav)
             _log_inference_timing("TARO", time.perf_counter() - _t_infer_start,
                                   len(segments), int(num_steps), TARO_SECS_PER_STEP)
@@ -735,16 +741,10 @@ def generate_taro(video_file, seed_val, cfg_scale, num_steps, mode,
     first_cavp_saved = False
     outputs = []
     for sample_idx, (wavs, cavp_feats, onset_feats) in enumerate(results):
-        final_wav  = _stitch_wavs(wavs, crossfade_s, crossfade_db, total_dur_s, TARO_SR)
-        # ── FlashSR: upsample 16 kHz → 48 kHz ──
-        print(f"[TARO] Sample {sample_idx+1}: running FlashSR upsampler (16kHz → 48kHz) …")
-        final_wav  = _apply_flashsr(final_wav)
-        out_sr     = FLASHSR_SR_OUT
-        print(f"[TARO] Sample {sample_idx+1}: FlashSR complete — {len(final_wav)/out_sr:.2f}s @ {out_sr}Hz")
         audio_path = os.path.join(tmp_dir, f"taro_{sample_idx}.wav")
-        _save_wav(audio_path, final_wav, out_sr)
         video_path = os.path.join(tmp_dir, f"taro_{sample_idx}.mp4")
         mux_video_audio(silent_video, audio_path, video_path)
         wav_paths = _save_seg_wavs(wavs, tmp_dir, f"taro_{sample_idx}")
@@ -756,7 +756,7 @@ def generate_taro(video_file, seed_val, cfg_scale, num_steps, mode,
             first_cavp_saved = True
         seg_meta = _build_seg_meta(
             segments=segments, wav_paths=wav_paths, audio_path=audio_path,
-            video_path=video_path, silent_video=silent_video, sr=out_sr,
             model="taro", crossfade_s=crossfade_s, crossfade_db=crossfade_db,
             total_dur_s=total_dur_s, cavp_path=cavp_path, onset_path=onset_path,
         )
@@ -1206,16 +1206,10 @@ def regen_taro_segment(video_file, seg_idx, seg_meta_json,
                               seed_val, cfg_scale, num_steps, mode,
                               crossfade_s, crossfade_db, slot_id)
-    # FlashSR: upsample 16 kHz → 48 kHz before splicing
-    print(f"[TARO regen] Running FlashSR upsampler (16kHz → 48kHz) on seg {seg_idx} …")
-    new_wav = _apply_flashsr(new_wav)
-    print(f"[TARO regen] FlashSR complete — {len(new_wav)/FLASHSR_SR_OUT:.2f}s @ {FLASHSR_SR_OUT}Hz")
-    # CPU: splice, stitch, mux, save — meta["sr"] must reflect the upsampled rate
-    meta_48k = dict(meta)
-    meta_48k["sr"] = FLASHSR_SR_OUT
     video_path, audio_path, updated_meta, waveform_html = _splice_and_save(
-        new_wav, seg_idx, meta_48k, slot_id
     )
     return video_path, audio_path, json.dumps(updated_meta), waveform_html
@@ -1483,10 +1477,7 @@ def xregen_taro(seg_idx, state_json, slot_id,
     new_wav_raw = _regen_taro_gpu(None, seg_idx, state_json,
                                   seed_val, cfg_scale, num_steps, mode,
                                   crossfade_s, crossfade_db, slot_id)
-    # FlashSR: upsample 16 kHz → 48 kHz before splicing into slot
-    print(f"[xregen TARO] Running FlashSR upsampler (16kHz → 48kHz) on seg {seg_idx} …")
-    new_wav_raw = _apply_flashsr(new_wav_raw)
-    print(f"[xregen TARO] FlashSR complete — {len(new_wav_raw)/FLASHSR_SR_OUT:.2f}s @ {FLASHSR_SR_OUT}Hz")
     video_path, waveform_html = _xregen_splice(new_wav_raw, FLASHSR_SR_OUT, meta, seg_idx, slot_id)
     yield gr.update(value=video_path), gr.update(value=waveform_html)
@@ -2278,6 +2269,7 @@ _GLOBAL_JS = """
         body: JSON.stringify({
           data: data,
           fn_index: fnIndex,
           session_hash: window.__gradio_session_hash__,
           event_data: null,
           trigger_id: null

                     latents_scale,
                     euler_sampler, euler_maruyama_sampler,
                 )
+                # FlashSR: upsample 16kHz → 48kHz inside GPU window to avoid
+                # ZeroGPU CUDA-init-in-main-process violation
+                print(f"[FlashSR] Upsampling seg {len(wavs)+1} "
+                      f"{seg_end_s-seg_start_s:.2f}s @ 16kHz → 48kHz …")
+                wav = _apply_flashsr(wav)
+                print(f"[FlashSR] Done — {len(wav)/FLASHSR_SR_OUT:.2f}s @ {FLASHSR_SR_OUT}Hz")
                 wavs.append(wav)
             _log_inference_timing("TARO", time.perf_counter() - _t_infer_start,
                                   len(segments), int(num_steps), TARO_SECS_PER_STEP)
     first_cavp_saved = False
     outputs = []
     for sample_idx, (wavs, cavp_feats, onset_feats) in enumerate(results):
+        # wavs are already at 48kHz — FlashSR ran inside _taro_gpu_infer
+        final_wav  = _stitch_wavs(wavs, crossfade_s, crossfade_db, total_dur_s, FLASHSR_SR_OUT)
         audio_path = os.path.join(tmp_dir, f"taro_{sample_idx}.wav")
+        _save_wav(audio_path, final_wav, FLASHSR_SR_OUT)
         video_path = os.path.join(tmp_dir, f"taro_{sample_idx}.mp4")
         mux_video_audio(silent_video, audio_path, video_path)
         wav_paths = _save_seg_wavs(wavs, tmp_dir, f"taro_{sample_idx}")
             first_cavp_saved = True
         seg_meta = _build_seg_meta(
             segments=segments, wav_paths=wav_paths, audio_path=audio_path,
+            video_path=video_path, silent_video=silent_video, sr=FLASHSR_SR_OUT,
             model="taro", crossfade_s=crossfade_s, crossfade_db=crossfade_db,
             total_dur_s=total_dur_s, cavp_path=cavp_path, onset_path=onset_path,
         )
                               seed_val, cfg_scale, num_steps, mode,
                               crossfade_s, crossfade_db, slot_id)
+    # new_wav is already at 48kHz — FlashSR ran inside _regen_taro_gpu → _taro_infer_segment
+    # CPU: splice, stitch, mux, save
     video_path, audio_path, updated_meta, waveform_html = _splice_and_save(
+        new_wav, seg_idx, meta, slot_id
     )
     return video_path, audio_path, json.dumps(updated_meta), waveform_html
     new_wav_raw = _regen_taro_gpu(None, seg_idx, state_json,
                                   seed_val, cfg_scale, num_steps, mode,
                                   crossfade_s, crossfade_db, slot_id)
+    # new_wav_raw already at 48kHz — FlashSR ran inside _regen_taro_gpu → _taro_infer_segment
     video_path, waveform_html = _xregen_splice(new_wav_raw, FLASHSR_SR_OUT, meta, seg_idx, slot_id)
     yield gr.update(value=video_path), gr.update(value=waveform_html)
         body: JSON.stringify({
           data: data,
           fn_index: fnIndex,
+          api_name: '/' + apiName,
           session_hash: window.__gradio_session_hash__,
           event_data: null,
           trigger_id: null