TIGER-audio-extraction

Runtime error

fffiloni commited on May 23

Commit

143b464

verified ·

1 Parent(s): 9eaa2e4

Update gradio_app.py

Files changed (1) hide show

gradio_app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 import uuid
 import torch
 import torchaudio
@@ -110,6 +111,17 @@ def separate_dnr_video(video_path):
     return dialog_video, effect_video, music_video
 @spaces.GPU()
 def separate_speakers_video(video_path):
     audio_path, video = extract_audio_from_video(video_path)
@@ -121,8 +133,12 @@ def separate_speakers_video(video_path):
     output_videos = []
     for i, audio_file in enumerate(output_files):
         speaker_video_path = os.path.join(output_dir, f"speaker_{i+1}_video.mp4")
-        video_with_sep_audio = attach_audio_to_video(video, audio_file, speaker_video_path)
         output_videos.append(video_with_sep_audio)
     updates = []
@@ -135,6 +151,7 @@ def separate_speakers_video(video_path):
 # --- Gradio UI ---
 with gr.Blocks() as demo:
     gr.Markdown("# TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation")

 import os
+import subprocess
 import uuid
 import torch
 import torchaudio
     return dialog_video, effect_video, music_video
+def convert_to_ffmpeg_friendly(input_wav, output_wav):
+    subprocess.run([
+        "ffmpeg", "-y",
+        "-i", input_wav,
+        "-ar", str(TARGET_SR),
+        "-ac", "1",
+        "-sample_fmt", "s16",
+        output_wav
+    ], check=True)
 @spaces.GPU()
 def separate_speakers_video(video_path):
     audio_path, video = extract_audio_from_video(video_path)
     output_videos = []
     for i, audio_file in enumerate(output_files):
+        # Re-encode to ensure ffmpeg/moviepy compatibility
+        reencoded_path = os.path.join(output_dir, f"speaker_{i+1}_final.wav")
+        convert_to_ffmpeg_friendly(audio_file, reencoded_path)
         speaker_video_path = os.path.join(output_dir, f"speaker_{i+1}_video.mp4")
+        video_with_sep_audio = attach_audio_to_video(video, reencoded_path, speaker_video_path)
         output_videos.append(video_with_sep_audio)
     updates = []
 # --- Gradio UI ---
 with gr.Blocks() as demo:
     gr.Markdown("# TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation")