Spaces:

vclmax
/

Element-8-Video

Running on Zero

Vicente Alvarez commited on 2 days ago

Commit

9d8a71e

1 Parent(s): acfd94b

Move Whisper to GPU session (30s reservation) - 20-30s for 10min audio vs 30-40min on CPU

Files changed (1) hide show

app.py CHANGED Viewed

@@ -396,16 +396,17 @@ def loop_clips_with_audio_track(clip_paths: list[str], audio_path: str) -> str:
         return clip_paths[0] if clip_paths else None
-def transcribe_with_whisper(video_path: str, model_size: str = "small") -> list[dict]:
-    """Transcribe video audio with Whisper. Returns segments with timestamps."""
     import whisper
     try:
-        print(f"[whisper] Loading {model_size} model...")
-        model = whisper.load_model(model_size)
-        print(f"[whisper] Transcribing audio...")
-        result = model.transcribe(video_path, word_timestamps=True)
         print(f"[whisper] Transcription complete: {len(result['segments'])} segments")
         return result['segments']
@@ -689,10 +690,10 @@ def full_generation_process(
     if add_subtitles or watermark:
         print("[CPU] Adding subtitles/watermark...")
-        # Transcribe if subtitles requested
         subtitle_file = None
         if add_subtitles:
-            segments = transcribe_with_whisper(final_video, model_size="small")
             if segments:
                 subtitle_file = tempfile.mktemp(suffix=".ass")
                 create_beautiful_ass_subtitles(segments, subtitle_file, int(width), int(height))

         return clip_paths[0] if clip_paths else None
+@spaces.GPU(duration=30)
+def transcribe_with_whisper_gpu(video_path: str, model_size: str = "small") -> list[dict]:
+    """Transcribe video audio with Whisper on GPU. Returns segments with timestamps."""
     import whisper
     try:
+        print(f"[whisper] Loading {model_size} model on GPU...")
+        model = whisper.load_model(model_size).to('cuda')
+        print(f"[whisper] Transcribing audio on GPU...")
+        result = model.transcribe(video_path, word_timestamps=True, fp16=True)
         print(f"[whisper] Transcription complete: {len(result['segments'])} segments")
         return result['segments']
     if add_subtitles or watermark:
         print("[CPU] Adding subtitles/watermark...")
+        # Transcribe if subtitles requested (GPU work - fast!)
         subtitle_file = None
         if add_subtitles:
+            segments = transcribe_with_whisper_gpu(final_video, model_size="small")
             if segments:
                 subtitle_file = tempfile.mktemp(suffix=".ass")
                 create_beautiful_ass_subtitles(segments, subtitle_file, int(width), int(height))