Spaces:

redhairedshanks1
/

VoiceScript

Sleeping

Antigravity Agent commited on 25 days ago

Commit

6dd81c2

1 Parent(s): 33708d5

Add ZeroGPU support and performance optimizations

Files changed (2) hide show

app.py CHANGED Viewed

@@ -3,12 +3,17 @@ import tempfile
 import gradio as gr
 from faster_whisper import WhisperModel
 import torch
 # Initialize model
 device = "cuda" if torch.cuda.is_available() else "cpu"
 compute_type = "float16" if torch.cuda.is_available() else "int8"
-print(f"Loading Whisper Large V3 on {device} ({compute_type})...")
 model = WhisperModel("large-v3", device=device, compute_type=compute_type)
 def format_timestamp(seconds):
@@ -29,17 +34,30 @@ def segments_to_srt(segments):
         lines.append("")
     return "\n".join(lines)
 def transcribe(audio_path, task="transcribe", language=None):
     if audio_path is None:
         return "Please upload an audio file.", None
-    options = {"task": task}
     if language and language != "auto":
         options["language"] = language
-    segments, info = model.transcribe(audio_path, beam_size=5, **options)
-    segments_list = list(segments)
     full_text = " ".join([s.text.strip() for s in segments_list])
     srt_content = segments_to_srt(segments_list)

 import gradio as gr
 from faster_whisper import WhisperModel
 import torch
+import spaces
 # Initialize model
+# Note: On ZeroGPU, we initialize on CPU or wait for the GPU function
 device = "cuda" if torch.cuda.is_available() else "cpu"
 compute_type = "float16" if torch.cuda.is_available() else "int8"
+print(f"Initial check - CUDA available: {torch.cuda.is_available()}")
+print(f"Loading Whisper Large V3...")
+# Global model variable
 model = WhisperModel("large-v3", device=device, compute_type=compute_type)
 def format_timestamp(seconds):
         lines.append("")
     return "\n".join(lines)
+@spaces.GPU
 def transcribe(audio_path, task="transcribe", language=None):
     if audio_path is None:
         return "Please upload an audio file.", None
+    print(f"Transcribing {audio_path} on {device}...")
+    options = {
+        "task": task,
+        "beam_size": 2, # Reduced for speed, still high accuracy
+        "best_of": 2,
+        "vad_filter": True, # Filter out non-speech/silence to speed up
+    }
     if language and language != "auto":
         options["language"] = language
+    segments, info = model.transcribe(audio_path, **options)
+    segments_list = []
+    for segment in segments:
+        segments_list.append(segment)
+        print(f"[{format_timestamp(segment.start)}] {segment.text}")
     full_text = " ".join([s.text.strip() for s in segments_list])
     srt_content = segments_to_srt(segments_list)

requirements.txt CHANGED Viewed

@@ -3,3 +3,4 @@ gradio
 torch
 torchaudio
 ffmpeg-python

 torch
 torchaudio
 ffmpeg-python
+spaces