Spaces:

nsfwalex
/

whisper-transcribe-new

Runtime error

App Files Files Community

liuyang commited on Oct 15

Commit

ba3077f

1 Parent(s): 1d18680

fix audio param

Browse files

Files changed (1) hide show

app.py +6 -6

app.py CHANGED Viewed

@@ -514,10 +514,6 @@ class WhisperTranscriber:
         start_time = time.time()
-        # Load audio (float32, 16k) once
-        audio = whisperx.load_audio(audio_path)
-        print(audio_path)
         # Resolve engine (allow override from transcribe_options)
         if transcribe_options and isinstance(transcribe_options, dict) and transcribe_options.get("engine"):
             engine = str(transcribe_options.get("engine")).strip().lower()
@@ -527,6 +523,10 @@ class WhisperTranscriber:
         detected_language = language if language else "unknown"
         if engine == "whisperx":
             # Lazy-load WhisperX model on first use
             if model_name not in _whipser_x_transcribe_models:
                 print(f"Loading WhisperX transcribe model '{model_name}' on GPU...")
@@ -647,7 +647,7 @@ class WhisperTranscriber:
                     _faster_whisper_batched_pipelines[model_name] = BatchedInferencePipeline(model=fw_model)
                 batched_model = _faster_whisper_batched_pipelines[model_name]
                 segments_iter, info = batched_model.transcribe(
-                    audio,
                     language=language,
                     task=task,
                     **fw_kwargs,
@@ -655,7 +655,7 @@ class WhisperTranscriber:
             else:
                 fw_kwargs.pop("batch_size", None)
                 segments_iter, info = fw_model.transcribe(
-                    audio,
                     language=language,
                     task=task,
                     **fw_kwargs,

         start_time = time.time()
         # Resolve engine (allow override from transcribe_options)
         if transcribe_options and isinstance(transcribe_options, dict) and transcribe_options.get("engine"):
             engine = str(transcribe_options.get("engine")).strip().lower()
         detected_language = language if language else "unknown"
         if engine == "whisperx":
+            # Load audio (float32, 16k) once
+            audio = whisperx.load_audio(audio_path)
+            print(audio_path)
             # Lazy-load WhisperX model on first use
             if model_name not in _whipser_x_transcribe_models:
                 print(f"Loading WhisperX transcribe model '{model_name}' on GPU...")
                     _faster_whisper_batched_pipelines[model_name] = BatchedInferencePipeline(model=fw_model)
                 batched_model = _faster_whisper_batched_pipelines[model_name]
                 segments_iter, info = batched_model.transcribe(
+                    audio_path,
                     language=language,
                     task=task,
                     **fw_kwargs,
             else:
                 fw_kwargs.pop("batch_size", None)
                 segments_iter, info = fw_model.transcribe(
+                    audio_path,
                     language=language,
                     task=task,
                     **fw_kwargs,