Spaces:

LAP-DEV
/

Demo

Sleeping

App Files Files Community

LAP-DEV commited on Feb 14, 2025

Commit

3a41d39

verified ·

1 Parent(s): e7f9f55

Update modules/whisper/whisper_base.py

Browse files

Files changed (1) hide show

modules/whisper/whisper_base.py +37 -9

modules/whisper/whisper_base.py CHANGED Viewed

@@ -9,6 +9,7 @@ import numpy as np
 from datetime import datetime
 from faster_whisper.vad import VadOptions
 from dataclasses import astuple
 from modules.uvr.music_separator import MusicSeparator
 from modules.utils.paths import (WHISPER_MODELS_DIR, DIARIZATION_MODELS_DIR, OUTPUT_DIR, DEFAULT_PARAMETERS_CONFIG_PATH,
@@ -99,13 +100,10 @@ class WhisperBase(ABC):
         elapsed_time: float
             elapsed time for running
         """
         params = WhisperParameters.as_value(*whisper_params)
-        self.cache_parameters(
-            whisper_params=params,
-            add_timestamp=add_timestamp
-        )
         if params.lang is None:
             pass
         elif params.lang == "Automatic Detection":
@@ -134,12 +132,16 @@ class WhisperBase(ABC):
             if params.uvr_enable_offload:
                 self.music_separator.offload()
         if params.vad_filter:
             # Explicit value set for float('inf') from gr.Number()
             if params.max_speech_duration_s is None or params.max_speech_duration_s >= 9999:
                 params.max_speech_duration_s = float('inf')
             vad_options = VadOptions(
                 threshold=params.threshold,
                 min_speech_duration_ms=params.min_speech_duration_ms,
@@ -148,31 +150,57 @@ class WhisperBase(ABC):
                 speech_pad_ms=params.speech_pad_ms
             )
-            audio, speech_chunks = self.vad.run(
                 audio=audio,
                 vad_parameters=vad_options,
                 progress=progress
             )
         result, elapsed_time = self.transcribe(
             audio,
             progress,
             *astuple(params)
         )
         if params.vad_filter:
-            result = self.vad.restore_speech_timestamps(
                 segments=result,
                 speech_chunks=speech_chunks,
             )
         if params.is_diarize:
             result, elapsed_time_diarization = self.diarizer.run(
-                audio=audio,
                 use_auth_token=params.hf_token,
                 transcribed_result=result,
             )
-            elapsed_time += elapsed_time_diarization
         return result, elapsed_time
     def transcribe_file(self,

 from datetime import datetime
 from faster_whisper.vad import VadOptions
 from dataclasses import astuple
+from copy import deepcopy
 from modules.uvr.music_separator import MusicSeparator
 from modules.utils.paths import (WHISPER_MODELS_DIR, DIARIZATION_MODELS_DIR, OUTPUT_DIR, DEFAULT_PARAMETERS_CONFIG_PATH,
         elapsed_time: float
             elapsed time for running
         """
+        start_time = time.time()
         params = WhisperParameters.as_value(*whisper_params)
         if params.lang is None:
             pass
         elif params.lang == "Automatic Detection":
             if params.uvr_enable_offload:
                 self.music_separator.offload()
+            elapsed_time_bgm_sep = time.time() - start_time
+        origin_audio = deepcopy(audio)
         if params.vad_filter:
             # Explicit value set for float('inf') from gr.Number()
             if params.max_speech_duration_s is None or params.max_speech_duration_s >= 9999:
                 params.max_speech_duration_s = float('inf')
+            progress(0, desc="Filtering silent parts from audio...")
             vad_options = VadOptions(
                 threshold=params.threshold,
                 min_speech_duration_ms=params.min_speech_duration_ms,
                 speech_pad_ms=params.speech_pad_ms
             )
+            vad_processed, speech_chunks = self.vad.run(
                 audio=audio,
                 vad_parameters=vad_options,
                 progress=progress
             )
+            if vad_processed.size > 0:
+                audio = vad_processed
+            else:
+                vad_params.vad_filter = False
         result, elapsed_time = self.transcribe(
             audio,
             progress,
             *astuple(params)
         )
+        if params.whisper_enable_offload:
+            self.offload()
         if params.vad_filter:
+            restored_result = self.vad.restore_speech_timestamps(
                 segments=result,
                 speech_chunks=speech_chunks,
             )
+            if restored_result:
+                result = restored_result
+            else:
+                print("VAD detected no speech segments in the audio.")
         if params.is_diarize:
+            progress(0.99, desc="Diarizing speakers...")
             result, elapsed_time_diarization = self.diarizer.run(
+                audio=origin_audio,
                 use_auth_token=params.hf_token,
                 transcribed_result=result,
+                device=params.diarization_device
             )
+            if params.diarization_enable_offload:
+                self.diarizer.offload()
+        self.cache_parameters(
+            whisper_params=params,
+            add_timestamp=add_timestamp
+        )
+        if not result:
+            print(f"Whisper did not detected any speech segments in the audio.")
+            result = list()
+        progress(1.0, desc="Processing done!")
+        total_elapsed_time = time.time() - start_time
         return result, elapsed_time
     def transcribe_file(self,