faster-distil-whisper-large-v3

lingdoc commited on 22 days ago

Commit

cb4b944

verified ·

1 Parent(s): 934e6d2

Update handler.py

Files changed (1) hide show

handler.py CHANGED Viewed

@@ -1,6 +1,7 @@
 # handler.py (for handling asr with faster_whisper)
 from faster_whisper import WhisperModel, BatchedInferencePipeline
 from typing import Any, Dict, List
 class EndpointHandler:
@@ -19,6 +20,7 @@ class EndpointHandler:
         """
         # process input
         inputs = data.pop("inputs", data)
         # Retrieve custom arguments, providing defaults if necessary
         params = data.pop("parameters", {})
         language = params.get("language", "en")
@@ -26,13 +28,13 @@ class EndpointHandler:
         vad_params = params.get("vad_params", None)
         batched = params.get("batched", True)
         if batched:
-            segments, info = self.batched_model.transcribe(inputs,
                                                         language=language, # can use this to constrain language, otherwise the language is detected from first 30 seconds
                                                         vad_filter=vad_filter,
                                                         vad_parameters=vad_params
                                                         )
         else:
-            segments, info = self.model.transcribe(inputs, beam_size=5)
         segments = [segment.text for segment in segments]
         return " ".join(segments)

 # handler.py (for handling asr with faster_whisper)
 from faster_whisper import WhisperModel, BatchedInferencePipeline
 from typing import Any, Dict, List
+from transformers.pipelines.audio_utils import ffmpeg_read
 class EndpointHandler:
         """
         # process input
         inputs = data.pop("inputs", data)
+        audio_nparray = ffmpeg_read(inputs, 16000)
         # Retrieve custom arguments, providing defaults if necessary
         params = data.pop("parameters", {})
         language = params.get("language", "en")
         vad_params = params.get("vad_params", None)
         batched = params.get("batched", True)
         if batched:
+            segments, info = self.batched_model.transcribe(audio_nparray,
                                                         language=language, # can use this to constrain language, otherwise the language is detected from first 30 seconds
                                                         vad_filter=vad_filter,
                                                         vad_parameters=vad_params
                                                         )
         else:
+            segments, info = self.model.transcribe(audio_nparray, beam_size=5)
         segments = [segment.text for segment in segments]
         return " ".join(segments)