whisper-model-internal

@@ -16,23 +16,23 @@ from datasets import Audio, Dataset
 class EndpointHandler():
-    model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
-                                  model='silero_vad', force_reload=False, onnx=True)
-    (get_speech_timestamps,
-     _, read_audio,
-     *_) = utils
     def __init__(self, path=""):
         device = 0 if torch.cuda.is_available() else "cpu"
-        self.pipe = pipeline(
-            task="automatic-speech-recognition",
-            model="openai/whisper-large",
-            chunk_length_s=30,
-            device=device,
-        )
         self.processor = WhisperProcessor.from_pretrained("openai/whisper-large")
         self.model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large")
         self.model.config.forced_decoder_ids = self.processor.get_decoder_prompt_ids(language="nl", task="transcribe")
@@ -59,10 +59,10 @@ class EndpointHandler():
         ds = pd.DataFrame(data, columns=['audio'])
         ds = Dataset.from_pandas(ds)
         # load dummy dataset and read soundfiles
-        ds = ds.cast_column("audio", Audio(sampling_rate=32_000))
         input_speech = next(iter(ds))["audio"]["array"]
         input_features = self.processor(input_speech, return_tensors="pt").input_features
-        predicted_ids = self.model.generate(input_features)
         transcription = self.processor.batch_decode(predicted_ids)
         print("this is the description")
         print(transcription)

 class EndpointHandler():
+    # model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
+    #                               model='silero_vad', force_reload=False, onnx=True)
+    # (get_speech_timestamps,
+    #  _, read_audio,
+    #  *_) = utils
     def __init__(self, path=""):
         device = 0 if torch.cuda.is_available() else "cpu"
+        # self.pipe = pipeline(
+        #     task="automatic-speech-recognition",
+        #     model="openai/whisper-large",
+        #     # chunk_length_s=30,
+        #     device=device,
+        # )
         self.processor = WhisperProcessor.from_pretrained("openai/whisper-large")
         self.model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large")
         self.model.config.forced_decoder_ids = self.processor.get_decoder_prompt_ids(language="nl", task="transcribe")
         ds = pd.DataFrame(data, columns=['audio'])
         ds = Dataset.from_pandas(ds)
         # load dummy dataset and read soundfiles
+        ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
         input_speech = next(iter(ds))["audio"]["array"]
         input_features = self.processor(input_speech, return_tensors="pt").input_features
+        predicted_ids = self.model.generate(input_features, forced_decoder_ids=self.model.config.forced_decoder_ids)
         transcription = self.processor.batch_decode(predicted_ids)
         print("this is the description")
         print(transcription)