jsbeaudry
/

whisper-medium-oswald

Automatic Speech Recognition

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

jsbeaudry commited on Jun 23, 2025

Commit

768357c

·

verified ·

1 Parent(s): 82d8904

Create handler.py

Files changed (1) hide show

handler.py +60 -0

handler.py ADDED Viewed

	@@ -0,0 +1,60 @@

+from unsloth import FastModel
+from transformers import WhisperForConditionalGeneration, pipeline
+import torch
+import tempfile
+import os
+class EndpointHandler:
+    def __init__(self, model_path):
+        # Load Unsloth Whisper model
+        model, tokenizer = FastModel.from_pretrained(
+            model_name = model_path,
+            dtype = None,
+            load_in_4bit = False,
+            auto_model = WhisperForConditionalGeneration,
+            whisper_language = "Haitian",
+            whisper_task = "transcribe"
+        )
+        # Prepare model for inference
+        FastModel.for_inference(model)
+        model.eval()
+        # Load ASR pipeline
+        self.pipeline = pipeline(
+            "automatic-speech-recognition",
+            model=model,
+            tokenizer=tokenizer.tokenizer,
+            feature_extractor=tokenizer.feature_extractor,
+            processor=tokenizer,
+            return_language=True,
+            torch_dtype=torch.float16,
+        )
+        # ⚠️ Remove forced_decoder_ids from generation config (causes runtime error)
+        if hasattr(self.pipeline.model.generation_config, "forced_decoder_ids"):
+            del self.pipeline.model.generation_config.forced_decoder_ids
+        if hasattr(self.pipeline.model.generation_config, "is_forced_decoder_ids_init"):
+            del self.pipeline.model.generation_config.is_forced_decoder_ids_init
+    def __call__(self, data):
+        audio = data.get("inputs")
+        if audio is None:
+            return "Error: No input audio provided."
+        try:
+            # Handle byte input (e.g., uploaded or streamed audio)
+            if isinstance(audio, bytes):
+                with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
+                    f.write(audio)
+                    file_path = f.name
+            elif isinstance(audio, str) and os.path.isfile(audio):
+                file_path = audio
+            else:
+                return "Error: Invalid input. Expected audio bytes or file path."
+            result = self.pipeline(file_path)
+            return result["text"]
+        except Exception as e:
+            return f"Error during transcription: {str(e)}"