VibeVoice-ASR-HFI

+from typing import Dict, Any
+import torch
+import soundfile as sf
+import io
+import base64
+import numpy as np
+from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
+class EndpointHandler:
+    def __init__(self, path=""):
+        self.processor = AutoProcessor.from_pretrained(path, trust_remote_code=True)
+        self.model = AutoModelForSpeechSeq2Seq.from_pretrained(
+            path,
+            trust_remote_code=True,
+            torch_dtype=torch.float16,
+            device_map="auto"
+        )
+        self.model.eval()
+    def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
+        audio_input = data.get("inputs")
+        if isinstance(audio_input, str):
+            audio_bytes = base64.b64decode(audio_input)
+        else:
+            audio_bytes = audio_input
+        audio_array, sample_rate = sf.read(io.BytesIO(audio_bytes))
+        if audio_array.ndim > 1:
+            audio_array = audio_array.mean(axis=1)
+        inputs = self.processor(
+            audio_array,
+            sampling_rate=sample_rate,
+            return_tensors="pt"
+        ).to(self.model.device)
+        with torch.no_grad():
+            generated_ids = self.model.generate(**inputs)
+        transcription = self.processor.batch_decode(
+            generated_ids,
+            skip_special_tokens=True
+        )[0]
+        return {"text": transcription}