Fix custom handler runtime compatibility

Files changed (3) hide show

README.md CHANGED Viewed

@@ -2,15 +2,8 @@
 Custom handler para desplegar `microsoft/VibeVoice-ASR-HF` en un Inference Endpoint dedicado de Hugging Face.
-## Archivos
-- `handler.py`: handler custom para el endpoint.
-- `requirements.txt`: dependencias adicionales.
-- `deploy_endpoint.py`: script de referencia para desplegar el endpoint dedicado.
-## Configuracion esperada
-- Repo destino en HF: `juan4pro12/vibevoice-custom-handler`
-- Endpoint dedicado protegido con token
-- Hardware: `nvidia-t4` / `small`
-- Task: `custom`

 Custom handler para desplegar `microsoft/VibeVoice-ASR-HF` en un Inference Endpoint dedicado de Hugging Face.
+## Notas
+- Usa `task=custom`.
+- Usa GPU T4 (`aws-us-east-1-nvidia-t4-x1`).
+- La dependencia de `transformers` se instala desde el fork recomendado por VibeVoice para mantener compatibilidad con el runtime del endpoint.

handler.py CHANGED Viewed

@@ -13,13 +13,19 @@ class EndpointHandler:
     def __call__(self, data):
         inputs_data = data.pop("inputs", data)
-        inputs = self.processor(audio=inputs_data, return_tensors="pt").to(
-            self.model.device,
-            self.model.dtype,
-        )
         with torch.no_grad():
-            generated_ids = self.model.generate(**inputs)
-        transcription = self.processor.batch_decode(generated_ids, skip_special_tokens=True)
-        return {"text": transcription[0]}

     def __call__(self, data):
         inputs_data = data.pop("inputs", data)
+        prompt = data.pop("prompt", None)
+        inputs = self.processor.apply_transcription_request(
+            audio=inputs_data,
+            prompt=prompt,
+            return_tensors="pt",
+        ).to(self.model.device, self.model.dtype)
         with torch.no_grad():
+            output_ids = self.model.generate(**inputs)
+        generated_ids = output_ids[:, inputs["input_ids"].shape[1]:]
+        transcription = self.processor.decode(
+            generated_ids,
+            return_format="transcription_only",
+        )[0]
+        return {"text": transcription}

requirements.txt CHANGED Viewed

@@ -1,5 +1,6 @@
 torch
-transformers>=5.3.0
 accelerate
 soundfile
 librosa

 torch
 accelerate
 soundfile
 librosa
+sentencepiece
+git+https://github.com/ebezzam/transformers.git@vibevoice_asr