sanoramyun8
/

speaker-embedding-endpoint

+"""
+Custom Handler for Speaker Embedding Extraction
+Using SpeechBrain ECAPA-TDNN model for HuggingFace Inference Endpoints
+"""
+from typing import Dict, List, Any
+import torch
+import torchaudio
+import io
+import numpy as np
+class EndpointHandler:
+    """
+    HuggingFace Inference Endpoint Handler for Speaker Embedding
+    Extracts speaker embeddings using SpeechBrain's ECAPA-TDNN model.
+    Returns 192-dimensional embedding vectors for speaker verification.
+    """
+    def __init__(self, path: str = ""):
+        """
+        Initialize the handler by loading the SpeechBrain model.
+        Args:
+            path: Path to the model directory (provided by HuggingFace)
+        """
+        from speechbrain.inference.speaker import EncoderClassifier
+        # Load ECAPA-TDNN model from SpeechBrain
+        self.model = EncoderClassifier.from_hparams(
+            source="speechbrain/spkrec-ecapa-voxceleb",
+            savedir=path if path else "/tmp/spkrec-ecapa-voxceleb",
+            run_opts={"device": "cpu"}
+        )
+        self.sample_rate = 16000
+        print("[SpeakerEmbedding] Model loaded successfully")
+    def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
+        """
+        Process audio input and return speaker embedding.
+        Args:
+            data: Dictionary containing:
+                - "inputs": Audio bytes or base64 encoded audio
+                - "parameters": Optional parameters
+        Returns:
+            Dictionary with embedding vector
+        """
+        try:
+            # Get audio data from request
+            inputs = data.get("inputs")
+            if inputs is None:
+                return {"error": "No audio input provided"}
+            # Handle different input formats
+            if isinstance(inputs, bytes):
+                audio_bytes = inputs
+            elif isinstance(inputs, str):
+                # Base64 encoded
+                import base64
+                audio_bytes = base64.b64decode(inputs)
+            else:
+                return {"error": f"Unsupported input type: {type(inputs)}"}
+            # Load audio from bytes
+            audio_buffer = io.BytesIO(audio_bytes)
+            waveform, sample_rate = torchaudio.load(audio_buffer)
+            # Resample if necessary
+            if sample_rate != self.sample_rate:
+                resampler = torchaudio.transforms.Resample(
+                    orig_freq=sample_rate,
+                    new_freq=self.sample_rate
+                )
+                waveform = resampler(waveform)
+            # Convert to mono if stereo
+            if waveform.shape[0] > 1:
+                waveform = torch.mean(waveform, dim=0, keepdim=True)
+            # Extract embedding
+            with torch.no_grad():
+                embedding = self.model.encode_batch(waveform)
+                embedding = embedding.squeeze().cpu().numpy()
+            # Normalize embedding
+            embedding = embedding / np.linalg.norm(embedding)
+            return {
+                "embedding": embedding.tolist(),
+                "dimension": len(embedding),
+                "model": "speechbrain/spkrec-ecapa-voxceleb"
+            }
+        except Exception as e:
+            return {"error": str(e)}