sanoramyun8
/

speaker-embedding-endpoint

Audio Classification

speaker-embedding

speaker-verification

Model card Files Files and versions

speaker-embedding-endpoint / handler.py

sanoramyun8's picture

Upload handler.py with huggingface_hub

683d6e8 verified 1 day ago

history blame contribute delete

3.33 kB

	"""
	Custom Handler for Speaker Embedding Extraction
	Using SpeechBrain ECAPA-TDNN model for HuggingFace Inference Endpoints
	"""

	from typing import Dict, List, Any
	import torch
	import torchaudio
	import io
	import numpy as np


	class EndpointHandler:
	"""
	HuggingFace Inference Endpoint Handler for Speaker Embedding

	Extracts speaker embeddings using SpeechBrain's ECAPA-TDNN model.
	Returns 192-dimensional embedding vectors for speaker verification.
	"""

	def __init__(self, path: str = ""):
	"""
	Initialize the handler by loading the SpeechBrain model.

	Args:
	path: Path to the model directory (provided by HuggingFace)
	"""
	from speechbrain.inference.speaker import EncoderClassifier

	# Load ECAPA-TDNN model from SpeechBrain
	self.model = EncoderClassifier.from_hparams(
	source="speechbrain/spkrec-ecapa-voxceleb",
	savedir=path if path else "/tmp/spkrec-ecapa-voxceleb",
	run_opts={"device": "cpu"}
	)

	self.sample_rate = 16000
	print("[SpeakerEmbedding] Model loaded successfully")

	def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
	"""
	Process audio input and return speaker embedding.

	Args:
	data: Dictionary containing:
	- "inputs": Audio bytes or base64 encoded audio
	- "parameters": Optional parameters

	Returns:
	Dictionary with embedding vector
	"""
	try:
	# Get audio data from request
	inputs = data.get("inputs")

	if inputs is None:
	return {"error": "No audio input provided"}

	# Handle different input formats
	if isinstance(inputs, bytes):
	audio_bytes = inputs
	elif isinstance(inputs, str):
	# Base64 encoded
	import base64
	audio_bytes = base64.b64decode(inputs)
	else:
	return {"error": f"Unsupported input type: {type(inputs)}"}

	# Load audio from bytes
	audio_buffer = io.BytesIO(audio_bytes)
	waveform, sample_rate = torchaudio.load(audio_buffer)

	# Resample if necessary
	if sample_rate != self.sample_rate:
	resampler = torchaudio.transforms.Resample(
	orig_freq=sample_rate,
	new_freq=self.sample_rate
	)
	waveform = resampler(waveform)

	# Convert to mono if stereo
	if waveform.shape[0] > 1:
	waveform = torch.mean(waveform, dim=0, keepdim=True)

	# Extract embedding
	with torch.no_grad():
	embedding = self.model.encode_batch(waveform)
	embedding = embedding.squeeze().cpu().numpy()

	# Normalize embedding
	embedding = embedding / np.linalg.norm(embedding)

	return {
	"embedding": embedding.tolist(),
	"dimension": len(embedding),
	"model": "speechbrain/spkrec-ecapa-voxceleb"
	}

	except Exception as e:
	return {"error": str(e)}