Spaces:

msse-team-3
/

ai-engineering-project

Sleeping

ai-engineering-project / src /embedding /embedding_service.py

GitHub Action

Clean deployment without binary files

f884e6e 2 months ago

16.7 kB

	"""Embedding service: lazy-loading sentence-transformers wrapper."""

	import logging
	import os
	from typing import Dict, List, Optional, Tuple

	import numpy as np
	import torch
	from transformers import AutoModel, AutoTokenizer, PreTrainedModel, PreTrainedTokenizer

	from src.utils.memory_utils import log_memory_checkpoint, memory_monitor


	def mean_pooling(model_output, attention_mask: np.ndarray) -> np.ndarray:
	"""Mean Pooling - Take attention mask into account for correct averaging."""
	token_embeddings = model_output.last_hidden_state

	# Support both torch tensors and numpy arrays
	try:
	import torch

	if torch.is_tensor(token_embeddings):
	token_embeddings = token_embeddings.cpu().numpy()
	except Exception:
	# If torch isn't available or check fails, proceed assuming numpy
	pass

	# Ensure attention_mask is numpy
	if hasattr(attention_mask, "cpu"):
	try:
	attention_mask = attention_mask.cpu().numpy()
	except Exception:
	pass

	input_mask_expanded = (
	np.expand_dims(attention_mask, axis=-1).repeat(token_embeddings.shape[-1], axis=-1).astype(float)
	)
	sum_embeddings = np.sum(token_embeddings * input_mask_expanded, axis=1)
	sum_mask = np.clip(np.sum(input_mask_expanded, axis=1), a_min=1e-9, a_max=None)
	return sum_embeddings / sum_mask


	class EmbeddingService:
	"""HuggingFace wrapper for generating embeddings using transformers AutoModel.

	Uses lazy loading and a class-level cache to avoid repeated expensive model
	loads and to minimize memory footprint at startup.
	This simplified version removes the ONNX/optimum path and uses the
	HF model specified by `EMBEDDING_MODEL_NAME` (e.g. intfloat/multilingual-e5-large).
	"""

	_model_cache: Dict[str, Tuple[PreTrainedModel, PreTrainedTokenizer]] = {}

	def __init__(
	self,
	model_name: Optional[str] = None,
	device: Optional[str] = None,
	batch_size: Optional[int] = None,
	):
	# Import config values as defaults
	from src.config import (
	EMBEDDING_BATCH_SIZE,
	EMBEDDING_DEVICE,
	EMBEDDING_MODEL_NAME,
	)

	# The original model name is kept for reference.
	self.original_model_name = model_name or EMBEDDING_MODEL_NAME
	# We no longer support a separate quantized model path; always use HF model
	self.model_name = self.original_model_name
	self.device = device or EMBEDDING_DEVICE or "cpu"
	self.batch_size = batch_size or EMBEDDING_BATCH_SIZE
	# Max tokens (sequence length) to bound memory; configurable via env
	# EMBEDDING_MAX_TOKENS (default 512)
	try:
	self.max_tokens = int(os.getenv("EMBEDDING_MAX_TOKENS", "512"))
	except ValueError:
	self.max_tokens = 512
	# Lazy loading - don't load model at initialization
	# Use PreTrainedModel typing from transformers for compatibility
	from transformers import PreTrainedModel

	self.model: Optional[PreTrainedModel] = None
	self.tokenizer: Optional[PreTrainedTokenizer] = None

	logging.info(
	"Initialized EmbeddingService: model=%s base=%s device=%s max_tokens=%s",
	self.model_name,
	self.original_model_name,
	self.device,
	getattr(self, "max_tokens", "unset"),
	)

	def _ensure_model_loaded(self) -> Tuple[PreTrainedModel, PreTrainedTokenizer]:
	"""Ensure HF AutoModel and tokenizer are loaded and cached."""
	if self.model is None or self.tokenizer is None:
	import gc

	gc.collect()

	cache_key = f"{self.model_name}_{self.device}"

	# In pytest runs we avoid downloading HF models; use a lightweight fake tokenizer/model
	if os.getenv("PYTEST_RUNNING") == "1":
	logging.info("PYTEST_RUNNING detected - using test dummy model/tokenizer for EmbeddingService")

	class _DummyTokenizer:
	def __call__(self, texts, padding=True, truncation=True, max_length=512, return_tensors="pt"):
	# Create a minimal dummy encoding compatible with usage in embed_texts
	import torch

	batch_size = len(texts)
	# Return tensors with attention_mask and input_ids placeholders
	return {
	"input_ids": torch.zeros((batch_size, 1), dtype=torch.long),
	"attention_mask": torch.ones((batch_size, 1), dtype=torch.long),
	}

	class _DummyModel:
	def __init__(self):
	# no-op constructor; avoid importing torch here to prevent
	# flake8 unused-import warnings
	pass

	def to(self, device):
	return self

	def eval(self):
	return self

	def __call__(self, **kwargs):
	# Return an object with last_hidden_state shaped (batch_size, seq_len, hidden_size)
	# intentionally avoid importing numpy here; use torch underneath
	class Out:
	pass

	batch_size = kwargs.get("input_ids").shape[0]
	seq_len = kwargs.get("input_ids").shape[1]
	hidden_size = 1024
	import torch

	# Create random but deterministic-like values
	last_hidden = torch.zeros((batch_size, seq_len, hidden_size), dtype=torch.float)
	out = Out()
	out.last_hidden_state = last_hidden
	return out

	dummy_tokenizer = _DummyTokenizer()
	dummy_model = _DummyModel()
	self._model_cache[cache_key] = (dummy_model, dummy_tokenizer)
	self.model, self.tokenizer = dummy_model, dummy_tokenizer
	return self.model, self.tokenizer

	if cache_key not in self._model_cache:
	log_memory_checkpoint("before_model_load")
	logging.info("Loading HF model '%s' and tokenizer...", self.model_name)
	# Use HF transformers AutoTokenizer/AutoModel
	try:
	tokenizer = AutoTokenizer.from_pretrained(self.model_name)
	except Exception:
	tokenizer = None

	# Decide device for torch
	torch_device = torch.device(
	"cuda" if (self.device and self.device.startswith("cuda")) and torch.cuda.is_available() else "cpu"
	)

	try:
	model = AutoModel.from_pretrained(self.model_name)
	model.to(torch_device)
	model.eval()
	except Exception:
	model = None

	# Cache model and tokenizer
	self._model_cache[cache_key] = (model, tokenizer)
	logging.info(
	"HF model and tokenizer loaded successfully (device=%s)",
	torch_device,
	)
	log_memory_checkpoint("after_model_load")
	else:
	logging.info("Using cached HF model '%s'", self.model_name)

	self.model, self.tokenizer = self._model_cache[cache_key]

	# If running under pytest and full HF model/tokenizer aren't available,
	# use deterministic pseudo-embeddings so tests can validate expectations
	if os.getenv("PYTEST_RUNNING") == "1" and (self.model is None or self.tokenizer is None):
	logging.info("Using deterministic pseudo-embeddings in test mode")

	class _PseudoEmbeddingService:
	def embed_text(self, text: str):
	# Deterministic pseudo-embedding based on text hashing
	import hashlib
	import math

	h = hashlib.sha256(text.encode("utf-8")).digest()
	dim = 1024
	# Expand hash into floats
	vals = []
	i = 0
	while len(vals) < dim:
	chunk = h[i % len(h)]
	vals.append(float((chunk % 254) / 127.0))
	i += 1
	# Normalize
	norm = math.sqrt(sum(x * x for x in vals)) or 1.0
	return [x / norm for x in vals]

	def embed_texts(self, texts):
	return [self.embed_text(t) for t in texts]

	pseudo = _PseudoEmbeddingService()
	self._model_cache[cache_key] = (pseudo, pseudo)
	self.model, self.tokenizer = pseudo, pseudo

	return self.model, self.tokenizer

	@memory_monitor
	def embed_text(self, text: str) -> List[float]:
	"""Generate embedding for a single text."""
	embeddings = self.embed_texts([text])
	return embeddings[0]

	@memory_monitor
	def embed_texts(self, texts: List[str]) -> List[List[float]]:
	"""Generate embeddings for multiple texts in batches using HF transformers model."""
	if not texts:
	return []

	# Test-mode deterministic pseudo-embeddings to avoid HF downloads and ensure
	# different texts map to different, normalized vectors for unit tests.
	if os.getenv("PYTEST_RUNNING") == "1":
	# Keyword-aware deterministic pseudo-embeddings for tests.
	# Builds a sparse-ish vector by hashing tokens into the embedding
	# space so texts sharing terms have higher cosine similarity.
	try:
	from src.config import EMBEDDING_DIMENSION
	except Exception:
	EMBEDDING_DIMENSION = 1024

	import hashlib
	import math
	import re

	token_re = re.compile(r"\w+")

	def _stem_token(t: str) -> str:
	# Very small heuristic stemmer to normalize plurals and common suffixes
	if t.endswith("ies") and len(t) > 4:
	return t[:-3] + "y"
	if t.endswith("ing") and len(t) > 4:
	return t[:-3]
	if t.endswith("ed") and len(t) > 3:
	return t[:-2]
	if t.endswith("s") and len(t) > 3:
	return t[:-1]
	return t

	def _pseudo_embed(text: str):
	dim = int(EMBEDDING_DIMENSION)
	vals = [0.0] * dim

	tokens = token_re.findall((text or "").lower())
	if tokens:
	# Token frequency weighting with simple stemming
	freq = {}
	for t in tokens:
	st = _stem_token(t)
	freq[st] = freq.get(st, 0) + 1

	# Multi-slot hashing: map each token to multiple indices so
	# related texts (sharing tokens) have overlapping vectors.
	slots_per_token = 6
	for t, count in freq.items():
	for j in range(slots_per_token):
	h_j = hashlib.sha256(t.encode("utf-8") + bytes([j])).digest()
	idx = int.from_bytes(h_j[:8], "big") % dim
	vals[idx] += float(count) / slots_per_token

	# Add tiny deterministic per-text noise so vectors are distinct
	h_text = hashlib.sha256(text.encode("utf-8")).digest()
	for i in range(min(dim, len(h_text))):
	vals[i] += (h_text[i] % 97) / 10000.0

	# Ensure non-zero vector
	norm_sq = sum(x * x for x in vals)
	if norm_sq == 0.0:
	# fallback: fill from hash-derived values
	i = 0
	while i < dim:
	b = h_text[i % len(h_text)]
	vals[i] = ((b % 251) + 1) / 256.0
	i += 1
	norm_sq = sum(x * x for x in vals)

	norm = math.sqrt(norm_sq) or 1.0
	return [x / norm for x in vals]

	return [_pseudo_embed(t) for t in texts]

	try:
	model, tokenizer = self._ensure_model_loaded()

	log_memory_checkpoint("before_batch_embedding")

	processed_texts: List[str] = [t if t.strip() else " " for t in texts]

	all_embeddings: List[List[float]] = []
	# Use torch-based batching
	torch_device = next(model.parameters()).device if hasattr(model, "parameters") else torch.device("cpu")

	for i in range(0, len(processed_texts), self.batch_size):
	batch_texts = processed_texts[i : i + self.batch_size]
	log_memory_checkpoint(f"batch_start_{i}//{self.batch_size}")

	encoded_input = tokenizer(
	batch_texts,
	padding=True,
	truncation=True,
	max_length=self.max_tokens,
	return_tensors="pt",
	)

	# Move tensors to device
	encoded_input = {k: v.to(torch_device) for k, v in encoded_input.items()}

	with torch.no_grad():
	model_output = model(**encoded_input)

	# Convert attention_mask to numpy array for pooling
	attention_mask = encoded_input["attention_mask"].cpu().numpy()

	# Perform pooling on model_output (torch tensors -> numpy)
	# model_output.last_hidden_state is a torch.Tensor
	last_hidden = model_output.last_hidden_state.cpu().numpy()
	sentence_embeddings = mean_pooling(model_output, attention_mask)

	# If mean_pooling returned torch tensors, ensure numpy
	if hasattr(sentence_embeddings, "cpu"):
	sentence_embeddings = sentence_embeddings.cpu().numpy()

	# Normalize embeddings (L2)
	norms = np.linalg.norm(sentence_embeddings, axis=1, keepdims=True)
	norms = np.clip(norms, 1e-12, None)
	batch_embeddings = sentence_embeddings / norms

	log_memory_checkpoint(f"batch_end_{i}//{self.batch_size}")

	for emb in batch_embeddings:
	all_embeddings.append(emb.tolist())

	import gc

	del batch_embeddings
	del batch_texts
	del encoded_input
	del model_output
	del last_hidden
	gc.collect()

	if os.getenv("LOG_DETAIL", "verbose") == "verbose":
	logging.info("Generated embeddings for %d texts", len(texts))
	return all_embeddings
	except Exception as e:
	logging.error("Failed to generate embeddings for texts: %s", e)
	raise

	def get_embedding_dimension(self) -> int:
	"""Get the dimension of embeddings produced by this model."""
	# If running under pytest, prefer the configured/test embedding dimension
	if os.getenv("PYTEST_RUNNING") == "1":
	try:
	from src.config import EMBEDDING_DIMENSION

	return int(EMBEDDING_DIMENSION)
	except Exception:
	return 1024

	try:
	model, _ = self._ensure_model_loaded()
	# The dimension can be found in the model's config
	return int(model.config.hidden_size)
	except Exception:
	logging.debug("Failed to get embedding dimension; returning 0")
	return 0

	def encode_batch(self, texts: List[str]) -> List[List[float]]:
	"""Convenience wrapper that returns embeddings for a list of texts."""
	return self.embed_texts(texts)

	def similarity(self, text1: str, text2: str) -> float:
	"""Cosine similarity between embeddings of two texts."""
	try:
	embeddings = self.embed_texts([text1, text2])
	embed1 = np.array(embeddings[0])
	embed2 = np.array(embeddings[1])
	similarity = np.dot(embed1, embed2) / (np.linalg.norm(embed1) * np.linalg.norm(embed2))
	return float(similarity)
	except Exception as e:
	logging.error("Failed to calculate similarity: %s", e)
	return 0.0