Spaces:

puji4ml
/

RAG-Pipeline-Optimizer

Sleeping

App Files Files Community

RAG-Pipeline-Optimizer / core /embedder.py

puji4ml

Upload 30 files

2b22a59 verified 29 days ago

raw

history blame contribute delete

9.8 kB

	"""
	Embedding Generation (LangChain-based)
	=========================================================

	Supports multiple embedding providers using LangChain:
	- Azure OpenAI
	- Sentence Transformers (local, free)
	- Cohere (via Azure Foundry)
	"""

	from typing import List, Optional
	import os
	from dataclasses import dataclass

	# LangChain embeddings
	from langchain_openai import AzureOpenAIEmbeddings
	from langchain_huggingface import HuggingFaceEmbeddings

	# Config
	from dotenv import load_dotenv
	load_dotenv()


	@dataclass
	class Embedding:
	"""Container for embedding vector with metadata"""
	vector: List[float]
	text: str
	model: str
	dimension: int
	metadata: dict = None

	def __post_init__(self):
	if self.metadata is None:
	self.metadata = {}


	class Embedder:
	"""Universal embedder supporting multiple providers via LangChain"""

	def __init__(
	self,
	provider: str = "sentence-transformers",
	model_name: str = "all-MiniLM-L6-v2",
	azure_endpoint: Optional[str] = None,
	azure_api_key: Optional[str] = None,
	azure_deployment: Optional[str] = None,
	):
	"""
	Initialize embedder

	Args:
	provider: 'azure-openai' or 'sentence-transformers'
	model_name: Model name/deployment name
	azure_endpoint: Azure OpenAI endpoint (if using Azure)
	azure_api_key: Azure API key (if using Azure)
	azure_deployment: Azure deployment name (if using Azure)
	"""
	self.provider = provider
	self.model_name = model_name

	if provider == "azure-openai":
	# Use LangChain's AzureOpenAIEmbeddings
	self.embeddings = AzureOpenAIEmbeddings(
	azure_endpoint=azure_endpoint or os.getenv("AZURE_OPENAI_ENDPOINT"),
	api_key=azure_api_key or os.getenv("AZURE_OPENAI_API_KEY"),
	azure_deployment=azure_deployment or model_name,
	api_version="2024-02-01",
	)
	# Determine dimension based on model
	self.dimension = 3072 if "large" in model_name.lower() else 1536

	elif provider == "sentence-transformers":
	# Use LangChain's HuggingFaceEmbeddings (wraps sentence-transformers)
	self.embeddings = HuggingFaceEmbeddings(
	model_name=model_name,
	model_kwargs={'device': 'cpu','trust_remote_code': False},
	encode_kwargs={'normalize_embeddings': True}
	)


	# Get dimension from model
	self.dimension = self._get_embedding_dimension()

	else:
	raise ValueError(f"Unsupported provider: {provider}")

	def _get_embedding_dimension(self) -> int:
	"""Get embedding dimension by testing with a sample text"""
	try:
	sample = self.embeddings.embed_query("test")
	return len(sample)
	except:
	# Fallback dimensions for common models
	dim_map = {
	"all-MiniLM-L6-v2": 384,
	"all-MiniLM-L12-v2": 384,
	"all-mpnet-base-v2": 768,
	}
	return dim_map.get(self.model_name, 768)

	def embed(self, text: str) -> Embedding:
	"""
	Generate embedding for a single text

	Args:
	text: Text to embed

	Returns:
	Embedding object
	"""
	vector = self.embeddings.embed_query(text)

	return Embedding(
	vector=vector,
	text=text,
	model=self.model_name,
	dimension=len(vector),
	metadata={'provider': self.provider}
	)

	def embed_batch(self, texts: List[str]) -> List[Embedding]:
	"""
	Generate embeddings for multiple texts

	Args:
	texts: List of texts to embed

	Returns:
	List of Embedding objects
	"""
	# LangChain handles batching automatically
	vectors = self.embeddings.embed_documents(texts)

	embeddings = []
	for text, vector in zip(texts, vectors):
	embeddings.append(Embedding(
	vector=vector,
	text=text,
	model=self.model_name,
	dimension=len(vector),
	metadata={'provider': self.provider}
	))

	return embeddings

	def similarity(self, text1: str, text2: str) -> float:
	"""
	Calculate cosine similarity between two texts

	Args:
	text1: First text
	text2: Second text

	Returns:
	Similarity score (0-1)
	"""
	import numpy as np

	emb1 = self.embed(text1)
	emb2 = self.embed(text2)

	vec1 = np.array(emb1.vector)
	vec2 = np.array(emb2.vector)

	# Cosine similarity
	dot_product = np.dot(vec1, vec2)
	norm1 = np.linalg.norm(vec1)
	norm2 = np.linalg.norm(vec2)

	return float(dot_product / (norm1 * norm2))


	# ============================================================================
	# USAGE EXAMPLE
	# ============================================================================

	if __name__ == "__main__":
	print("🔢 Embedder Test (LangChain-based)")
	print("=" * 80)

	# Test sentence-transformers (free, local)
	print("\n📍 Testing local embeddings (sentence-transformers)...")
	local_embedder = Embedder(
	provider="sentence-transformers",
	model_name="all-MiniLM-L6-v2"
	)

	test_texts = [
	"RAG systems combine retrieval and generation.",
	"Vector databases store embeddings efficiently.",
	"Machine learning models require training data.",
	]

	print(f" Provider: {local_embedder.provider}")
	print(f" Model: {local_embedder.model_name}")
	print(f" Dimension: {local_embedder.dimension}")

	# Single embedding
	print("\n1️⃣ Single embedding test...")
	emb1 = local_embedder.embed(test_texts[0])
	print(f" ✅ Generated embedding: {emb1.dimension} dimensions")
	print(f" 📝 Text: '{emb1.text}'")
	print(f" 🔢 Vector preview: [{emb1.vector[0]:.4f}, {emb1.vector[1]:.4f}, {emb1.vector[2]:.4f}, ...]")

	# Batch embeddings
	print("\n2️⃣ Batch embedding test...")
	embeddings = local_embedder.embed_batch(test_texts)
	print(f" ✅ Generated {len(embeddings)} embeddings")
	for i, emb in enumerate(embeddings):
	print(f" Text {i+1}: {emb.dimension}D - '{emb.text[:40]}...'")

	# Similarity
	print("\n3️⃣ Similarity test...")
	sim_1_2 = local_embedder.similarity(test_texts[0], test_texts[1])
	sim_1_3 = local_embedder.similarity(test_texts[0], test_texts[2])

	print(f" Text 1 vs Text 2: {sim_1_2:.4f} (related: RAG & vector DBs)")
	print(f" Text 1 vs Text 3: {sim_1_3:.4f} (less related: RAG & ML training)")
	print(f" ✅ Similarity working (higher score = more similar)")

	# Test Azure OpenAI (if configured)
	print("\n" + "=" * 80)
	print("4️⃣ Azure OpenAI Embeddings Test")
	print("-" * 80)

	# Check if you have an embedding deployment
	azure_embedding_deployment = os.getenv("AZURE_OPENAI_EMBEDDING_DEPLOYMENT_NAME")

	if azure_embedding_deployment:
	try:
	azure_embedder = Embedder(
	provider="azure-openai",
	model_name=os.getenv("AZURE_OPENAI_EMBEDDING_MODEL_NAME"),
	azure_endpoint=os.getenv("AZURE_OPENAI_EMBEDDING_ENDPOINT"),
	azure_api_key=os.getenv("AZURE_OPENAI_EMBEDDING_API_KEY"),
	azure_deployment=azure_embedding_deployment
	)

	print(f" Provider: {azure_embedder.provider}")
	print(f" Model: {azure_embedder.model_name}")
	print(f" Dimension: {azure_embedder.dimension}")

	# Test single embedding
	test_text = "Azure AI Foundry provides embedding models"
	azure_emb = azure_embedder.embed(test_text)
	print(f"\n ✅ Single embedding: {len(azure_emb.vector)} dimensions")
	print(f" 📝 Text: '{test_text}'")
	print(f" 🔢 Vector preview: [{azure_emb.vector[0]:.4f}, {azure_emb.vector[1]:.4f}, ...]")

	# Test batch embeddings
	batch_texts = [
	"RAG systems combine retrieval and generation",
	"Vector databases store embeddings",
	"Azure OpenAI provides powerful models"
	]
	azure_batch = azure_embedder.embed_batch(batch_texts)
	print(f"\n ✅ Batch embeddings: {len(azure_batch)} embeddings generated")

	# Test similarity
	sim = azure_embedder.similarity(batch_texts[0], batch_texts[1])
	print(f"\n 📊 Similarity test: {sim:.4f}")
	print(f" ✅ Azure OpenAI embeddings fully working!")

	except Exception as e:
	print(f" ❌ Azure embedding failed: {str(e)[:100]}")
	else:
	print(f" ⚠️ No Azure embedding deployment configured")
	print(f" 💡 Using FREE local embeddings for all pipelines (recommended for dev)")


	print("\n" + "=" * 80)
	print("✅ Embedder test complete!")