RobotPai

Build error

File size: 8,477 Bytes

8a682b5

"""
Centralized embedding manager for the AI Agent system.
"""

import os
import logging
from typing import List, Optional, Dict, Any
import numpy as np
from functools import lru_cache

# Try to import embedding libraries
try:
    from sentence_transformers import SentenceTransformer
    SENTENCE_TRANSFORMERS_AVAILABLE = True
except ImportError:
    SENTENCE_TRANSFORMERS_AVAILABLE = False

try:
    import openai
    OPENAI_AVAILABLE = True
except ImportError:
    OPENAI_AVAILABLE = False

logger = logging.getLogger(__name__)

# Global embedding manager instance
_embedding_manager = None


class EmbeddingManager:
    """Centralized embedding manager with multiple backends"""
    
    def __init__(self, model_name: str = "all-MiniLM-L6-v2", backend: str = "sentence_transformers"):
        self.model_name = model_name
        self.backend = backend
        self.model = None
        self.dimension = 384  # Default for all-MiniLM-L6-v2
        
        # Initialize the appropriate backend
        self._initialize_backend()
        
        logger.info(f"Embedding manager initialized with {backend} backend using {model_name}")
    
    def _initialize_backend(self):
        """Initialize the embedding backend"""
        if self.backend == "sentence_transformers" and SENTENCE_TRANSFORMERS_AVAILABLE:
            try:
                self.model = SentenceTransformer(self.model_name)
                self.dimension = self.model.get_sentence_embedding_dimension()
                logger.info(f"Initialized SentenceTransformer with dimension {self.dimension}")
            except Exception as e:
                logger.error(f"Failed to initialize SentenceTransformer: {e}")
                self._fallback_initialization()
        
        elif self.backend == "openai" and OPENAI_AVAILABLE:
            try:
                api_key = os.getenv("OPENAI_API_KEY")
                if not api_key:
                    raise ValueError("OPENAI_API_KEY not found in environment")
                
                self.model = "text-embedding-ada-002"
                self.dimension = 1536  # OpenAI ada-002 dimension
                logger.info("Initialized OpenAI embedding backend")
            except Exception as e:
                logger.error(f"Failed to initialize OpenAI backend: {e}")
                self._fallback_initialization()
        
        else:
            self._fallback_initialization()
    
    def _fallback_initialization(self):
        """Fallback to simple hash-based embeddings"""
        logger.warning("Using fallback hash-based embeddings")
        self.backend = "fallback"
        self.dimension = 128
    
    @lru_cache(maxsize=1000)
    def embed(self, text: str) -> List[float]:
        """Generate embedding for a text string"""
        if not text or not text.strip():
            return [0.0] * self.dimension
        
        try:
            if self.backend == "sentence_transformers" and self.model:
                embedding = self.model.encode(text)
                return embedding.tolist()
            
            elif self.backend == "openai":
                return self._openai_embed(text)
            
            else:
                return self._fallback_embed(text)
                
        except Exception as e:
            logger.error(f"Embedding failed for text: {text[:100]}... Error: {e}")
            return [0.0] * self.dimension
    
    def _openai_embed(self, text: str) -> List[float]:
        """Generate embedding using OpenAI API"""
        try:
            response = openai.Embedding.create(
                input=text,
                model=self.model
            )
            return response['data'][0]['embedding']
        except Exception as e:
            logger.error(f"OpenAI embedding failed: {e}")
            return [0.0] * self.dimension
    
    def _fallback_embed(self, text: str) -> List[float]:
        """Generate simple hash-based embedding"""
        import hashlib
        
        # Create a simple hash-based embedding
        hash_obj = hashlib.sha256(text.encode())
        hash_bytes = hash_obj.digest()
        
        # Convert to float values
        embedding = []
        for i in range(0, min(len(hash_bytes), self.dimension * 4), 4):
            if i + 3 < len(hash_bytes):
                value = int.from_bytes(hash_bytes[i:i+4], byteorder='big')
                embedding.append((value % 10000) / 10000.0)  # Normalize to [0, 1]
        
        # Pad or truncate to required dimension
        while len(embedding) < self.dimension:
            embedding.append(0.0)
        
        return embedding[:self.dimension]
    
    def embed_batch(self, texts: List[str]) -> List[List[float]]:
        """Generate embeddings for a batch of texts"""
        if not texts:
            return []
        
        try:
            if self.backend == "sentence_transformers" and self.model:
                embeddings = self.model.encode(texts)
                return embeddings.tolist()
            
            elif self.backend == "openai":
                return self._openai_embed_batch(texts)
            
            else:
                return [self._fallback_embed(text) for text in texts]
                
        except Exception as e:
            logger.error(f"Batch embedding failed: {e}")
            return [[0.0] * self.dimension for _ in texts]
    
    def _openai_embed_batch(self, texts: List[str]) -> List[List[float]]:
        """Generate batch embeddings using OpenAI API"""
        try:
            response = openai.Embedding.create(
                input=texts,
                model=self.model
            )
            return [item['embedding'] for item in response['data']]
        except Exception as e:
            logger.error(f"OpenAI batch embedding failed: {e}")
            return [[0.0] * self.dimension for _ in texts]
    
    def similarity(self, embedding1: List[float], embedding2: List[float]) -> float:
        """Calculate cosine similarity between two embeddings"""
        try:
            vec1 = np.array(embedding1)
            vec2 = np.array(embedding2)
            
            # Normalize vectors
            norm1 = np.linalg.norm(vec1)
            norm2 = np.linalg.norm(vec2)
            
            if norm1 == 0 or norm2 == 0:
                return 0.0
            
            # Calculate cosine similarity
            similarity = np.dot(vec1, vec2) / (norm1 * norm2)
            return float(similarity)
            
        except Exception as e:
            logger.error(f"Similarity calculation failed: {e}")
            return 0.0
    
    def get_dimension(self) -> int:
        """Get the embedding dimension"""
        return self.dimension
    
    def get_backend_info(self) -> Dict[str, Any]:
        """Get information about the current backend"""
        return {
            "backend": self.backend,
            "model_name": self.model_name,
            "dimension": self.dimension,
            "sentence_transformers_available": SENTENCE_TRANSFORMERS_AVAILABLE,
            "openai_available": OPENAI_AVAILABLE
        }


def get_embedding_manager(model_name: Optional[str] = None, backend: Optional[str] = None) -> EmbeddingManager:
    """Get or create the global embedding manager instance"""
    global _embedding_manager
    
    if _embedding_manager is None:
        # Use environment variables or defaults
        model_name = model_name or os.getenv("EMBEDDING_MODEL", "all-MiniLM-L6-v2")
        backend = backend or os.getenv("EMBEDDING_BACKEND", "sentence_transformers")
        
        _embedding_manager = EmbeddingManager(model_name=model_name, backend=backend)
    
    return _embedding_manager


def reset_embedding_manager():
    """Reset the global embedding manager (useful for testing)"""
    global _embedding_manager
    _embedding_manager = None


# Convenience functions
def embed_text(text: str) -> List[float]:
    """Quick function to embed a single text"""
    manager = get_embedding_manager()
    return manager.embed(text)


def embed_batch(texts: List[str]) -> List[List[float]]:
    """Quick function to embed a batch of texts"""
    manager = get_embedding_manager()
    return manager.embed_batch(texts)


def calculate_similarity(embedding1: List[float], embedding2: List[float]) -> float:
    """Quick function to calculate similarity between embeddings"""
    manager = get_embedding_manager()
    return manager.similarity(embedding1, embedding2)