Spaces:

VcRlAgent
/

workwise-backend-gpu

Sleeping

App Files Files Community

VcRlAgent commited on Nov 2, 2025

Commit

a123e22

1 Parent(s): b49feb6

Change Encoder and Retriever for prefix

Browse files

Files changed (5) hide show

.env.example +6 -1
app/config.py +3 -1
app/services/embeddings copy.py +45 -0
app/services/embeddings.py +46 -20
app/services/retriever.py +5 -9

.env.example CHANGED Viewed

@@ -12,7 +12,12 @@ HF_API_URL=https://api-inference.huggingface.co/models/mistralai/Mistral-7B-Inst
 HF_TOKEN=your_huggingface_token_here
 # Embedding Model
-EMBEDDING_MODEL=sentence-transformers/all-MiniLM-L6-v2
 # Server Configuration
 HOST=0.0.0.0

 HF_TOKEN=your_huggingface_token_here
 # Embedding Model
+#EMBEDDING_MODEL=sentence-transformers/all-MiniLM-L6-v2
+#EMBEDDING_MODEL=sentence-transformers/multi-qa-MiniLM-L6-cos-v1
+#EMBEDDING_MODEL=BAAI/bge-small-en-v1.5
+EMBEDDING_MODEL=intfloat/e5-large-v2
 # Server Configuration
 HOST=0.0.0.0

app/config.py CHANGED Viewed

@@ -27,7 +27,8 @@ class Settings:
     # Embedding Model
     #EMBEDDING_MODEL: str = os.getenv("EMBEDDING_MODEL", "sentence-transformers/all-MiniLM-L6-v2")
     #EMBEDDING_MODEL: str = os.getenv("EMBEDDING_MODEL", "sentence-transformers/multi-qa-MiniLM-L6-cos-v1")
-    EMBEDDING_MODEL: str = os.getenv("EMBEDDING_MODEL", "BAAI/bge-small-en-v1.5")
     # Server Configuration
     HOST: str = os.getenv("HOST", "0.0.0.0")
@@ -40,5 +41,6 @@ class Settings:
     # Vector Search
     TOP_K: int = 5
     SCORE_THRESHOLD: float = 0.0
 settings = Settings()

     # Embedding Model
     #EMBEDDING_MODEL: str = os.getenv("EMBEDDING_MODEL", "sentence-transformers/all-MiniLM-L6-v2")
     #EMBEDDING_MODEL: str = os.getenv("EMBEDDING_MODEL", "sentence-transformers/multi-qa-MiniLM-L6-cos-v1")
+    #EMBEDDING_MODEL: str = os.getenv("EMBEDDING_MODEL", "BAAI/bge-small-en-v1.5")
+    EMBEDDING_MODEL: str = os.getenv("EMBEDDING_MODEL", "intfloat/e5-large-v2")
     # Server Configuration
     HOST: str = os.getenv("HOST", "0.0.0.0")
     # Vector Search
     TOP_K: int = 5
     SCORE_THRESHOLD: float = 0.0
+    VECTOR_SIZE = 1024  # Adjust based on embedding model used
 settings = Settings()

app/services/embeddings copy.py ADDED Viewed

	@@ -0,0 +1,45 @@

+"""Embedding generation service using sentence-transformers"""
+from sentence_transformers import SentenceTransformer
+from typing import List
+import numpy as np
+from app.config import settings
+from app.utils.logger import setup_logger
+logger = setup_logger(__name__)
+class EmbeddingService:
+    """Generate embeddings for text using sentence-transformers"""
+    def __init__(self):
+        """Initialize the embedding model"""
+        logger.info(f"Loading embedding model: {settings.EMBEDDING_MODEL}")
+        self.model = SentenceTransformer(settings.EMBEDDING_MODEL)
+        self.dimension = self.model.get_sentence_embedding_dimension()
+        logger.info(f"Embedding dimension: {self.dimension}")
+    def embed_text(self, text: str) -> List[float]:
+        """Generate embedding for a single text"""
+        embedding = self.model.encode(text, convert_to_numpy=True, normalize_embeddings=True)
+        #logger.debug(f"Generated embedding for text: {embedding}")
+        return embedding.tolist()
+    def embed_batch(self, texts: List[str], batch_size: int = 32) -> List[List[float]]:
+        """Generate embeddings for a batch of texts"""
+        logger.info(f"Embedding {len(texts)} texts...")
+        embeddings = self.model.encode(
+            texts,
+            batch_size=batch_size,
+            show_progress_bar=True,
+            convert_to_numpy=True,
+            normalize_embeddings=True
+        )
+        return embeddings.tolist()
+    def get_dimension(self) -> int:
+        """Return embedding dimension"""
+        logger.debug(f"Embedding dimension requested: {self.dimension}")
+        return self.dimension
+# Global instance
+embedding_service = EmbeddingService()

app/services/embeddings.py CHANGED Viewed

@@ -1,4 +1,4 @@
-"""Embedding generation service using sentence-transformers"""
 from sentence_transformers import SentenceTransformer
 from typing import List
 import numpy as np
@@ -8,38 +8,64 @@ from app.utils.logger import setup_logger
 logger = setup_logger(__name__)
 class EmbeddingService:
-    """Generate embeddings for text using sentence-transformers"""
     def __init__(self):
-        """Initialize the embedding model"""
         logger.info(f"Loading embedding model: {settings.EMBEDDING_MODEL}")
         self.model = SentenceTransformer(settings.EMBEDDING_MODEL)
         self.dimension = self.model.get_sentence_embedding_dimension()
         logger.info(f"Embedding dimension: {self.dimension}")
-    def embed_text(self, text: str) -> List[float]:
-        """Generate embedding for a single text"""
-        embedding = self.model.encode(text, convert_to_numpy=True, normalize_embeddings=True)
-        #logger.debug(f"Generated embedding for text: {embedding}")
         return embedding.tolist()
-    def embed_batch(self, texts: List[str], batch_size: int = 32) -> List[List[float]]:
-        """Generate embeddings for a batch of texts"""
-        logger.info(f"Embedding {len(texts)} texts...")
         embeddings = self.model.encode(
-            texts,
             batch_size=batch_size,
             show_progress_bar=True,
             convert_to_numpy=True,
-            normalize_embeddings=True
         )
         return embeddings.tolist()
     def get_dimension(self) -> int:
-        """Return embedding dimension"""
-        logger.debug(f"Embedding dimension requested: {self.dimension}")
         return self.dimension
 # Global instance
-embedding_service = EmbeddingService()

+"""Embedding generation service using intfloat/e5-large-v2"""
 from sentence_transformers import SentenceTransformer
 from typing import List
 import numpy as np
 logger = setup_logger(__name__)
 class EmbeddingService:
+    """
+    Generate embeddings for text using intfloat/e5-large-v2.
+    Automatically prefixes 'query:' or 'passage:' as recommended
+    for retrieval tasks.
+    """
     def __init__(self):
         logger.info(f"Loading embedding model: {settings.EMBEDDING_MODEL}")
         self.model = SentenceTransformer(settings.EMBEDDING_MODEL)
         self.dimension = self.model.get_sentence_embedding_dimension()
         logger.info(f"Embedding dimension: {self.dimension}")
+    def embed_text(self, text: str, is_query: bool = False) -> List[float]:
+        """Generate embedding for a single text (query or passage)."""
+        if not text or not text.strip():
+            logger.warning("Empty text passed to embed_text()")
+            return []
+        prefix = "query: " if is_query else "passage: "
+        formatted_text = prefix + text.strip()
+        embedding = self.model.encode(
+            formatted_text,
+            convert_to_numpy=True,
+            normalize_embeddings=True,
+        )
         return embedding.tolist()
+    def embed_batch(
+        self,
+        texts: List[str],
+        batch_size: int = 32,
+        is_query: bool = False,
+    ) -> List[List[float]]:
+        """Generate embeddings for a batch of texts (queries or passages)."""
+        if not texts:
+            return []
+        prefix = "query: " if is_query else "passage: "
+        prefixed_texts = [prefix + t.strip() for t in texts]
+        logger.info(
+            f"Embedding {len(prefixed_texts)} texts using {settings.EMBEDDING_MODEL} "
+            f"(is_query={is_query})"
+        )
         embeddings = self.model.encode(
+            prefixed_texts,
             batch_size=batch_size,
             show_progress_bar=True,
             convert_to_numpy=True,
+            normalize_embeddings=True,
         )
         return embeddings.tolist()
     def get_dimension(self) -> int:
+        """Return embedding vector dimension."""
         return self.dimension
 # Global instance
+embedding_service = EmbeddingService()

app/services/retriever.py CHANGED Viewed

@@ -25,8 +25,8 @@ class RetrieverService:
         # Generate query embedding
         logger.info(f"Retrieving documents for query: {query}")
-        query_embedding = self.embedding_service.embed_text(query)
-        logger.debug(f"Embedded query: {query_embedding}")
         #FAISS
         results = self.vector_store.search(
@@ -35,10 +35,6 @@ class RetrieverService:
             score_threshold=settings.SCORE_THRESHOLD
         )
-        '''
-        logger.debug(f"FAISS total vectors: {self.vector_store.index.ntotal}")
-        D, I =  self.vector_store.index.search(np.array([query_embedding]).astype("float32"), k=3)
-        logger.debug(f"Distances: {D}, Indices: {I}")
         '''
         try:
             logger.warning(f"FAISS index object: {self.vector_store.index}")
@@ -47,12 +43,13 @@ class RetrieverService:
             else:
                 logger.warning(f"FAISS total vectors: {self.vector_store.index.ntotal}")
                 D, I = self.vector_store.index.search(
-                    np.array([query_embedding]).astype("float32"), k=3
                 )
                 logger.warning(f"Distances: {D}, Indices: {I}")
         except Exception as e:
             import traceback
             logger.error(f"FAISS search error: {e}\n{traceback.format_exc()}")
         #Qdrant
         # Search vector database
@@ -60,8 +57,7 @@ class RetrieverService:
         #     query_vector=query_embedding,
         #     limit=top_k,
         #     score_threshold=settings.SCORE_THRESHOLD
-        # )
         logger.info(f"Retrieved {len(results)} documents")
         return results

         # Generate query embedding
         logger.info(f"Retrieving documents for query: {query}")
+        query_embedding = self.embedding_service.embed_text(query,is_query=True)
+        #logger.debug(f"Embedded query: {query_embedding}")
         #FAISS
         results = self.vector_store.search(
             score_threshold=settings.SCORE_THRESHOLD
         )
         '''
         try:
             logger.warning(f"FAISS index object: {self.vector_store.index}")
             else:
                 logger.warning(f"FAISS total vectors: {self.vector_store.index.ntotal}")
                 D, I = self.vector_store.index.search(
+                    np.array([query_embedding]).astype("float32"), k=top_k
                 )
                 logger.warning(f"Distances: {D}, Indices: {I}")
         except Exception as e:
             import traceback
             logger.error(f"FAISS search error: {e}\n{traceback.format_exc()}")
+        '''
         #Qdrant
         # Search vector database
         #     query_vector=query_embedding,
         #     limit=top_k,
         #     score_threshold=settings.SCORE_THRESHOLD
+        # )
         logger.info(f"Retrieved {len(results)} documents")
         return results