Spaces:

senatus-admin
/

senatus-dev

Sleeping

App Files Files

senatus123 commited on Nov 15, 2025

Commit

87ab461

verified ·

1 Parent(s): 8d33417

Upload doc_searcher_v2.py with huggingface_hub

Browse files

Files changed (1) hide show

doc_searcher_v2.py +15 -9

doc_searcher_v2.py CHANGED Viewed

@@ -4,6 +4,7 @@ from qdrant_client import QdrantClient, models
 from reranker import Reranker
 from sentence_transformers import SentenceTransformer
 from config import DENSE_MODEL, SPARSE_MODEL, QDRANT_URL, QDRANT_API_KEY
 class DocSearcherV2:
@@ -11,7 +12,7 @@ class DocSearcherV2:
         self.collection_name = collection_name
         self.reranker = Reranker()
         self.model = SentenceTransformer("Qwen/Qwen3-Embedding-0.6B",device="cpu")
-        self.sparse_model = SparseTextEmbedding(SPARSE_MODEL)
         self.qdrant_client = QdrantClient(QDRANT_URL,api_key=QDRANT_API_KEY,timeout=30)
     async def search_semantic(self, text: str, qdrant_limit: int = 20, top_k: int = 3):
@@ -25,20 +26,15 @@ class DocSearcherV2:
         """
         queries = [text]
         dense_query = self.model.encode(text).tolist()
-        sparse_query = next(self.sparse_model.query_embed(text))
-        # Hybrid search: dense + sparse za bolje rezultate
         prefetch = [
                 models.Prefetch(
                     query=dense_query,
                     using="Qwen/Qwen3-Embedding-0.6B",
                     limit=qdrant_limit
                 ),
-                models.Prefetch(
-                    query=models.SparseVector(**sparse_query.as_object()),
-                    using=SPARSE_MODEL,
-                    limit=qdrant_limit
-                ),
         ]
         search_result = self.qdrant_client.query_points(
@@ -80,9 +76,19 @@ class DocSearcherV2:
             # Pronađi originalni hit po tekstu
             if document_text in text_to_hit:
                 hit = text_to_hit[document_text]
                 # Vrati kompletan payload sa skorom
                 result = {
-                    "score": float(score),
                     "id": str(hit.id),
                     "text": document_text,
                     "payload": hit.payload  # Kompletan payload sa svim podacima

 from reranker import Reranker
 from sentence_transformers import SentenceTransformer
 from config import DENSE_MODEL, SPARSE_MODEL, QDRANT_URL, QDRANT_API_KEY
+import math
 class DocSearcherV2:
         self.collection_name = collection_name
         self.reranker = Reranker()
         self.model = SentenceTransformer("Qwen/Qwen3-Embedding-0.6B",device="cpu")
+        # self.sparse_model = SparseTextEmbedding(SPARSE_MODEL)  # Disabled - not needed without sparse search
         self.qdrant_client = QdrantClient(QDRANT_URL,api_key=QDRANT_API_KEY,timeout=30)
     async def search_semantic(self, text: str, qdrant_limit: int = 20, top_k: int = 3):
         """
         queries = [text]
         dense_query = self.model.encode(text).tolist()
+        # sparse_query = next(self.sparse_model.query_embed(text))  # Disabled - collection not configured
+        # Dense-only search (sparse disabled due to collection config)
         prefetch = [
                 models.Prefetch(
                     query=dense_query,
                     using="Qwen/Qwen3-Embedding-0.6B",
                     limit=qdrant_limit
                 ),
         ]
         search_result = self.qdrant_client.query_points(
             # Pronađi originalni hit po tekstu
             if document_text in text_to_hit:
                 hit = text_to_hit[document_text]
+                # Sanitizuj score - osiguraj da je validna float vrijednost za JSON
+                score_float = float(score)
+                if math.isnan(score_float) or math.isinf(score_float):
+                    score_float = 0.0  # Default za invalid skorove
+                elif score_float < 0:
+                    score_float = 0.0
+                elif score_float > 1:
+                    score_float = 1.0
                 # Vrati kompletan payload sa skorom
                 result = {
+                    "score": score_float,
                     "id": str(hit.id),
                     "text": document_text,
                     "payload": hit.payload  # Kompletan payload sa svim podacima