VoiceBot

Build error

App Files Files Community

Chris4K commited on Jan 14, 2025

Commit

cf6524f

verified ·

1 Parent(s): 939af78

Update services/pdf_service.py

Browse files

Files changed (1) hide show

services/pdf_service.py +10 -6

services/pdf_service.py CHANGED Viewed

@@ -121,30 +121,34 @@ class PDFService:
         top_k: int = 5,
         min_score: float = 0.5
     ) -> List[Dict[str, Any]]:
-        """Search indexed PDFs"""
         print("--------------------------- query ----------------------------------")
         print(query)
         if not self.index or not self.chunks:
             await self.index_pdfs()
         try:
             # Create query embedding
             query_embedding = self.embedder.encode([query], convert_to_tensor=True)
             query_embedding_np = query_embedding.cpu().detach().numpy()
             # Search in FAISS index
             distances, indices = self.index.search(query_embedding_np, top_k)
             # Process results
             results = []
             for i, idx in enumerate(indices[0]):
                 if idx >= len(self.chunks):
                     continue  # Skip invalid indices
-                score = 1 - distances[0][i]  # Calculate similarity score
                 if score < min_score:
                     continue  # Skip low scores
                 chunk = self.chunks[idx].copy()
                 chunk['score'] = score
                 results.append(chunk)
@@ -156,7 +160,7 @@ class PDFService:
             print(results)
             return results[:top_k]
         except Exception as e:
             logger.error(f"Error searching PDFs: {e}")
             raise

         top_k: int = 5,
         min_score: float = 0.5
     ) -> List[Dict[str, Any]]:
+        """Search indexed PDFs with debug logs"""
         print("--------------------------- query ----------------------------------")
         print(query)
         if not self.index or not self.chunks:
             await self.index_pdfs()
         try:
             # Create query embedding
             query_embedding = self.embedder.encode([query], convert_to_tensor=True)
             query_embedding_np = query_embedding.cpu().detach().numpy()
+            print("Query Embedding Shape:", query_embedding_np.shape)
             # Search in FAISS index
             distances, indices = self.index.search(query_embedding_np, top_k)
+            print("Distances:", distances)
+            print("Indices:", indices)
             # Process results
             results = []
             for i, idx in enumerate(indices[0]):
                 if idx >= len(self.chunks):
                     continue  # Skip invalid indices
+                score = 1 - distances[0][i]  # Convert distance to similarity score
+                print(f"Chunk Index: {idx}, Distance: {distances[0][i]}, Score: {score}")
                 if score < min_score:
                     continue  # Skip low scores
                 chunk = self.chunks[idx].copy()
                 chunk['score'] = score
                 results.append(chunk)
             print(results)
             return results[:top_k]
         except Exception as e:
             logger.error(f"Error searching PDFs: {e}")
             raise