Spaces:

akryldigital
/

audit_assistant

Sleeping

App Files Files Community

akryldigital commited on 18 days ago

Commit

e53ce4e

verified ·

1 Parent(s): 27e8dcc

update filtering logging

Browse files

Files changed (2) hide show

src/pipeline.py +20 -21
src/utils.py +4 -2

src/pipeline.py CHANGED Viewed

@@ -10,11 +10,7 @@ try:
     from langchain.docstore.document import Document
 except ModuleNotFoundError as me:
     print(me.__str__())
-    try:
-        from langchain.schema import Document
-    except:
-        from langchain_core.documents import Document
-        print('only "from langchain_core.documents import Document" worked !')
 from .logging import log_error
@@ -540,7 +536,24 @@ Answer:"""
             filters_applied = False
             qdrant_filter = None  # Add this
-            if auto_infer_filters and not any([reports, sources, subtype]):
                 print(f"🤖 AUTO-INFERRING FILTERS: No explicit filters provided, analyzing query...")
                 try:
                     # Get available metadata
@@ -556,7 +569,6 @@ Answer:"""
                     if qdrant_filter:
                         print(f"✅ QDRANT FILTER APPLIED: Using inferred Qdrant filter")
                         filters_applied = True
-                        # Don't set sources/reports/subtype - use the Qdrant filter directly
                     else:
                         print(f"⚠️ NO QDRANT FILTER: Could not build Qdrant filter from query")
@@ -564,20 +576,7 @@ Answer:"""
                     print(f"❌ AUTO-INFERENCE FAILED: {e}")
                     qdrant_filter = None
             else:
-                # Check if any explicit filters were provided
-                filters_applied = any([reports, sources, subtype])
-                if filters_applied:
-                    print(f"✅ EXPLICIT FILTERS: Using provided filters")
-                else:
-                    print(f"⚠️ NO FILTERS: No explicit filters and auto-inference disabled")
-            # Extract filter parameters from the filters parameter
-            reports = filters.get('reports', []) if filters else []
-            sources = filters.get('sources', []) if filters else []
-            subtype = filters.get('subtype', []) if filters else []
-            year = filters.get('year', []) if filters else []
-            district = filters.get('district', []) if filters else []
-            filenames = filters.get('filenames', []) if filters else []  # Support mutually exclusive filename filtering
             # Get vectorstore
             vectorstore = self.vectorstore_manager.get_vectorstore()

     from langchain.docstore.document import Document
 except ModuleNotFoundError as me:
     print(me.__str__())
+    from langchain.schema import Document
 from .logging import log_error
             filters_applied = False
             qdrant_filter = None  # Add this
+            # ALWAYS extract filter parameters from the filters dict first
+            # These need to be defined before the conditional logic
+            year = filters.get('year', []) if filters else []
+            district = filters.get('district', []) if filters else []
+            filenames = filters.get('filenames', []) if filters else []
+            sources_from_filters = filters.get('sources', []) if filters else []
+            # Use sources from filters dict if not provided directly
+            if sources_from_filters and not sources:
+                sources = sources_from_filters
+            # Check if any explicit filters were provided
+            has_explicit_filters = any([reports, sources, subtype, year, district, filenames])
+            if has_explicit_filters:
+                print(f"✅ EXPLICIT FILTERS: year={year}, district={district}, sources={sources}, filenames={filenames}")
+                filters_applied = True
+            elif auto_infer_filters:
                 print(f"🤖 AUTO-INFERRING FILTERS: No explicit filters provided, analyzing query...")
                 try:
                     # Get available metadata
                     if qdrant_filter:
                         print(f"✅ QDRANT FILTER APPLIED: Using inferred Qdrant filter")
                         filters_applied = True
                     else:
                         print(f"⚠️ NO QDRANT FILTER: Could not build Qdrant filter from query")
                     print(f"❌ AUTO-INFERENCE FAILED: {e}")
                     qdrant_filter = None
             else:
+                print(f"⚠️ NO FILTERS: No explicit filters and auto-inference disabled")
             # Get vectorstore
             vectorstore = self.vectorstore_manager.get_vectorstore()

src/utils.py CHANGED Viewed

@@ -6,11 +6,13 @@ from datetime import datetime, date
 import configparser
-from torch import cuda
 from qdrant_client.http import models as rest
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.cross_encoders import HuggingFaceCrossEncoder
 def get_config(fp):
     config = configparser.ConfigParser()
@@ -19,7 +21,7 @@ def get_config(fp):
 def get_embeddings_model(config):
-    device = "cuda" if cuda.is_available() else "cpu"
     # Define embedding model
     model_name = config.get("retriever", "MODEL")

 import configparser
 from qdrant_client.http import models as rest
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.cross_encoders import HuggingFaceCrossEncoder
+# Import device detection utility
+from src.utils.device import get_device_for_sentence_transformers
 def get_config(fp):
     config = configparser.ConfigParser()
 def get_embeddings_model(config):
+    device = get_device_for_sentence_transformers()
     # Define embedding model
     model_name = config.get("retriever", "MODEL")