Spaces:

MrSimple01
/

RAG_AIEXP_01

Sleeping

App Files Files Community

MrSimple07 commited on Oct 15, 2025

Commit

a313838

1 Parent(s): 07e9959

fixed loggers in retrieving

Browse files

Files changed (1) hide show

utils.py +17 -9

utils.py CHANGED Viewed

@@ -197,9 +197,7 @@ def debug_search_tables(vector_index, search_term="С-25"):
 from documents_prep import normalize_text
-# MODIFIED: Update answer_question function signature
 def answer_question(question, query_engine, reranker, current_model, chunks_df=None, rerank_top_k=20):
-    # NORMALIZE the question to convert C to С
     normalized_question = normalize_text(question)
     if query_engine is None:
@@ -207,23 +205,33 @@ def answer_question(question, query_engine, reranker, current_model, chunks_df=N
     try:
         start_time = time.time()
-        # Use NORMALIZED question for retrieval
         retrieved_nodes = query_engine.retriever.retrieve(normalized_question)
         log_message(f"user query: {question}")
         log_message(f"normalized query: {normalized_question}")
         log_message(f"RETRIEVED: {len(retrieved_nodes)} nodes")
         unique_retrieved = deduplicate_nodes(retrieved_nodes)
-        # DEBUG: Log what was retrieved
         log_message(f"RETRIEVED: unique {len(unique_retrieved)} nodes")
-        for i, node in enumerate(unique_retrieved):  # All debug
-            table_num = node.metadata.get('table_number', 'N/A')
-            table_title = node.metadata.get('table_title', 'N/A')
             doc_id = node.metadata.get('document_id', 'N/A')
-            log_message(f"  [{i+1}] {doc_id} - Table {table_num}: {table_title[:50]}")
         log_message(f"UNIQUE NODES: {len(unique_retrieved)} nodes")
         # Simple reranking with NORMALIZED question and PARAMETERIZED top_k

 from documents_prep import normalize_text
 def answer_question(question, query_engine, reranker, current_model, chunks_df=None, rerank_top_k=20):
     normalized_question = normalize_text(question)
     if query_engine is None:
     try:
         start_time = time.time()
         retrieved_nodes = query_engine.retriever.retrieve(normalized_question)
         log_message(f"user query: {question}")
         log_message(f"normalized query: {normalized_question}")
         log_message(f"RETRIEVED: {len(retrieved_nodes)} nodes")
         unique_retrieved = deduplicate_nodes(retrieved_nodes)
+        # IMPROVED DEBUG: Log what was actually retrieved with FULL metadata
         log_message(f"RETRIEVED: unique {len(unique_retrieved)} nodes")
+        for i, node in enumerate(unique_retrieved):
+            node_type = node.metadata.get('type', 'text')
             doc_id = node.metadata.get('document_id', 'N/A')
+            if node_type == 'table':
+                table_num = node.metadata.get('table_number', 'N/A')
+                table_id = node.metadata.get('table_identifier', 'N/A')
+                table_title = node.metadata.get('table_title', 'N/A')
+                # Show first 200 chars of content to verify it's the right table
+                content_preview = node.text[:200].replace('\n', ' ')
+                log_message(f"  [{i+1}] {doc_id} - Table {table_num} | ID: {table_id}")
+                log_message(f"      Title: {table_title[:80]}")
+                log_message(f"      Content: {content_preview}...")
+            else:
+                section = node.metadata.get('section_id', 'N/A')
+                log_message(f"  [{i+1}] {doc_id} - Text section {section}")
         log_message(f"UNIQUE NODES: {len(unique_retrieved)} nodes")
         # Simple reranking with NORMALIZED question and PARAMETERIZED top_k