Spaces:

MrSimple01
/

RAG_AIEXP_01

Sleeping

App Files Files Community

MrSimple07 commited on Oct 5, 2025

Commit

31659d7

1 Parent(s): 8114c87

index retriever = 100 + 100

Browse files

Files changed (3) hide show

documents_prep.py +2 -2
index_retriever.py +1 -1
utils.py +6 -7

documents_prep.py CHANGED Viewed

@@ -38,7 +38,7 @@ def chunk_text_documents(documents):
     return chunked
-def chunk_table_by_content(table_data, doc_id, max_chars=1500):
     """Chunk tables by content size instead of rows"""
     headers = table_data.get('headers', [])
     rows = table_data.get('data', [])
@@ -222,7 +222,7 @@ def load_table_documents(repo_id, hf_token, table_dir):
             for sheet in data.get('sheets', []):
                 sheet_doc_id = sheet.get('document_id', sheet.get('document', file_doc_id))
-                chunks = chunk_table_by_content(sheet, sheet_doc_id, max_chars=1500)
                 all_chunks.extend(chunks)
         except Exception as e:

     return chunked
+def chunk_table_by_content(table_data, doc_id, max_chars=2000):
     """Chunk tables by content size instead of rows"""
     headers = table_data.get('headers', [])
     rows = table_data.get('data', [])
             for sheet in data.get('sheets', []):
                 sheet_doc_id = sheet.get('document_id', sheet.get('document', file_doc_id))
+                chunks = chunk_table_by_content(sheet, sheet_doc_id, max_chars=2000)
                 all_chunks.extend(chunks)
         except Exception as e:

index_retriever.py CHANGED Viewed

@@ -72,7 +72,7 @@ def create_query_engine(vector_index):
                     unique_nodes.append(node)
             log_message(f"Retrieved: {len(nodes)} → Unique: {len(unique_nodes)}")
-            return unique_nodes[:60]  # Return top 50 unique
     response_synthesizer = get_response_synthesizer()

                     unique_nodes.append(node)
             log_message(f"Retrieved: {len(nodes)} → Unique: {len(unique_nodes)}")
+            return unique_nodes[:50]  # Return top 50 unique
     response_synthesizer = get_response_synthesizer()

utils.py CHANGED Viewed

@@ -54,10 +54,9 @@ def extract_document_id(query):
     return None
 def normalize_doc_id(doc_id):
-    """Normalize document ID for flexible matching"""
-    normalized = doc_id.replace(' ', '').replace('Р', '').replace('р', '').lower()
-    # Remove year suffix for comparison (e.g., -2020)
     normalized = re.sub(r'-\d{4}$', '', normalized)
     return normalized
 def answer_question(question, query_engine, reranker):
@@ -66,6 +65,8 @@ def answer_question(question, query_engine, reranker):
         log_message(f"QUERY: {question}")
         target_doc_id = extract_document_id(question)
         if target_doc_id:
             log_message(f"TARGET DOCUMENT: {target_doc_id}")
@@ -74,8 +75,6 @@ def answer_question(question, query_engine, reranker):
         if target_doc_id:
             target_normalized = normalize_doc_id(target_doc_id)
-            log_message(f"NORMALIZED TARGET: {target_normalized}")
             filtered = [
                 node for node in retrieved
                 if target_normalized in normalize_doc_id(node.metadata.get('document_id', ''))
@@ -95,7 +94,7 @@ def answer_question(question, query_engine, reranker):
             retrieved = filtered
         # Rest stays the same...
-        reranked = rerank_nodes(question, retrieved, reranker, top_k=25, min_score=0.25)
         log_message(f"RERANKED: {len(reranked)} nodes")
         context_parts = []
@@ -146,7 +145,7 @@ def answer_question(question, query_engine, reranker):
         log_message(traceback.format_exc())
         return f"Ошибка: {e}", ""
-def rerank_nodes(query, nodes, reranker, top_k=25, min_score=0.3):
     """Simple and effective reranking: sort by score and filter by threshold."""
     if not nodes or not reranker:
         return nodes[:top_k]

     return None
 def normalize_doc_id(doc_id):
+    normalized = doc_id.replace(' ', '').replace('р', '').replace('Р', '').lower()
     normalized = re.sub(r'-\d{4}$', '', normalized)
+    normalized = normalized.replace('.', '')  # Remove dots for flexible matching
     return normalized
 def answer_question(question, query_engine, reranker):
         log_message(f"QUERY: {question}")
         target_doc_id = extract_document_id(question)
+        found_docs = set(normalize_doc_id(node.metadata.get('document_id', 'unknown')) for node in query_engine.retrieve(question))
+        log_message(f"NORMALIZED DOCS IN RETRIEVED: {', '.join(list(found_docs))}")
         if target_doc_id:
             log_message(f"TARGET DOCUMENT: {target_doc_id}")
         if target_doc_id:
             target_normalized = normalize_doc_id(target_doc_id)
             filtered = [
                 node for node in retrieved
                 if target_normalized in normalize_doc_id(node.metadata.get('document_id', ''))
             retrieved = filtered
         # Rest stays the same...
+        reranked = rerank_nodes(question, retrieved, reranker, top_k=20, min_score=0.25)
         log_message(f"RERANKED: {len(reranked)} nodes")
         context_parts = []
         log_message(traceback.format_exc())
         return f"Ошибка: {e}", ""
+def rerank_nodes(query, nodes, reranker, top_k=20, min_score=0.3):
     """Simple and effective reranking: sort by score and filter by threshold."""
     if not nodes or not reranker:
         return nodes[:top_k]