Spaces:

MrSimple01
/

RAG_AIEXP_01

Running

App Files Files Community

MrSimple07 commited on Sep 29, 2025

Commit

17d0013

1 Parent(s): 0067c9d

Sort tables correctly by

Browse files

Files changed (8) hide show

__pycache__/config.cpython-311.pyc +0 -0
__pycache__/documents_prep.cpython-311.pyc +0 -0
__pycache__/index_retriever.cpython-311.pyc +0 -0
__pycache__/table_prep.cpython-311.pyc +0 -0
__pycache__/utils.cpython-311.pyc +0 -0
index_retriever.py +21 -2
table_prep.py +29 -3
utils.py +41 -13

__pycache__/config.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/config.cpython-311.pyc and b/__pycache__/config.cpython-311.pyc differ

__pycache__/documents_prep.cpython-311.pyc ADDED Viewed

Binary file (23.5 kB). View file

__pycache__/index_retriever.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/index_retriever.cpython-311.pyc and b/__pycache__/index_retriever.cpython-311.pyc differ

__pycache__/table_prep.cpython-311.pyc ADDED Viewed

Binary file (9.79 kB). View file

__pycache__/utils.cpython-311.pyc ADDED Viewed

Binary file (23.7 kB). View file

index_retriever.py CHANGED Viewed

@@ -80,9 +80,28 @@ def rerank_nodes(query, nodes, reranker, top_k=10):
         final_nodes = priority_nodes + reranked_text_nodes
         result = final_nodes[:top_k]
-        log_message(f"Возвращаю {len(priority_nodes)} приоритетных узлов и {len(result) - len(priority_nodes)} текстовых узлов")
-        return result
     except Exception as e:
         log_message(f"Ошибка переранжировки: {str(e)}")
         return nodes[:top_k]

         final_nodes = priority_nodes + reranked_text_nodes
         result = final_nodes[:top_k]
+        log_message("=" * 80)
+        log_message(f"РЕЗУЛЬТАТЫ ПЕРЕРАНЖИРОВКИ")
+        log_message("=" * 80)
+        log_message(f"Приоритетных узлов (таблицы/изображения): {len(priority_nodes)}")
+        log_message(f"Текстовых узлов: {len(text_nodes)}")
+        log_message(f"Всего возвращается узлов: {len(final_nodes)}")
+        for i, node in enumerate(final_nodes, 1):
+            node_type = node.metadata.get('type', 'unknown')
+            doc_id = node.metadata.get('document_id', 'unknown')
+            if node_type == 'table':
+                identifier = f"таблица {node.metadata.get('table_number', 'unknown')}"
+            elif node_type == 'image':
+                identifier = f"изображение {node.metadata.get('image_number', 'unknown')}"
+            else:
+                identifier = f"раздел {node.metadata.get('section_id', 'unknown')}"
+            log_message(f"  {i}. [{node_type}] {doc_id} - {identifier}")
+        log_message("=" * 80)
+        return final_nodes
     except Exception as e:
         log_message(f"Ошибка переранжировки: {str(e)}")
         return nodes[:top_k]

table_prep.py CHANGED Viewed

@@ -98,7 +98,13 @@ def load_table_data(repo_id, hf_token, table_data_dir):
                         document_id = table_data.get('document', 'unknown')
                         if 'sheets' in table_data:
-                            for sheet in table_data['sheets']:
                                 sheet['document'] = document_id
                                 docs_list = table_to_document(sheet, document_id)
                                 table_documents.extend(docs_list)
@@ -121,7 +127,13 @@ def load_table_data(repo_id, hf_token, table_data_dir):
                                 stats['by_document'][document_id]['size'] += size
                     elif isinstance(table_data, list):
-                        for table_json in table_data:
                             docs_list = table_to_document(table_json)
                             table_documents.extend(docs_list)
@@ -156,4 +168,18 @@ def load_table_data(repo_id, hf_token, table_data_dir):
     except Exception as e:
         log_message(f"❌ КРИТИЧЕСКАЯ ОШИБКА загрузки табличных данных: {str(e)}")
-        return []

                         document_id = table_data.get('document', 'unknown')
                         if 'sheets' in table_data:
+                            # Sort sheets by table_number to ensure correct order
+                            sorted_sheets = sorted(
+                                table_data['sheets'],
+                                key=lambda x: extract_table_number(x.get('table_number', ''))
+                            )
+                            for sheet in sorted_sheets:
                                 sheet['document'] = document_id
                                 docs_list = table_to_document(sheet, document_id)
                                 table_documents.extend(docs_list)
                                 stats['by_document'][document_id]['size'] += size
                     elif isinstance(table_data, list):
+                        # Sort list by table_number
+                        sorted_tables = sorted(
+                            table_data,
+                            key=lambda x: extract_table_number(x.get('table_number', ''))
+                        )
+                        for table_json in sorted_tables:
                             docs_list = table_to_document(table_json)
                             table_documents.extend(docs_list)
     except Exception as e:
         log_message(f"❌ КРИТИЧЕСКАЯ ОШИБКА загрузки табличных данных: {str(e)}")
+        return []
+def extract_table_number(table_number_str):
+    """Extract numeric value from table number for sorting"""
+    import re
+    if not table_number_str:
+        return 0
+    # Remove "№" and any non-numeric characters except dots
+    cleaned = re.sub(r'[^0-9.]', '', str(table_number_str))
+    try:
+        # Convert to float to handle numbers like "9.1", "9.65"
+        return float(cleaned) if cleaned else 0
+    except ValueError:
+        return 0

utils.py CHANGED Viewed

@@ -374,25 +374,53 @@ def answer_question(question, query_engine, reranker, current_model, chunks_df=N
         return "<div style='background-color: #e53e3e; color: white; padding: 20px; border-radius: 10px;'>Система не инициализирована</div>", "", ""
     try:
         start_time = time.time()
         retrieved_nodes = query_engine.retriever.retrieve(question)
         reranked_nodes = rerank_nodes(question, retrieved_nodes, reranker, top_k=10)
-        # Add after reranking, before formatting context:
-        log_message(f"=== НАЙДЕННЫЕ ЧАНКИ ПОСЛЕ ПЕРЕРАНЖИРОВКИ ===")
-        log_message(f"Всего найдено релевантных чанков: {len(reranked_nodes)}")
         for i, node in enumerate(reranked_nodes, 1):
-            log_message(f"Чанк {i}/{len(reranked_nodes)}:")
-            log_message(f"  Документ: {node.metadata.get('document_id', 'unknown')}")
-            log_message(f"  Тип: {node.metadata.get('type', 'unknown')}")
-            log_message(f"  Раздел: {node.metadata.get('section_id', 'unknown')}")
-            if node.metadata.get('type') == 'table':
-                log_message(f"  Таблица: {node.metadata.get('table_number', 'unknown')}")
-            log_message(f"  Размер: {len(node.text)} символов")
-            log_message(f"  Превью: {node.text[:150]}...")
-            log_message("-" * 50)
         formatted_context = format_context_for_llm(reranked_nodes)
         enhanced_question = f"""

         return "<div style='background-color: #e53e3e; color: white; padding: 20px; border-radius: 10px;'>Система не инициализирована</div>", "", ""
     try:
+        log_message(f"Получен вопрос: {question}")
         start_time = time.time()
         retrieved_nodes = query_engine.retriever.retrieve(question)
+        log_message(f"Извлечено {len(retrieved_nodes)} узлов")
         reranked_nodes = rerank_nodes(question, retrieved_nodes, reranker, top_k=10)
+        # ADD THIS DETAILED LOGGING SECTION
+        log_message("=" * 80)
+        log_message(f"ДЕТАЛЬНАЯ ИНФОРМАЦИЯ О ВОЗВРАЩАЕМЫХ УЗЛАХ (всего: {len(reranked_nodes)})")
+        log_message("=" * 80)
         for i, node in enumerate(reranked_nodes, 1):
+            metadata = node.metadata if hasattr(node, 'metadata') else {}
+            doc_type = metadata.get('type', 'unknown')
+            doc_id = metadata.get('document_id', 'unknown')
+            log_message(f"\n{'='*60}")
+            log_message(f"УЗЕЛ #{i}")
+            log_message(f"{'='*60}")
+            log_message(f"Тип документа: {doc_type}")
+            log_message(f"ID документа: {doc_id}")
+            if doc_type == 'table':
+                log_message(f"Номер таблицы: {metadata.get('table_number', 'unknown')}")
+                log_message(f"Название таблицы: {metadata.get('table_title', 'unknown')}")
+                log_message(f"Раздел: {metadata.get('section', 'unknown')}")
+                log_message(f"Количество строк: {metadata.get('total_rows', 'unknown')}")
+            elif doc_type == 'image':
+                log_message(f"Номер изображения: {metadata.get('image_number', 'unknown')}")
+                log_message(f"Название: {metadata.get('image_title', 'unknown')}")
+                log_message(f"Раздел: {metadata.get('section', 'unknown')}")
+            else:  # text
+                log_message(f"Раздел ID: {metadata.get('section_id', 'unknown')}")
+                log_message(f"Путь раздела: {metadata.get('section_path', 'unknown')}")
+                log_message(f"Текст раздела: {metadata.get('section_text', 'unknown')[:100]}...")
+                log_message(f"Уровень: {metadata.get('level', 'unknown')}")
+            log_message(f"Размер текста: {len(node.text)} символов")
+            log_message(f"ПРЕВЬЮ СОДЕРЖИМОГО (первые 300 символов):")
+            log_message(f"{node.text[:300]}...")
+            log_message(f"{'='*60}\n")
+        log_message("=" * 80)
+        # Continue with rest of the function...
         formatted_context = format_context_for_llm(reranked_nodes)
         enhanced_question = f"""