Spaces:

MrSimple01
/

RAG_AIEXP_01

Sleeping

App Files Files Community

MrSimple07 commited on Sep 17, 2025

Commit

2df0370

1 Parent(s): 497bfbe

new table document + image document processing functions + added more comprehensive loggings

Browse files

Files changed (3) hide show

config.py +0 -2
documents_prep.py +46 -29
utils.py +23 -8

config.py CHANGED Viewed

@@ -13,8 +13,6 @@ TABLE_DATA_DIR = "Табличные данные_JSON"
 IMAGE_DATA_DIR = "Изображения"
 DOWNLOAD_DIR = "rag_files"
 JSON_FILES_DIR ="JSON"
-HF_TOKEN = os.getenv('HF_TOKEN')
 GOOGLE_API_KEY = os.getenv('GOOGLE_API_KEY')
 OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

 IMAGE_DATA_DIR = "Изображения"
 DOWNLOAD_DIR = "rag_files"
 JSON_FILES_DIR ="JSON"
 GOOGLE_API_KEY = os.getenv('GOOGLE_API_KEY')
 OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

documents_prep.py CHANGED Viewed

@@ -286,36 +286,55 @@ def extract_zip_and_process_json(zip_path):
     return documents
 def table_to_document(table_data, document_id=None):
-    content = ""
     if isinstance(table_data, dict):
         doc_id = document_id or table_data.get('document_id', table_data.get('document', 'Неизвестно'))
         table_num = table_data.get('table_number', 'Неизвестно')
         table_title = table_data.get('table_title', 'Неизвестно')
         section = table_data.get('section', 'Неизвестно')
-        content += f"Таблица: {table_num}\n"
-        content += f"Название: {table_title}\n"
-        content += f"Документ: {doc_id}\n"
-        content += f"Раздел: {section}\n"
         if 'data' in table_data and isinstance(table_data['data'], list):
-            for row in table_data['data']:
                 if isinstance(row, dict):
                     row_text = " | ".join([f"{k}: {v}" for k, v in row.items()])
-                    content += f"{row_text}\n"
-    return Document(
-        text=content,
-        metadata={
-            "type": "table",
-            "table_number": table_data.get('table_number', 'unknown'),
-            "table_title": table_data.get('table_title', 'unknown'),
-            "document_id": doc_id or table_data.get('document_id', table_data.get('document', 'unknown')),
-            "section": table_data.get('section', 'unknown'),
-            "section_id": table_data.get('section', 'unknown')
-        }
-    )
 def load_table_data(repo_id, hf_token, table_data_dir):
     log_message("Начинаю загрузку табличных данных")
@@ -381,12 +400,9 @@ def load_image_data(repo_id, hf_token, image_data_dir):
             if file.startswith(image_data_dir) and file.endswith('.csv'):
                 image_files.append(file)
-        log_message(f"Найдено {len(image_files)} CSV файлов с изображениями")
         image_documents = []
         for file_path in image_files:
             try:
-                log_message(f"Обрабатываю файл изображений: {file_path}")
                 local_path = hf_hub_download(
                     repo_id=repo_id,
                     filename=file_path,
@@ -396,9 +412,9 @@ def load_image_data(repo_id, hf_token, image_data_dir):
                 )
                 df = pd.read_csv(local_path)
-                log_message(f"Загружено {len(df)} записей изображений из файла {file_path}")
                 for _, row in df.iterrows():
                     section_value = row.get('Раздел документа', row.get('section', 'Неизвестно'))
                     content = f"Изображение: {row.get('№ Изображения', 'Неизвестно')}\n"
@@ -412,11 +428,13 @@ def load_image_data(repo_id, hf_token, image_data_dir):
                         text=content,
                         metadata={
                             "type": "image",
-                            "image_number": row.get('№ Изображения', 'unknown'),
-                            "document_id": row.get('Обозначение документа', 'unknown'),
-                            "file_path": row.get('Файл изображения', 'unknown'),
-                            "section": section_value,
-                            "section_id": section_value
                         }
                     )
                     image_documents.append(doc)
@@ -425,7 +443,6 @@ def load_image_data(repo_id, hf_token, image_data_dir):
                 log_message(f"Ошибка обработки файла {file_path}: {str(e)}")
                 continue
-        log_message(f"Создано {len(image_documents)} документов из изображений")
         return image_documents
     except Exception as e:

     return documents
 def table_to_document(table_data, document_id=None):
+    documents = []
     if isinstance(table_data, dict):
         doc_id = document_id or table_data.get('document_id', table_data.get('document', 'Неизвестно'))
         table_num = table_data.get('table_number', 'Неизвестно')
         table_title = table_data.get('table_title', 'Неизвестно')
         section = table_data.get('section', 'Неизвестно')
+        # Создаем заголовочный документ
+        header_content = f"Таблица: {table_num}\nНазвание: {table_title}\nДокумент: {doc_id}\nРаздел: {section}\n"
         if 'data' in table_data and isinstance(table_data['data'], list):
+            # Каждая строка таблицы - отдельный документ
+            for row_idx, row in enumerate(table_data['data']):
                 if isinstance(row, dict):
                     row_text = " | ".join([f"{k}: {v}" for k, v in row.items()])
+                    content = header_content + f"Строка {row_idx + 1}: {row_text}"
+                    doc = Document(
+                        text=content,
+                        metadata={
+                            "type": "table_row",
+                            "table_number": table_num,
+                            "table_title": table_title,
+                            "document_id": doc_id,
+                            "section": section,
+                            "section_id": section,
+                            "row_number": row_idx + 1,
+                            "total_rows": len(table_data['data'])
+                        }
+                    )
+                    documents.append(doc)
+        # Если нет строк, создаем общий документ
+        if not documents:
+            doc = Document(
+                text=header_content,
+                metadata={
+                    "type": "table",
+                    "table_number": table_num,
+                    "table_title": table_title,
+                    "document_id": doc_id,
+                    "section": section,
+                    "section_id": section
+                }
+            )
+            documents.append(doc)
+    return documents
 def load_table_data(repo_id, hf_token, table_data_dir):
     log_message("Начинаю загрузку табличных данных")
             if file.startswith(image_data_dir) and file.endswith('.csv'):
                 image_files.append(file)
         image_documents = []
         for file_path in image_files:
             try:
                 local_path = hf_hub_download(
                     repo_id=repo_id,
                     filename=file_path,
                 )
                 df = pd.read_csv(local_path)
                 for _, row in df.iterrows():
+                    # Создаем отдельный документ для каждого изображения
                     section_value = row.get('Раздел документа', row.get('section', 'Неизвестно'))
                     content = f"Изображение: {row.get('№ Изображения', 'Неизвестно')}\n"
                         text=content,
                         metadata={
                             "type": "image",
+                            "image_number": str(row.get('№ Изображения', 'unknown')),
+                            "image_title": str(row.get('Название изображения', 'unknown')),
+                            "image_description": str(row.get('Описание изображение', 'unknown')),
+                            "document_id": str(row.get('Обозначение документа', 'unknown')),
+                            "file_path": str(row.get('Файл изображения', 'unknown')),
+                            "section": str(section_value),
+                            "section_id": str(section_value)
                         }
                     )
                     image_documents.append(doc)
                 log_message(f"Ошибка обработки файла {file_path}: {str(e)}")
                 continue
         return image_documents
     except Exception as e:

utils.py CHANGED Viewed

@@ -146,20 +146,35 @@ def answer_question(question, query_engine, reranker, current_model, chunks_df=N
     try:
         log_message(f"Получен вопрос: {question}")
-        log_message(f"Используется модель: {current_model}")
         start_time = time.time()
-        log_message("Извлекаю релевантные узлы")
         retrieved_nodes = query_engine.retriever.retrieve(question)
         log_message(f"Извлечено {len(retrieved_nodes)} узлов")
-        for i in range(min(3, len(retrieved_nodes))):
-            log_message(f"Пример узла {i+1}: {retrieved_nodes[i].text[:200]}...")
-        log_message("Применяю переранжировку")
         reranked_nodes = rerank_nodes(question, retrieved_nodes, reranker, top_k=10)
         formatted_context = format_context_for_llm(reranked_nodes)
-        log_message(f"fорматированный контекст для LLM:\n{formatted_context[:500]}...")
         enhanced_question = f"""
 Контекст из базы данных:
@@ -167,10 +182,10 @@ def answer_question(question, query_engine, reranker, current_model, chunks_df=N
 Вопрос пользователя: {question}"""
-        log_message(f"Отправляю запрос в LLM с {len(reranked_nodes)} узлами")
-        log_message(f"Вопрос для LLM:\n{enhanced_question}...")
         response = query_engine.query(enhanced_question)
         end_time = time.time()
         processing_time = end_time - start_time

     try:
         log_message(f"Получен вопрос: {question}")
         start_time = time.time()
+        # Извлечение узлов
         retrieved_nodes = query_engine.retriever.retrieve(question)
         log_message(f"Извлечено {len(retrieved_nodes)} узлов")
+        # ДЕТАЛЬНОЕ ЛОГИРОВАНИЕ ИСТОЧНИКОВ
+        log_message("=== ДЕТАЛЬНАЯ ИНФОРМАЦИЯ О НАЙДЕННЫХ УЗЛАХ ===")
+        for i, node in enumerate(retrieved_nodes):
+            log_message(f"Узел {i+1}:")
+            log_message(f"  Документ: {node.metadata.get('document_id', 'unknown')}")
+            log_message(f"  Тип: {node.metadata.get('type', 'unknown')}")
+            log_message(f"  Раздел: {node.metadata.get('section_id', 'unknown')}")
+            log_message(f"  Текст (первые 200 символов): {node.text[:200]}...")
+            log_message(f"  Метаданные: {node.metadata}")
+        # Переранжировка
         reranked_nodes = rerank_nodes(question, retrieved_nodes, reranker, top_k=10)
+        log_message("=== УЗЛЫ ПОСЛЕ ПЕРЕРАНЖИРОВКИ ===")
+        for i, node in enumerate(reranked_nodes):
+            log_message(f"Переранжированный узел {i+1}:")
+            log_message(f"  Документ: {node.metadata.get('document_id', 'unknown')}")
+            log_message(f"  Тип: {node.metadata.get('type', 'unknown')}")
+            log_message(f"  Раздел: {node.metadata.get('section_id', 'unknown')}")
+            log_message(f"  Полный текст: {node.text}")
         formatted_context = format_context_for_llm(reranked_nodes)
+        log_message(f"ПОЛНЫЙ КОНТЕКСТ ДЛЯ LLM:\n{formatted_context}")
         enhanced_question = f"""
 Контекст из базы данных:
 Вопрос пользователя: {question}"""
         response = query_engine.query(enhanced_question)
+        log_message(f"ОТВЕТ LLM: {response.response}")
         end_time = time.time()
         processing_time = end_time - start_time