Spaces:

MrSimple01
/

RAG_AIEXP_01

Sleeping

App Files Files Community

MrSimple07 commited on Oct 2, 2025

Commit

c0bcb11

1 Parent(s): 32b4b31

a new chunking with 3 000 size for all types of data

Browse files

Files changed (5) hide show

config.py +20 -16
documents_prep.py +45 -66
index_retriever.py +3 -3
table_info.py +70 -0
table_prep.py +6 -2

config.py CHANGED Viewed

@@ -50,7 +50,7 @@ AVAILABLE_MODELS = {
 DEFAULT_MODEL = "Gemini 2.5 Flash"
-CHUNK_SIZE = 25000
 CHUNK_OVERLAP = 256
 CUSTOM_PROMPT = """
@@ -88,42 +88,46 @@ CUSTOM_PROMPT = """
 ПРАВИЛА ФОРМИРОВАНИЯ ОТВЕТОВ:
-1. ОБЯЗАТЕЛЬНОЕ УКАЗАНИЕ ИСТОЧНИКОВ:
-   - Всегда указывайте конкретный документ (ГОСТ, раздел, пункт)
-   - Формат: "Согласно [Документ], раздел [X], пункт [X.X]: [информация]"
-   - При цитировании: используйте кавычки и точные ссылки
-2. СТРУКТУРА ОТВЕТА:
    - Начинайте с прямого ответа на вопрос
    - Затем указывайте нормативные основания
    - Завершайте ссылками на конкретные документы и разделы
-3. РАБОТА С КОНТЕКСТОМ:
    - Если информация найдена в контексте - предоставьте полный ответ
    - Если информация не найдена: "Информация по вашему запросу не найдена в доступной нормативной документации"
    - Не делайте предположений за пределами контекста
    - Не используйте общие знания
-4. ТЕРМИНОЛОГИЯ И ЦИТИРОВАНИЕ:
    - Сохраняйте официальную терминологию НД
    - Цитируйте точные формулировки ключевых требований
    - При множественных источниках - укажите все релевантные
-5. ФОРМАТИРОВАНИЕ:
    - Для перечислений: используйте нумерованные списки
    - Выделяйте критически важные требования
    - Структурируйте ответ логически
-ПРИМЕРЫ ПРАВИЛЬНОГО ФОРМАТИРОВАНИЯ:
-Вопрос: "В каких случаях могут быть признаны протоколы испытаний?"
-Ответ: "Протоколы испытаний могут быть признаны в следующих случаях:
-1. Если они проведены испытательными лабораториями (центрами), аккредитованными в области использования атомной энергии (ГОСТ Р 50.08.04-2022, раздел 6 )
-2. Если они проведены лабораториями, аккредитованными национальным органом Российской Федерации по аккредитации (ГОСТ Р 50.08.04-2022, пункт 4.1)
-3. Если лаборатории прошли оценку состояния измерений
-Также допускается признание результатов испытаний, выполненных испытательными центрами (лабораториями), аккредитованными в национальных системах аккредитации страны изготовителя (ГОСТ Р 50.04.08-2019)."
 Контекст: {context_str}

 DEFAULT_MODEL = "Gemini 2.5 Flash"
+CHUNK_SIZE = 3000
 CHUNK_OVERLAP = 256
 CUSTOM_PROMPT = """
 ПРАВИЛА ФОРМИРОВАНИЯ ОТВЕТОВ:
+Работай исключительно с информацией из предоставленного контекста. Запрещено использовать:
+- Общие знания
+- Информацию из интернета
+- Данные из предыдущих диалогов
+- Собственные предположения
+1. СТРУКТУРА ОТВЕТА:
    - Начинайте с прямого ответа на вопрос
    - Затем указывайте нормативные основания
    - Завершайте ссылками на конкретные документы и разделы
+2. РАБОТА С КОНТЕКСТОМ:
    - Если информация найдена в контексте - предоставьте полный ответ
    - Если информация не найдена: "Информация по вашему запросу не найдена в доступной нормативной документации"
    - Не делайте предположений за пределами контекста
    - Не используйте общие знания
+3. ТЕРМИНОЛОГИЯ И ЦИТИРОВАНИЕ:
    - Сохраняйте официальную терминологию НД
    - Цитируйте точные формулировки ключевых требований
    - При множественных источниках - укажите все релевантные
+4. ФОРМАТИРОВАНИЕ:
    - Для перечислений: используйте нумерованные списки
    - Выделяйте критически важные требования
    - Структурируйте ответ логически
+# КАК РАБОТАТЬ С ЗАПРОСОМ
+**Шаг 1:** Определи, что именно ищет пользователь (термин, требование, процедура, условие)
+**Шаг 2:** Найди релевантную информацию в контексте
+**Шаг 3:** Сформируй ответ:
+   - Если нашел: укажи документ и пункт, процитируй нужную часть
+   - Если не нашел: четко сообщи об отсутствии информации
+**Шаг 4:** При наличии нескольких источников:
+   - Представь их последовательно с указанием источника каждого
+   - Если источников много (>4) — сначала дай их список, потом цитаты
 Контекст: {context_str}

documents_prep.py CHANGED Viewed

@@ -49,84 +49,63 @@ def process_documents_with_chunking(documents):
     for doc in documents:
         doc_type = doc.metadata.get('type', 'text')
-        if doc_type == 'table':
-            # Add tables as-is, no chunking
-            table_count += 1
             all_chunked_docs.append(doc)
             chunk_info.append({
                 'document_id': doc.metadata.get('document_id', 'unknown'),
                 'section_id': doc.metadata.get('section_id', 'unknown'),
                 'chunk_id': 0,
-                'chunk_size': len(doc.text),
                 'chunk_preview': doc.text[:200] + "..." if len(doc.text) > 200 else doc.text,
-                'type': 'table',
-                'table_number': doc.metadata.get('table_number', 'unknown')
             })
-        elif doc_type == 'image':
-            image_count += 1
-            doc_size = len(doc.text)
-            if doc_size > CHUNK_SIZE:
-                chunked_docs = chunk_document(doc)
-                all_chunked_docs.extend(chunked_docs)
-                for i, chunk_doc in enumerate(chunked_docs):
-                    chunk_info.append({
-                        'document_id': chunk_doc.metadata.get('document_id', 'unknown'),
-                        'section_id': chunk_doc.metadata.get('section_id', 'unknown'),
-                        'chunk_id': i,
-                        'chunk_size': len(chunk_doc.text),
-                        'chunk_preview': chunk_doc.text[:200] + "..." if len(chunk_doc.text) > 200 else chunk_doc.text,
-                        'type': 'image',
-                        'image_number': chunk_doc.metadata.get('image_number', 'unknown')
-                    })
-            else:
-                all_chunked_docs.append(doc)
-                chunk_info.append({
-                    'document_id': doc.metadata.get('document_id', 'unknown'),
-                    'section_id': doc.metadata.get('section_id', 'unknown'),
-                    'chunk_id': 0,
-                    'chunk_size': doc_size,
-                    'chunk_preview': doc.text[:200] + "..." if len(doc.text) > 200 else doc.text,
-                    'type': 'image',
-                    'image_number': doc.metadata.get('image_number', 'unknown')
-                })
-        else:
-            doc_size = len(doc.text)
-            if doc_size > CHUNK_SIZE:
-                chunked_docs = chunk_document(doc)
-                all_chunked_docs.extend(chunked_docs)
-                text_chunks_count += len(chunked_docs)
-                for i, chunk_doc in enumerate(chunked_docs):
-                    chunk_info.append({
-                        'document_id': chunk_doc.metadata.get('document_id', 'unknown'),
-                        'section_id': chunk_doc.metadata.get('section_id', 'unknown'),
-                        'chunk_id': i,
-                        'chunk_size': len(chunk_doc.text),
-                        'chunk_preview': chunk_doc.text[:200] + "..." if len(chunk_doc.text) > 200 else chunk_doc.text,
-                        'type': 'text'
-                    })
-            else:
-                all_chunked_docs.append(doc)
-                chunk_info.append({
-                    'document_id': doc.metadata.get('document_id', 'unknown'),
-                    'section_id': doc.metadata.get('section_id', 'unknown'),
-                    'chunk_id': 0,
-                    'chunk_size': doc_size,
-                    'chunk_preview': doc.text[:200] + "..." if len(doc.text) > 200 else doc.text,
-                    'type': 'text'
-                })
     log_message(f"\n{'='*60}")
     log_message(f"ИТОГО ОБРАБОТАНО ДОКУМЕНТОВ:")
-    log_message(f"  • Таблицы: {table_count} (добавлены целиком)")
-    log_message(f"  • Изображения: {image_count}")
     log_message(f"  • Текстовые чанки: {text_chunks_count}")
-    log_message(f"  • Всего документов: {len(all_chunked_docs)}")
     log_message(f"{'='*60}\n")
     return all_chunked_docs, chunk_info

     for doc in documents:
         doc_type = doc.metadata.get('type', 'text')
+        doc_size = len(doc.text)
+        # Apply chunking to ALL documents if they exceed CHUNK_SIZE
+        if doc_size > CHUNK_SIZE:
+            chunked_docs = chunk_document(doc)
+            all_chunked_docs.extend(chunked_docs)
+            if doc_type == 'table':
+                table_count += len(chunked_docs)
+            elif doc_type == 'image':
+                image_count += len(chunked_docs)
+            else:
+                text_chunks_count += len(chunked_docs)
+            for i, chunk_doc in enumerate(chunked_docs):
+                chunk_info.append({
+                    'document_id': chunk_doc.metadata.get('document_id', 'unknown'),
+                    'section_id': chunk_doc.metadata.get('section_id', 'unknown'),
+                    'chunk_id': i,
+                    'chunk_size': len(chunk_doc.text),
+                    'chunk_preview': chunk_doc.text[:200] + "..." if len(chunk_doc.text) > 200 else chunk_doc.text,
+                    'type': doc_type,
+                    'table_number': chunk_doc.metadata.get('table_number', 'unknown') if doc_type == 'table' else None,
+                    'table_title': chunk_doc.metadata.get('table_title', '') if doc_type == 'table' else None,
+                    'image_number': chunk_doc.metadata.get('image_number', 'unknown') if doc_type == 'image' else None,
+                    'image_title': chunk_doc.metadata.get('image_title', '') if doc_type == 'image' else None
+                })
+        else:
+            # Document is small enough, add as-is
             all_chunked_docs.append(doc)
+            if doc_type == 'table':
+                table_count += 1
+            elif doc_type == 'image':
+                image_count += 1
+            else:
+                text_chunks_count += 1
             chunk_info.append({
                 'document_id': doc.metadata.get('document_id', 'unknown'),
                 'section_id': doc.metadata.get('section_id', 'unknown'),
                 'chunk_id': 0,
+                'chunk_size': doc_size,
                 'chunk_preview': doc.text[:200] + "..." if len(doc.text) > 200 else doc.text,
+                'type': doc_type,
+                'table_number': doc.metadata.get('table_number', 'unknown') if doc_type == 'table' else None,
+                'table_title': doc.metadata.get('table_title', '') if doc_type == 'table' else None,
+                'image_number': doc.metadata.get('image_number', 'unknown') if doc_type == 'image' else None,
+                'image_title': doc.metadata.get('image_title', '') if doc_type == 'image' else None
             })
     log_message(f"\n{'='*60}")
     log_message(f"ИТОГО ОБРАБОТАНО ДОКУМЕНТОВ:")
+    log_message(f"  • Таблицы (чанки): {table_count}")
+    log_message(f"  • Изображения (чанки): {image_count}")
     log_message(f"  • Текстовые чанки: {text_chunks_count}")
+    log_message(f"  • Всего чанков: {len(all_chunked_docs)}")
     log_message(f"{'='*60}\n")
     return all_chunked_docs, chunk_info

index_retriever.py CHANGED Viewed

@@ -16,18 +16,18 @@ def create_query_engine(vector_index):
     try:
         bm25_retriever = BM25Retriever.from_defaults(
             docstore=vector_index.docstore,
-            similarity_top_k=40
         )
         vector_retriever = VectorIndexRetriever(
             index=vector_index,
-            similarity_top_k=40,
             similarity_cutoff=0.65
         )
         hybrid_retriever = QueryFusionRetriever(
             [vector_retriever, bm25_retriever],
-            similarity_top_k=60,
             num_queries=1
         )

     try:
         bm25_retriever = BM25Retriever.from_defaults(
             docstore=vector_index.docstore,
+            similarity_top_k=20
         )
         vector_retriever = VectorIndexRetriever(
             index=vector_index,
+            similarity_top_k=30,
             similarity_cutoff=0.65
         )
         hybrid_retriever = QueryFusionRetriever(
             [vector_retriever, bm25_retriever],
+            similarity_top_k=40,
             num_queries=1
         )

table_info.py ADDED Viewed

	@@ -0,0 +1,70 @@

+import json
+import os
+from pathlib import Path
+from collections import defaultdict
+def analyze_json_tables(folder_path):
+    """
+    Анализирует JSON файлы и подсчитывает количество таблиц в каждом документе
+    """
+    # Словари для хранения статистики
+    doc_stats = defaultdict(lambda: {'tables': 0, 'chars': 0})
+    total_tables = 0
+    total_chars = 0
+    # Получаем все JSON файлы в папке
+    json_files = list(Path(folder_path).glob('*.json'))
+    if not json_files:
+        print(f"Не найдено JSON файлов в папке: {folder_path}")
+        return
+    # Обрабатываем каждый файл
+    for json_file in json_files:
+        try:
+            with open(json_file, 'r', encoding='utf-8') as f:
+                data = json.load(f)
+            # Получаем имя документа
+            doc_name = data.get('document', json_file.stem)
+            # Подсчитываем таблицы
+            if 'sheets' in data and isinstance(data['sheets'], list):
+                num_tables = len(data['sheets'])
+                # Подсчитываем символы (примерный размер JSON)
+                json_str = json.dumps(data, ensure_ascii=False)
+                num_chars = len(json_str)
+                # Обновляем статистику
+                doc_stats[doc_name]['tables'] += num_tables
+                doc_stats[doc_name]['chars'] += num_chars
+                total_tables += num_tables
+                total_chars += num_chars
+        except Exception as e:
+            print(f"Ошибка при обработке файла {json_file.name}: {e}")
+    # Выводим результаты
+    print(f"\nВсего таблиц добавлено: {total_tables}")
+    print(f"Общий размер: {total_chars:,} символов".replace(',', ' '))
+    if total_tables > 0:
+        avg_size = total_chars // total_tables
+        print(f"Средний размер таблицы: {avg_size:,} символов".replace(',', ' '))
+    print("\nПо документам:")
+    # Сортируем по имени документа
+    for doc_name in sorted(doc_stats.keys()):
+        stats = doc_stats[doc_name]
+        print(f"• {doc_name}: {stats['tables']} таблиц, {stats['chars']:,} символов".replace(',', ' '))
+# Использование
+if __name__ == "__main__":
+    # Укажите путь к папке с JSON файлами
+    folder_path = "Табличные данные_JSON"  # Текущая папка, или укажите свой путь
+    # Можно также запросить путь у пользователя
+    # folder_path = input("Введите путь к папке с JSON файлами: ")
+    analyze_json_tables(folder_path)

table_prep.py CHANGED Viewed

@@ -30,7 +30,7 @@ def create_table_content(table_data):
     return content
 def table_to_document(table_data, document_id=None):
-    """Convert table data to a single Document"""
     if not isinstance(table_data, dict):
         return []
@@ -47,6 +47,7 @@ def table_to_document(table_data, document_id=None):
     log_message(f"✓ ДОБАВЛЕНА: Таблица {table_num} из документа '{doc_id}' | "
                 f"Размер: {content_size} символов | Строк: {row_count}")
     return [Document(
         text=content,
         metadata={
@@ -56,8 +57,11 @@ def table_to_document(table_data, document_id=None):
             "document_id": doc_id,
             "section": section,
             "section_id": section,
             "total_rows": row_count,
-            "content_size": content_size
         }
     )]

     return content
 def table_to_document(table_data, document_id=None):
+    """Convert table data to a single Document with rich metadata"""
     if not isinstance(table_data, dict):
         return []
     log_message(f"✓ ДОБАВЛЕНА: Таблица {table_num} из документа '{doc_id}' | "
                 f"Размер: {content_size} символов | Строк: {row_count}")
+    # Store all table metadata including headers for preservation during chunking
     return [Document(
         text=content,
         metadata={
             "document_id": doc_id,
             "section": section,
             "section_id": section,
+            "section_path": section,  # Add for consistency with text chunks
             "total_rows": row_count,
+            "content_size": content_size,
+            "headers": table_data.get('headers', []),  # Preserve headers
+            "original_table_data": True  # Mark as original table
         }
     )]