Spaces:

MrSimple01
/

RAG_AIEXP_01

Sleeping

App Files Files Community

MrSimple07 commited on Sep 12, 2025

Commit

d3d0d1e

1 Parent(s): d6eea71

fixing the json zip file reading

Browse files

Files changed (2) hide show

app.py +0 -58
documents_prep.py +137 -4

app.py CHANGED Viewed

@@ -138,48 +138,6 @@ def create_demo_interface():
                         value="<div style='background-color: #2d3748; color: white; padding: 20px; border-radius: 10px; text-align: center;'>Здесь появятся источники...</div>",
                     )
-        with gr.Tab("📊 История чата"):
-            gr.Markdown("### История ваших вопросов и ответов")
-            with gr.Row():
-                refresh_history_btn = gr.Button("🔄 Обновить историю", variant="secondary")
-                clear_history_btn = gr.Button("🗑️ Очистить историю", variant="secondary")
-            history_output = gr.HTML(
-                value="<div style='background-color: #2d3748; color: white; padding: 20px; border-radius: 10px; text-align: center;'>История пуста</div>",
-            )
-            history_status = gr.Textbox(
-                label="Статус",
-                interactive=False,
-                visible=False
-            )
-        with gr.Tab("ℹ️ Информация о системе"):
-            gr.Markdown("""
-            ### О системе AIEXP
-            **AIEXP (Artificial Intelligence Expert)** - это интеллектуальная система для работы с нормативной документацией.
-            #### Возможности:
-            - 🔍 Поиск информации в нормативных документах
-            - 📊 Работа с таблицами и изображениями
-            - 🤖 Поддержка различных языковых моделей
-            - 📈 Гибридный поиск с переранжировкой
-            - 📝 История диалогов
-            #### Поддерживаемые типы данных:
-            - **Текстовые документы** - разделы и подразделы нормативных актов
-            - **Таблицы** - структурированные данные в табличном формате
-            - **Изображения** - описания и метаданные изображений
-            #### Технические характеристики:
-            - Векторный поиск на основе sentence-transformers
-            - BM25 поиск для точного совпадения терминов
-            - Cross-encoder переранжировка результатов
-            - Поддержка Google Gemini и OpenAI моделей
-            """)
         switch_btn.click(
             fn=handle_model_switch,
             inputs=[model_dropdown],
@@ -197,22 +155,6 @@ def create_demo_interface():
             inputs=[question_input],
             outputs=[answer_output, sources_output]
         )
-        refresh_history_btn.click(
-            fn=get_chat_history_html,
-            outputs=[history_output]
-        )
-        clear_history_btn.click(
-            fn=clear_chat_history,
-            outputs=[history_status]
-        ).then(
-            fn=get_chat_history_html,
-            outputs=[history_output]
-        ).then(
-            fn=lambda: gr.update(visible=False),
-            outputs=[history_status]
-        )
     return demo

                         value="<div style='background-color: #2d3748; color: white; padding: 20px; border-radius: 10px; text-align: center;'>Здесь появятся источники...</div>",
                     )
         switch_btn.click(
             fn=handle_model_switch,
             inputs=[model_dropdown],
             inputs=[question_input],
             outputs=[answer_output, sources_output]
         )
     return demo

documents_prep.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import json
 import pandas as pd
 import os
 from huggingface_hub import hf_hub_download, list_repo_files
 from llama_index.core import Document
 import logging
@@ -103,20 +104,82 @@ class DocumentsPreparation:
         return documents
     def load_json_documents(self):
         log_message("Начинаю загрузку JSON документов")
         try:
             files = list_repo_files(repo_id=self.repo_id, repo_type="dataset", token=self.hf_token)
             json_files = [f for f in files if f.startswith(self.json_files_dir) and f.endswith('.json')]
-            log_message(f"Найдено {len(json_files)} JSON файлов")
             all_documents = []
             for file_path in json_files:
                 try:
-                    log_message(f"Обрабатываю файл: {file_path}")
                     local_path = hf_hub_download(
                         repo_id=self.repo_id,
                         filename=file_path,
@@ -179,19 +242,89 @@ class DocumentsPreparation:
             }
         )
     def load_table_documents(self):
         log_message("Начинаю загрузку табличных данных")
         try:
             files = list_repo_files(repo_id=self.repo_id, repo_type="dataset", token=self.hf_token)
             table_files = [f for f in files if f.startswith(self.table_data_dir) and f.endswith('.json')]
-            log_message(f"Найдено {len(table_files)} JSON файлов с таблицами")
             table_documents = []
             for file_path in table_files:
                 try:
-                    log_message(f"Обрабатываю файл: {file_path}")
                     local_path = hf_hub_download(
                         repo_id=self.repo_id,
                         filename=file_path,

 import json
 import pandas as pd
 import os
+import zipfile
 from huggingface_hub import hf_hub_download, list_repo_files
 from llama_index.core import Document
 import logging
         return documents
+    def extract_zip_and_process_json(self, zip_path):
+        """Extract ZIP file and process JSON files inside"""
+        documents = []
+        try:
+            with zipfile.ZipFile(zip_path, 'r') as zip_ref:
+                # Get list of files in ZIP
+                zip_files = zip_ref.namelist()
+                json_files = [f for f in zip_files if f.endswith('.json') and not f.startswith('__MACOSX')]
+                log_message(f"Найдено {len(json_files)} JSON файлов в архиве")
+                for json_file in json_files:
+                    try:
+                        log_message(f"Обрабатываю файл из архива: {json_file}")
+                        # Read JSON file from ZIP
+                        with zip_ref.open(json_file) as f:
+                            json_data = json.load(f)
+                        document_metadata = json_data.get('document_metadata', {})
+                        document_id = document_metadata.get('document_id', 'unknown')
+                        document_name = document_metadata.get('document_name', 'unknown')
+                        docs = self.extract_text_from_json(json_data, document_id, document_name)
+                        documents.extend(docs)
+                        log_message(f"Извлечено {len(docs)} документов из {json_file}")
+                    except Exception as e:
+                        log_message(f"Ошибка обработки файла {json_file}: {str(e)}")
+                        continue
+        except Exception as e:
+            log_message(f"Ошибка извлечения ZIP архива {zip_path}: {str(e)}")
+        return documents
     def load_json_documents(self):
         log_message("Начинаю загрузку JSON документов")
         try:
             files = list_repo_files(repo_id=self.repo_id, repo_type="dataset", token=self.hf_token)
+            # Look for ZIP files in the JSON directory
+            zip_files = [f for f in files if f.startswith(self.json_files_dir) and f.endswith('.zip')]
+            # Also look for direct JSON files (fallback)
             json_files = [f for f in files if f.startswith(self.json_files_dir) and f.endswith('.json')]
+            log_message(f"Найдено {len(zip_files)} ZIP файлов и {len(json_files)} прямых JSON файлов")
             all_documents = []
+            # Process ZIP files first
+            for zip_file_path in zip_files:
+                try:
+                    log_message(f"Загружаю ZIP архив: {zip_file_path}")
+                    local_zip_path = hf_hub_download(
+                        repo_id=self.repo_id,
+                        filename=zip_file_path,
+                        local_dir=self.download_dir,
+                        repo_type="dataset",
+                        token=self.hf_token
+                    )
+                    documents = self.extract_zip_and_process_json(local_zip_path)
+                    all_documents.extend(documents)
+                except Exception as e:
+                    log_message(f"Ошибка обработки ZIP файла {zip_file_path}: {str(e)}")
+                    continue
+            # Process direct JSON files (if any)
             for file_path in json_files:
                 try:
+                    log_message(f"Обрабатываю прямой JSON файл: {file_path}")
                     local_path = hf_hub_download(
                         repo_id=self.repo_id,
                         filename=file_path,
             }
         )
+    def extract_zip_and_process_tables(self, zip_path):
+        """Extract ZIP file and process table JSON files inside"""
+        documents = []
+        try:
+            with zipfile.ZipFile(zip_path, 'r') as zip_ref:
+                # Get list of files in ZIP
+                zip_files = zip_ref.namelist()
+                json_files = [f for f in zip_files if f.endswith('.json') and not f.startswith('__MACOSX')]
+                log_message(f"Найдено {len(json_files)} JSON файлов таблиц в архиве")
+                for json_file in json_files:
+                    try:
+                        log_message(f"Обрабатываю файл таблицы из архива: {json_file}")
+                        # Read JSON file from ZIP
+                        with zip_ref.open(json_file) as f:
+                            table_data = json.load(f)
+                        if isinstance(table_data, dict):
+                            document_id = table_data.get('document', 'unknown')
+                            if 'sheets' in table_data:
+                                for sheet in table_data['sheets']:
+                                    sheet['document'] = document_id
+                                    doc = self.table_to_document(sheet, document_id)
+                                    documents.append(doc)
+                            else:
+                                doc = self.table_to_document(table_data, document_id)
+                                documents.append(doc)
+                        elif isinstance(table_data, list):
+                            for table_json in table_data:
+                                doc = self.table_to_document(table_json)
+                                documents.append(doc)
+                    except Exception as e:
+                        log_message(f"Ошибка обработки файла таблицы {json_file}: {str(e)}")
+                        continue
+        except Exception as e:
+            log_message(f"Ошибка извлечения ZIP архива таблиц {zip_path}: {str(e)}")
+        return documents
     def load_table_documents(self):
         log_message("Начинаю загрузку табличных данных")
         try:
             files = list_repo_files(repo_id=self.repo_id, repo_type="dataset", token=self.hf_token)
+            # Look for ZIP files in the table directory
+            zip_files = [f for f in files if f.startswith(self.table_data_dir) and f.endswith('.zip')]
+            # Also look for direct JSON files (fallback)
             table_files = [f for f in files if f.startswith(self.table_data_dir) and f.endswith('.json')]
+            log_message(f"Найдено {len(zip_files)} ZIP файлов с таблицами и {len(table_files)} прямых JSON файлов")
             table_documents = []
+            # Process ZIP files first
+            for zip_file_path in zip_files:
+                try:
+                    log_message(f"Загружаю ZIP архив таблиц: {zip_file_path}")
+                    local_zip_path = hf_hub_download(
+                        repo_id=self.repo_id,
+                        filename=zip_file_path,
+                        local_dir=self.download_dir,
+                        repo_type="dataset",
+                        token=self.hf_token
+                    )
+                    documents = self.extract_zip_and_process_tables(local_zip_path)
+                    table_documents.extend(documents)
+                except Exception as e:
+                    log_message(f"Ошибка обработки ZIP файла таблиц {zip_file_path}: {str(e)}")
+                    continue
+            # Process direct JSON files (if any)
             for file_path in table_files:
                 try:
+                    log_message(f"Обрабатываю прямой файл таблицы: {file_path}")
                     local_path = hf_hub_download(
                         repo_id=self.repo_id,
                         filename=file_path,