Spaces:

MrSimple01
/

AIEXP_1

Sleeping

App Files Files Community

MrSimple01 commited on Oct 18, 2025

Commit

eae2fa3

verified ·

1 Parent(s): ce7b472

Update app.py

Browse files

Files changed (1) hide show

app.py +62 -22

app.py CHANGED Viewed

@@ -10,6 +10,7 @@ from config import (
     HF_REPO_ID, HF_TOKEN, DOWNLOAD_DIR, CHUNKS_FILENAME,
     JSON_FILES_DIR, TABLE_DATA_DIR, IMAGE_DATA_DIR, DEFAULT_MODEL, AVAILABLE_MODELS
 )
 def merge_table_chunks(chunk_info):
@@ -39,7 +40,6 @@ def merge_table_chunks(chunk_info):
     return list(merged.values())
 def create_chunks_display_html(chunk_info):
     if not chunk_info:
         return "<div style='padding: 20px; text-align: center; color: black;'>Нет данных о чанках</div>"
@@ -142,19 +142,14 @@ def initialize_system(repo_id, hf_token, download_dir, chunks_filename=None,
             separator=" ",
             backup_separators=["\n", ".", "!", "?"]
         )
-        log_message(f"Configured chunk size: {CHUNK_SIZE} tokens")
-        log_message(f"Configured chunk overlap: {CHUNK_OVERLAP} tokens")
         all_documents = []
         chunks_df = None
-        # CHANGED: Use load_all_documents instead of loading separately
         if use_json_instead_csv and json_files_dir:
             log_message("Используем JSON файлы вместо CSV")
             from documents_prep import load_all_documents
-            # This will handle text, tables, and images all together with proper logging
             all_documents = load_all_documents(
                 repo_id=repo_id,
                 hf_token=hf_token,
@@ -163,12 +158,10 @@ def initialize_system(repo_id, hf_token, download_dir, chunks_filename=None,
                 image_dir=image_data_dir if image_data_dir else ""
             )
         else:
-            # OLD PATH: Loading separately (fallback)
             if chunks_filename:
                 log_message("Загружаем данные из CSV")
             if table_data_dir:
-                log_message("Добавляю табличные данные")
                 from documents_prep import load_table_documents
                 table_chunks = load_table_documents(repo_id, hf_token, table_data_dir)
@@ -176,7 +169,6 @@ def initialize_system(repo_id, hf_token, download_dir, chunks_filename=None,
                 all_documents.extend(table_chunks)
             if image_data_dir:
-                log_message("Добавляю данные изображений")
                 from documents_prep import load_image_documents
                 image_documents = load_image_documents(repo_id, hf_token, image_data_dir)
@@ -188,7 +180,6 @@ def initialize_system(repo_id, hf_token, download_dir, chunks_filename=None,
         vector_index = create_vector_index(all_documents)
         query_engine = create_query_engine(vector_index)
-        # Create chunk_info for display (extract from documents metadata)
         chunk_info = []
         for doc in all_documents:
             chunk_info.append({
@@ -233,7 +224,6 @@ def switch_model(model_name, vector_index):
         log_message(error_msg)
         return None, f"❌ {error_msg}"
-# Add these global variables near the top with other globals
 retrieval_params = {
     'vector_top_k': 50,
     'bm25_top_k': 50,
@@ -242,14 +232,12 @@ retrieval_params = {
     'rerank_top_k': 20
 }
-# MODIFIED: Update create_query_engine call signature
 def create_query_engine(vector_index, vector_top_k=50, bm25_top_k=50,
                        similarity_cutoff=0.55, hybrid_top_k=100):
     try:
         from config import CUSTOM_PROMPT
         from index_retriever import create_query_engine as create_index_query_engine
-        # Pass parameters to the index_retriever function
         query_engine = create_index_query_engine(
             vector_index=vector_index,
             vector_top_k=vector_top_k,
@@ -266,7 +254,6 @@ def create_query_engine(vector_index, vector_top_k=50, bm25_top_k=50,
         log_message(f"Ошибка создания query engine: {str(e)}")
         raise
-# MODIFIED: Update answer_question to use global retrieval_params
 def main_answer_question(question):
     global query_engine, reranker, current_model, chunks_df, retrieval_params
     if not question.strip():
@@ -287,7 +274,6 @@ def main_answer_question(question):
                 "<div style='color: black;'>Источники недоступны из-за ошибки</div>",
                 "<div style='color: black;'>Чанки недоступны из-за ошибки</div>")
-# NEW: Function to update retrieval parameters and recreate query engine
 def update_retrieval_params(vector_top_k, bm25_top_k, similarity_cutoff, hybrid_top_k, rerank_top_k):
     global query_engine, vector_index, retrieval_params
@@ -430,7 +416,6 @@ def create_demo_interface(answer_question_func, switch_model_func, current_model
                         value="<div style='background-color: #2d3748; color: white; padding: 20px; border-radius: 10px; text-align: center;'>Здесь появятся релевантные чанки...</div>",
                     )
-        # NEW TAB: Retrieval Parameters
         with gr.Tab("⚙️ Параметры поиска"):
             gr.Markdown("### Настройка параметров векторного поиска и переранжирования")
@@ -510,7 +495,6 @@ def create_demo_interface(answer_question_func, switch_model_func, current_model
                 outputs=[update_status]
             )
-            # Display current parameters
             gr.Markdown("### Текущие параметры:")
             current_params_display = gr.Textbox(
                 value="Vector: 50 | BM25: 50 | Cutoff: 0.55 | Hybrid: 100 | Rerank: 20",
@@ -526,7 +510,6 @@ Similarity Cutoff: {retrieval_params['similarity_cutoff']}
 Hybrid Top K: {retrieval_params['hybrid_top_k']}
 Rerank Top K: {retrieval_params['rerank_top_k']}"""
-            # Refresh params display on tab change
             demo.load(
                 fn=display_current_params,
                 outputs=[current_params_display]
@@ -537,7 +520,67 @@ Rerank Top K: {retrieval_params['rerank_top_k']}"""
                 outputs=[current_params_display]
             )
-        # Original tab logic
         switch_btn.click(
             fn=switch_model_func,
             inputs=[model_dropdown],
@@ -574,9 +617,6 @@ def main_switch_model(model_name):
     return status_message
 def main():
     global query_engine, chunks_df, reranker, vector_index, current_model
     GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY", "")

     HF_REPO_ID, HF_TOKEN, DOWNLOAD_DIR, CHUNKS_FILENAME,
     JSON_FILES_DIR, TABLE_DATA_DIR, IMAGE_DATA_DIR, DEFAULT_MODEL, AVAILABLE_MODELS
 )
+from converters.converter import process_uploaded_file, convert_single_excel_to_json, convert_single_excel_to_csv
 def merge_table_chunks(chunk_info):
     return list(merged.values())
 def create_chunks_display_html(chunk_info):
     if not chunk_info:
         return "<div style='padding: 20px; text-align: center; color: black;'>Нет данных о чанках</div>"
             separator=" ",
             backup_separators=["\n", ".", "!", "?"]
         )
         all_documents = []
         chunks_df = None
         if use_json_instead_csv and json_files_dir:
             log_message("Используем JSON файлы вместо CSV")
             from documents_prep import load_all_documents
             all_documents = load_all_documents(
                 repo_id=repo_id,
                 hf_token=hf_token,
                 image_dir=image_data_dir if image_data_dir else ""
             )
         else:
             if chunks_filename:
                 log_message("Загружаем данные из CSV")
             if table_data_dir:
                 from documents_prep import load_table_documents
                 table_chunks = load_table_documents(repo_id, hf_token, table_data_dir)
                 all_documents.extend(table_chunks)
             if image_data_dir:
                 from documents_prep import load_image_documents
                 image_documents = load_image_documents(repo_id, hf_token, image_data_dir)
         vector_index = create_vector_index(all_documents)
         query_engine = create_query_engine(vector_index)
         chunk_info = []
         for doc in all_documents:
             chunk_info.append({
         log_message(error_msg)
         return None, f"❌ {error_msg}"
 retrieval_params = {
     'vector_top_k': 50,
     'bm25_top_k': 50,
     'rerank_top_k': 20
 }
 def create_query_engine(vector_index, vector_top_k=50, bm25_top_k=50,
                        similarity_cutoff=0.55, hybrid_top_k=100):
     try:
         from config import CUSTOM_PROMPT
         from index_retriever import create_query_engine as create_index_query_engine
         query_engine = create_index_query_engine(
             vector_index=vector_index,
             vector_top_k=vector_top_k,
         log_message(f"Ошибка создания query engine: {str(e)}")
         raise
 def main_answer_question(question):
     global query_engine, reranker, current_model, chunks_df, retrieval_params
     if not question.strip():
                 "<div style='color: black;'>Источники недоступны из-за ошибки</div>",
                 "<div style='color: black;'>Чанки недоступны из-за ошибки</div>")
 def update_retrieval_params(vector_top_k, bm25_top_k, similarity_cutoff, hybrid_top_k, rerank_top_k):
     global query_engine, vector_index, retrieval_params
                         value="<div style='background-color: #2d3748; color: white; padding: 20px; border-radius: 10px; text-align: center;'>Здесь появятся релевантные чанки...</div>",
                     )
         with gr.Tab("⚙️ Параметры поиска"):
             gr.Markdown("### Настройка параметров векторного поиска и переранжирования")
                 outputs=[update_status]
             )
             gr.Markdown("### Текущие параметры:")
             current_params_display = gr.Textbox(
                 value="Vector: 50 | BM25: 50 | Cutoff: 0.55 | Hybrid: 100 | Rerank: 20",
 Hybrid Top K: {retrieval_params['hybrid_top_k']}
 Rerank Top K: {retrieval_params['rerank_top_k']}"""
             demo.load(
                 fn=display_current_params,
                 outputs=[current_params_display]
                 outputs=[current_params_display]
             )
+        with gr.Tab("📤 Загрузка документов"):
+            gr.Markdown("""
+            ### Загрузка новых документов в систему
+            Выберите тип документа и загрузите файл. Система автоматически обработает и добавит его в базу знаний.
+            """)
+            with gr.Row():
+                with gr.Column(scale=2):
+                    file_type_radio = gr.Radio(
+                        choices=["Таблица", "Изображение (метаданные)", "JSON документ"],
+                        value="Таблица",
+                        label="Тип документа",
+                        info="Выберите тип загружаемого документа"
+                    )
+                    file_upload = gr.File(
+                        label="Выберите файл",
+                        file_types=[".xlsx", ".xls", ".csv", ".json"],
+                        type="filepath"
+                    )
+                    upload_btn = gr.Button("Загрузить и обработать", variant="primary", size="lg")
+                    upload_status = gr.Textbox(
+                        label="Статус загрузки",
+                        value="Ожидание загрузки файла...",
+                        interactive=False,
+                        lines=3
+                    )
+                with gr.Column(scale=1):
+                    gr.Markdown("""
+                    ### Требования к файлам:
+                    **Таблицы (Excel → JSON):**
+                    - Формат: .xlsx или .xls
+                    - Обязательные колонки:
+                      - Номер таблицы
+                      - Обозначение документа
+                      - Раздел документа
+                      - Название таблицы
+                    **Изображения (Excel → CSV):**
+                    - Формат: .xlsx, .xls или .csv
+                    - Метаданные изображений
+                    **JSON документы:**
+                    - Формат: .json
+                    - Структурированные данные
+                    ⚠️ **Важно:** После загрузки необходимо перезапустить систему для применения изменений!
+                    """)
+            upload_btn.click(
+                fn=process_uploaded_file,
+                inputs=[file_upload, file_type_radio],
+                outputs=[upload_status]
+            )
         switch_btn.click(
             fn=switch_model_func,
             inputs=[model_dropdown],
     return status_message
 def main():
     global query_engine, chunks_df, reranker, vector_index, current_model
     GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY", "")