Spaces:

MrSimple01
/

RAG_AIEXP_0

Sleeping

App Files Files Community

MrSimple01 commited on Aug 30, 2025

Commit

b716c6d

verified ·

1 Parent(s): 39004b3

Upload 6 files

Browse files

Files changed (6) hide show

.gitattributes +35 -35
README.md +13 -12
app.py +576 -0
config.py +125 -0
rag_files/.cache/huggingface/.gitignore +1 -0
requirements.txt +12 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,35 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,12 +1,13 @@
----
-title: RAG AIEXP 0
-emoji: 🦀
-colorFrom: pink
-colorTo: purple
-sdk: gradio
-sdk_version: 5.44.1
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: RAG AIXP 000
+emoji: 🏆
+colorFrom: red
+colorTo: gray
+sdk: gradio
+sdk_version: 5.43.1
+app_file: app.py
+pinned: false
+license: apache-2.0
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,576 @@

+import gradio as gr
+from huggingface_hub import hf_hub_download, list_repo_files
+import faiss
+import pandas as pd
+import os
+import json
+from llama_index.core import Document, VectorStoreIndex, Settings
+from llama_index.embeddings.huggingface import HuggingFaceEmbedding
+from llama_index.llms.google_genai import GoogleGenAI
+from llama_index.llms.openai import OpenAI
+from llama_index.core.query_engine import RetrieverQueryEngine
+from llama_index.core.retrievers import VectorIndexRetriever
+from llama_index.core.response_synthesizers import get_response_synthesizer, ResponseMode
+from llama_index.core.prompts import PromptTemplate
+from llama_index.retrievers.bm25 import BM25Retriever
+from sentence_transformers import CrossEncoder
+from llama_index.core.retrievers import QueryFusionRetriever
+import time
+import sys
+import logging
+from config import *
+REPO_ID = "MrSimple01/AIEXP_RAG_FILES"
+faiss_index_filename = "cleaned_faiss_index.index"
+chunks_filename = "processed_chunks.csv"
+table_data_dir = "Табличные данные_JSON"
+image_data_dir = "Изображения"
+download_dir = "rag_files"
+HF_TOKEN = os.getenv('HF_TOKEN')
+# Global variables
+query_engine = None
+chunks_df = None
+reranker = None
+vector_index = None
+current_model = DEFAULT_MODEL
+logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
+logger = logging.getLogger(__name__)
+def log_message(message):
+    logger.info(message)
+    print(message, flush=True)
+    sys.stdout.flush()
+def get_llm_model(model_name):
+    """Get LLM model instance based on model name"""
+    try:
+        model_config = AVAILABLE_MODELS.get(model_name)
+        if not model_config:
+            log_message(f"Модель {model_name} не найдена, использую модель по умолчанию")
+            model_config = AVAILABLE_MODELS[DEFAULT_MODEL]
+        if not model_config.get("api_key"):
+            raise Exception(f"API ключ не найден для модели {model_name}")
+        if model_config["provider"] == "google":
+            return GoogleGenAI(
+                model=model_config["model_name"],
+                api_key=model_config["api_key"]
+            )
+        elif model_config["provider"] == "openai":
+            return OpenAI(
+                model=model_config["model_name"],
+                api_key=model_config["api_key"]
+            )
+        else:
+            raise Exception(f"Неподдерживаемый провайдер: {model_config['provider']}")
+    except Exception as e:
+        log_message(f"Ошибка создания модели {model_name}: {str(e)}")
+        # Fallback to default Google model
+        return GoogleGenAI(model="gemini-2.0-flash", api_key=GOOGLE_API_KEY)
+def switch_model(model_name):
+    """Switch to a different LLM model"""
+    global query_engine, current_model
+    try:
+        log_message(f"Переключение на модель: {model_name}")
+        # Create new LLM instance
+        new_llm = get_llm_model(model_name)
+        Settings.llm = new_llm
+        # Recreate query engine with new model
+        if vector_index is not None:
+            recreate_query_engine()
+            current_model = model_name
+            log_message(f"Модель успешно переключена на: {model_name}")
+            return f"✅ Модель переключена на: {model_name}"
+        else:
+            return "❌ Ошибка: система не инициализирована"
+    except Exception as e:
+        error_msg = f"Ошибка переключения модели: {str(e)}"
+        log_message(error_msg)
+        return f"❌ {error_msg}"
+def recreate_query_engine():
+    """Recreate query engine with current settings"""
+    global query_engine
+    try:
+        # Create BM25 retriever
+        bm25_retriever = BM25Retriever.from_defaults(
+            docstore=vector_index.docstore,
+            similarity_top_k=10
+        )
+        # Create vector retriever
+        vector_retriever = VectorIndexRetriever(
+            index=vector_index,
+            similarity_top_k=10,
+            similarity_cutoff=0.5
+        )
+        # Create hybrid retriever
+        hybrid_retriever = QueryFusionRetriever(
+            [vector_retriever, bm25_retriever],
+            similarity_top_k=25,
+            num_queries=1
+        )
+        # Create response synthesizer
+        custom_prompt_template = PromptTemplate(CUSTOM_PROMPT)
+        response_synthesizer = get_response_synthesizer(
+            response_mode=ResponseMode.TREE_SUMMARIZE,
+            text_qa_template=custom_prompt_template
+        )
+        # Create new query engine
+        query_engine = RetrieverQueryEngine(
+            retriever=hybrid_retriever,
+            response_synthesizer=response_synthesizer
+        )
+        log_message("Query engine успешно пересоздан")
+    except Exception as e:
+        log_message(f"Ошибка пересоздания query engine: {str(e)}")
+        raise
+def table_to_document(table_data, document_id=None):
+    content = ""
+    if isinstance(table_data, dict):
+        doc_id = document_id or table_data.get('document_id', table_data.get('document', 'Неизвестно'))
+        table_num = table_data.get('table_number', 'Неизвестно')
+        table_title = table_data.get('table_title', 'Неизвестно')
+        section = table_data.get('section', 'Неизвестно')
+        content += f"Таблица: {table_num}\n"
+        content += f"Название: {table_title}\n"
+        content += f"Документ: {doc_id}\n"
+        content += f"Раздел: {section}\n"
+        if 'data' in table_data and isinstance(table_data['data'], list):
+            for row in table_data['data']:
+                if isinstance(row, dict):
+                    row_text = " | ".join([f"{k}: {v}" for k, v in row.items()])
+                    content += f"{row_text}\n"
+    return Document(
+        text=content,
+        metadata={
+            "type": "table",
+            "table_number": table_data.get('table_number', 'unknown'),
+            "table_title": table_data.get('table_title', 'unknown'),
+            "document_id": doc_id or table_data.get('document_id', table_data.get('document', 'unknown')),
+            "section": table_data.get('section', 'unknown')
+        }
+    )
+def download_table_data():
+    log_message("Начинаю загрузку табличных данных")
+    table_files = []
+    try:
+        files = list_repo_files(repo_id=REPO_ID, repo_type="dataset", token=HF_TOKEN)
+        for file in files:
+            if file.startswith(table_data_dir) and file.endswith('.json'):
+                table_files.append(file)
+        log_message(f"Найдено {len(table_files)} JSON файлов с таблицами")
+        table_documents = []
+        for file_path in table_files:
+            try:
+                log_message(f"Обрабатываю файл: {file_path}")
+                local_path = hf_hub_download(
+                    repo_id=REPO_ID,
+                    filename=file_path,
+                    local_dir='',
+                    repo_type="dataset",
+                    token=HF_TOKEN
+                )
+                with open(local_path, 'r', encoding='utf-8') as f:
+                    table_data = json.load(f)
+                    if isinstance(table_data, dict):
+                        document_id = table_data.get('document', 'unknown')
+                        if 'sheets' in table_data:
+                            for sheet in table_data['sheets']:
+                                sheet['document'] = document_id
+                                doc = table_to_document(sheet, document_id)
+                                table_documents.append(doc)
+                        else:
+                            doc = table_to_document(table_data, document_id)
+                            table_documents.append(doc)
+                    elif isinstance(table_data, list):
+                        for table_json in table_data:
+                            doc = table_to_document(table_json)
+                            table_documents.append(doc)
+            except Exception as e:
+                log_message(f"Ошибка обработки файла {file_path}: {str(e)}")
+                continue
+        log_message(f"Создано {len(table_documents)} документов из таблиц")
+        return table_documents
+    except Exception as e:
+        log_message(f"Ошибка загрузки табличных данных: {str(e)}")
+        return []
+def download_image_data():
+    log_message("Начинаю загрузку данных изображений")
+    image_files = []
+    try:
+        files = list_repo_files(repo_id=REPO_ID, repo_type="dataset", token=HF_TOKEN)
+        for file in files:
+            if file.startswith(image_data_dir) and file.endswith('.csv'):
+                image_files.append(file)
+        log_message(f"Найдено {len(image_files)} CSV файлов с изображениями")
+        image_documents = []
+        for file_path in image_files:
+            try:
+                log_message(f"Обрабатываю файл изображений: {file_path}")
+                local_path = hf_hub_download(
+                    repo_id=REPO_ID,
+                    filename=file_path,
+                    local_dir='',
+                    repo_type="dataset",
+                    token=HF_TOKEN
+                )
+                df = pd.read_csv(local_path)
+                log_message(f"Загружено {len(df)} записей изображений из файла {file_path}")
+                for _, row in df.iterrows():
+                    content = f"Изображение: {row.get('№ Изображения', 'Неизвестно')}\n"
+                    content += f"Название: {row.get('Название изображения', 'Неизвестно')}\n"
+                    content += f"Описание: {row.get('Описание изображение', 'Неизвестно')}\n"
+                    content += f"Документ: {row.get('Обозначение документа', 'Неизвестно')}\n"
+                    content += f"Раздел: {row.get('Раздел документа', 'Неизвестно')}\n"
+                    content += f"Файл: {row.get('Файл изображения', 'Неизвестно')}\n"
+                    doc = Document(
+                        text=content,
+                        metadata={
+                            "type": "image",
+                            "image_number": row.get('№ Изображения', 'unknown'),
+                            "document_id": row.get('Обозначение документа', 'unknown'),
+                            "file_path": row.get('Файл изображения', 'unknown'),
+                            "section": row.get('Раздел документа', 'unknown')
+                        }
+                    )
+                    image_documents.append(doc)
+            except Exception as e:
+                log_message(f"Ошибка обработки файла {file_path}: {str(e)}")
+                continue
+        log_message(f"Создано {len(image_documents)} документов из изображений")
+        return image_documents
+    except Exception as e:
+        log_message(f"Ошибка загрузки данных изображений: {str(e)}")
+        return []
+def initialize_models():
+    global query_engine, chunks_df, reranker, vector_index, current_model
+    try:
+        log_message("Инициализация системы")
+        os.makedirs(download_dir, exist_ok=True)
+        log_message("Загружаю основные файлы")
+        chunks_csv_path = hf_hub_download(
+            repo_id=REPO_ID,
+            filename=chunks_filename,
+            local_dir=download_dir,
+            repo_type="dataset",
+            token=HF_TOKEN
+        )
+        log_message("Загружаю данные чанков")
+        chunks_df = pd.read_csv(chunks_csv_path)
+        log_message(f"Загружено {len(chunks_df)} чанков")
+        log_message("Инициализирую модели")
+        embed_model = HuggingFaceEmbedding(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+        llm = get_llm_model(current_model)
+        log_message("Инициализирую переранкер")
+        reranker = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-12-v2')
+        Settings.embed_model = embed_model
+        Settings.llm = llm
+        text_column = None
+        for col in chunks_df.columns:
+            if 'text' in col.lower() or 'content' in col.lower() or 'chunk' in col.lower():
+                text_column = col
+                break
+        if text_column is None:
+            text_column = chunks_df.columns[0]
+        log_message(f"Использую колонку: {text_column}")
+        log_message("Создаю документы из чанков")
+        documents = []
+        for i, (_, row) in enumerate(chunks_df.iterrows()):
+            doc = Document(
+                text=str(row[text_column]),
+                metadata={
+                    "chunk_id": row.get('chunk_id', i),
+                    "document_id": row.get('document_id', 'unknown'),
+                    "type": "text"
+                }
+            )
+            documents.append(doc)
+        log_message(f"Создано {len(documents)} текстовых документов")
+        log_message("Добавляю табличные данные")
+        table_documents = download_table_data()
+        documents.extend(table_documents)
+        log_message("Добавляю данные изображений")
+        image_documents = download_image_data()
+        documents.extend(image_documents)
+        log_message(f"Всего документов: {len(documents)}")
+        log_message("Строю векторный индекс")
+        vector_index = VectorStoreIndex.from_documents(documents)
+        # Create query engine
+        recreate_query_engine()
+        log_message(f"Система успешно инициализирована с моделью: {current_model}")
+        return True
+    except Exception as e:
+        log_message(f"Ошибка инициализации: {str(e)}")
+        return False
+def rerank_nodes(query, nodes, top_k=10):
+    if not nodes or not reranker:
+        return nodes[:top_k]
+    try:
+        log_message(f"Переранжирую {len(nodes)} узлов")
+        pairs = []
+        for node in nodes:
+            pairs.append([query, node.text])
+        scores = reranker.predict(pairs)
+        scored_nodes = list(zip(nodes, scores))
+        scored_nodes.sort(key=lambda x: x[1], reverse=True)
+        reranked_nodes = [node for node, score in scored_nodes[:top_k]]
+        log_message(f"Возвращаю топ-{len(reranked_nodes)} переранжированных узлов")
+        return reranked_nodes
+    except Exception as e:
+        log_message(f"Ошибка переранжировки: {str(e)}")
+        return nodes[:top_k]
+def answer_question(question):
+    global query_engine, chunks_df, current_model
+    if query_engine is None:
+        return "<div style='background-color: #e53e3e; color: white; padding: 20px; border-radius: 10px;'>Система не инициализирована</div>", ""
+    try:
+        log_message(f"Получен вопрос: {question}")
+        log_message(f"Используется модель: {current_model}")
+        start_time = time.time()
+        log_message("Извлекаю релевантные узлы")
+        retrieved_nodes = query_engine.retriever.retrieve(question)
+        log_message(f"Извлечено {len(retrieved_nodes)} узлов")
+        log_message("Применяю переранжировку")
+        reranked_nodes = rerank_nodes(question, retrieved_nodes, top_k=10)
+        log_message(f"Отправляю запрос в LLM с {len(reranked_nodes)} узлами")
+        response = query_engine.query(question)
+        end_time = time.time()
+        processing_time = end_time - start_time
+        log_message(f"Обработка завершена за {processing_time:.2f} секунд")
+        sources_html = generate_sources_html(reranked_nodes)
+        answer_with_time = f"""<div style='background-color: #2d3748; color: white; padding: 20px; border-radius: 10px; margin-bottom: 10px;'>
+        <h3 style='color: #63b3ed; margin-top: 0;'>Ответ (Модель: {current_model}):</h3>
+        <div style='line-height: 1.6; font-size: 16px;'>{response.response}</div>
+        <div style='margin-top: 15px; padding-top: 10px; border-top: 1px solid #4a5568; font-size: 14px; color: #a0aec0;'>
+        Время обработки: {processing_time:.2f} секунд
+        </div>
+        </div>"""
+        return answer_with_time, sources_html
+    except Exception as e:
+        log_message(f"Ошибка обработки вопроса: {str(e)}")
+        error_msg = f"<div style='background-color: #e53e3e; color: white; padding: 20px; border-radius: 10px;'>Ошибка обработки вопроса: {str(e)}</div>"
+        return error_msg, ""
+def generate_sources_html(nodes):
+    html = "<div style='background-color: #2d3748; color: white; padding: 20px; border-radius: 10px; max-height: 400px; overflow-y: auto;'>"
+    html += "<h3 style='color: #63b3ed; margin-top: 0;'>Источники:</h3>"
+    for i, node in enumerate(nodes):
+        metadata = node.metadata if hasattr(node, 'metadata') else {}
+        doc_type = metadata.get('type', 'text')
+        doc_id = metadata.get('document_id', 'unknown')
+        html += f"<div style='margin-bottom: 15px; padding: 15px; border: 1px solid #4a5568; border-radius: 8px; background-color: #1a202c;'>"
+        if doc_type == 'text':
+            html += f"<h4 style='margin: 0 0 10px 0; color: #63b3ed;'>📄 {doc_id}</h4>"
+        elif doc_type == 'table':
+            table_num = metadata.get('table_number', 'unknown')
+            if table_num and table_num != 'unknown':
+                if not table_num.startswith('№'):
+                    table_num = f"№{table_num}"
+                html += f"<h4 style='margin: 0 0 10px 0; color: #68d391;'>📊 Таблица {table_num} - {doc_id}</h4>"
+            else:
+                html += f"<h4 style='margin: 0 0 10px 0; color: #68d391;'>📊 Таблица - {doc_id}</h4>"
+        elif doc_type == 'image':
+            image_num = metadata.get('image_number', 'unknown')
+            section = metadata.get('section', '')
+            if image_num and image_num != 'unknown':
+                if not str(image_num).startswith('№'):
+                    image_num = f"№{image_num}"
+                html += f"<h4 style='margin: 0 0 10px 0; color: #fbb6ce;'>🖼️ Изображение {image_num} - {doc_id} ({section})</h4>"
+            else:
+                html += f"<h4 style='margin: 0 0 10px 0; color: #fbb6ce;'>🖼️ Изображение - {doc_id} ({section})</h4>"
+        if chunks_df is not None and 'file_link' in chunks_df.columns and doc_type == 'text':
+            doc_rows = chunks_df[chunks_df['document_id'] == doc_id]
+            if not doc_rows.empty:
+                file_link = doc_rows.iloc[0]['file_link']
+                html += f"<a href='{file_link}' target='_blank' style='color: #68d391; text-decoration: none; font-size: 14px; display: inline-block; margin-top: 10px;'>🔗 Ссылка на документ</a><br>"
+        html += "</div>"
+    html += "</div>"
+    return html
+def create_demo_interface():
+    with gr.Blocks(title="AIEXP - AI Expert для нормативной документации", theme=gr.themes.Soft()) as demo:
+        gr.Markdown("""
+        # AIEXP - Artificial Intelligence Expert
+        ## Инструмент для работы с нормативной документацией
+        """)
+        with gr.Tab("🏠 Поиск по нормативным документам"):
+            gr.Markdown("### Задайте вопрос по нормативной документации")
+            # Model selection section
+            with gr.Row():
+                with gr.Column(scale=2):
+                    model_dropdown = gr.Dropdown(
+                        choices=list(AVAILABLE_MODELS.keys()),
+                        value=current_model,
+                        label="🤖 Выберите языковую модель",
+                        info="Выберите модель для генерации ответов"
+                    )
+                with gr.Column(scale=1):
+                    switch_btn = gr.Button("🔄 Переключить модель", variant="secondary")
+                    model_status = gr.Textbox(
+                        value=f"Текущая модель: {current_model}",
+                        label="Статус модели",
+                        interactive=False
+                    )
+            with gr.Row():
+                with gr.Column(scale=3):
+                    question_input = gr.Textbox(
+                        label="Ваш вопрос к базе знаний",
+                        placeholder="Введите вопрос по нормативным документам...",
+                        lines=3
+                    )
+                    ask_btn = gr.Button("🔍 Найти ответ", variant="primary", size="lg")
+                    gr.Examples(
+                        examples=[
+                            "О чем этот рисунок: ГОСТ Р 50.04.07-2022 Приложение Л. Л.1.5 Рисунок Л.5",
+                            "Л.9 Формула в ГОСТ Р 50.04.07 - 2022 что и о чем там?",
+                            "Какой стандарт устанавливает порядок признания протоколов испытаний продукции в области использования атомной энергии?",
+                            "Кто несет ответственность за организацию и проведение признания протоколов испытаний продукции?",
+                            "В каких случаях могут быть признаны протоколы испытаний, проведенные лабораториями?",
+                        ],
+                        inputs=question_input
+                    )
+            with gr.Row():
+                with gr.Column(scale=2):
+                    answer_output = gr.HTML(
+                        label="",
+                        value=f"<div style='background-color: #2d3748; color: white; padding: 20px; border-radius: 10px; text-align: center;'>Здесь появится ответ на ваш вопрос...<br><small>Текущая модель: {current_model}</small></div>",
+                    )
+                with gr.Column(scale=1):
+                    sources_output = gr.HTML(
+                        label="",
+                        value="<div style='background-color: #2d3748; color: white; padding: 20px; border-radius: 10px; text-align: center;'>Здесь появятся источники...</div>",
+                    )
+            # Event handlers
+            def update_model_status(new_model):
+                result = switch_model(new_model)
+                return result
+            switch_btn.click(
+                fn=update_model_status,
+                inputs=[model_dropdown],
+                outputs=[model_status]
+            )
+            ask_btn.click(
+                fn=answer_question,
+                inputs=[question_input],
+                outputs=[answer_output, sources_output]
+            )
+            question_input.submit(
+                fn=answer_question,
+                inputs=[question_input],
+                outputs=[answer_output, sources_output]
+            )
+    return demo
+if __name__ == "__main__":
+    log_message("Запуск AIEXP - AI Expert для нормативной документации")
+    if initialize_models():
+        log_message("Запуск веб-интерфейса")
+        demo = create_demo_interface()
+        demo.launch(
+            server_name="0.0.0.0",
+            server_port=7860,
+            share=True,
+            debug=False
+        )
+    else:
+        log_message("Невозможно запустить приложение из-за ошибки инициализации")
+        sys.exit(1)

config.py ADDED Viewed

	@@ -0,0 +1,125 @@

+import os
+EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
+RETRIEVER_TOP_K = 15
+SIMILARITY_THRESHOLD = 0.7
+RAG_FILES_DIR = "rag_files"
+PROCESSED_DATA_FILE = "processed_chunks.csv"
+GOOGLE_API_KEY = os.getenv('GOOGLE_API_KEY')
+OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')
+HF_REPO_ID = "MrSimple01/AIEXP_RAG_FILES"
+HF_TOKEN = os.getenv('HF_TOKEN')
+# Available models configuration
+AVAILABLE_MODELS = {
+    "Gemini 2.5 Flash": {
+        "provider": "google",
+        "model_name": "gemini-2.5-flash",
+        "api_key": GOOGLE_API_KEY
+    },
+    "Gemini 2.5 Pro": {
+        "provider": "google",
+        "model_name": "gemini-2.5-pro",
+        "api_key": GOOGLE_API_KEY
+    },
+    "GPT-4o": {
+        "provider": "openai",
+        "model_name": "gpt-4o",
+        "api_key": OPENAI_API_KEY
+    },
+    "GPT-4o Mini": {
+        "provider": "openai",
+        "model_name": "gpt-4o-mini",
+        "api_key": OPENAI_API_KEY
+    },
+    "GPT-5": {
+        "provider": "openai",
+        "model_name": "gpt-5",
+        "api_key": OPENAI_API_KEY
+    }
+}
+DEFAULT_MODEL = "Gemini 2.5 Flash"
+CHUNK_SIZE = 1024
+CHUNK_OVERLAP = 256
+CUSTOM_PROMPT = """
+Вы являетесь высокоспециализированным Ассистентом для анализа нормативных документов (AIEXP). Ваша цель - предоставлять точные, корректные и контекстно релевантные ответы исключительно на основе предоставленного контекста из нормативной документации.
+ПРАВИЛА АНАЛИЗА ЗАПРОСА:
+1. ПРЯМЫЕ ВОПРОСЫ БЕЗ ДОКУМЕНТАЛЬНОГО КОНТЕКСТА:
+   Если пользователь задает вопрос типа "В каких случаях могут быть признаны протоколы испытаний?" без предоставления дополнительных документов, найдите соответствующую информацию в доступном контексте и предоставьте полный ответ с указанием источников.
+2. ОПРЕДЕЛЕНИЕ ТИПА ЗАДАЧИ:
+   а) ПОИСК И ОТВЕТ НА ВОПРОС (ключевые слова: "в каких случаях", "когда", "кто", "что", "как", "почему"):
+      - Найдите релевантную информацию в контексте
+      - Предоставьте развернутый ответ
+      - Обязательно укажите конкретные документы и разделы
+      - Процитируйте ключевые положения
+   б) КРАТКОЕ САММАРИ (ключевые слова: "кратко", "суммировать", "резюме", "основные моменты"):
+      - Предоставьте структурированное резюме
+      - Выделите ключевые требования
+      - Используйте нумерованный список
+   в) ПОИСК ДОКУМЕНТА И ПУНКТА (ключевые слова: "найти", "где", "какой документ", "в каком разделе"):
+      - Укажите конкретный документ и структурное расположение
+      - Предоставьте точные номера разделов/пунктов
+   г) ПРОВЕРКА КОРРЕКТНОСТИ (ключевые слова: "правильно ли", "соответствует ли", "проверить"):
+      - Четко укажите: "СООТВЕТСТВУЕТ" или "НЕ СООТВЕТСТВУЕТ"
+      - Перечислите конкретные требования
+   д) ПЛАН ДЕЙСТВИЙ (ключевые слова: "план", "алгоритм", "пошагово"):
+      - Создайте пронумерованный план
+      - Укажите ссылки на соответствующие пункты НД
+ПРАВИЛА ФОРМИРОВАНИЯ ОТВЕТОВ:
+1. ОБЯЗАТЕЛЬНОЕ УКАЗАНИЕ ИСТОЧНИКОВ:
+   - Всегда указывайте конкретный документ (ГОСТ, раздел, пункт)
+   - Формат: "Согласно [Документ], раздел [X], пункт [X.X]: [информация]"
+   - При цитировании: используйте кавычки и точные ссылки
+2. СТРУКТУРА ОТВЕТА:
+   - Начинайте с прямого ответа на вопрос
+   - Затем указывайте нормативные основания
+   - Завершайте ссылками на конкретные документы и разделы
+3. РАБОТА С КОНТЕКСТОМ:
+   - Если информация найдена в контексте - предоставьте полный ответ
+   - Если информация не найдена: "Информация по вашему запросу не найдена в доступной нормативной документации"
+   - Не делайте предположений за пределами контекста
+   - Не используйте общие знания
+4. ТЕРМИНОЛОГИЯ И ЦИТИРОВАНИЕ:
+   - Сохраняйте официальную терминологию НД
+   - Цитируйте точные формулировки ключевых требований
+   - При множественных источниках - укажите все релевантные
+5. ФОРМАТИРОВАНИЕ:
+   - Для перечислений: используйте нумерованные списки
+   - Выделяйте критически важные требования
+   - Структурируйте ответ логически
+ПРИМЕРЫ ПРАВИЛЬНОГО ФОРМАТИРОВАНИЯ:
+Вопрос: "В каких случаях могут быть признаны протоколы испытаний?"
+Ответ: "Протоколы испытаний могут быть признаны в следующих случаях:
+1. Если они проведены испытательными лабораториями (центрами), аккредитованными в области использования атомной энергии (ГОСТ Р 50.08.04-2022, раздел 6 )
+2. Если они проведены лабораториями, аккредитованными национальным органом Российской Федерации по аккредитации (ГОСТ Р 50.08.04-2022, пункт 4.1)
+3. Если лаборатории прошли оценку состояния измерений
+Также допускается признание результатов испытаний, выполненных испытательными центрами (лабораториями), аккредитованными в национальных системах аккредитации страны изготовителя (ГОСТ Р 50.04.08-2019)."
+Контекст: {context_str}
+Вопрос: {query_str}
+Ответ:
+"""

rag_files/.cache/huggingface/.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ *

requirements.txt ADDED Viewed

	@@ -0,0 +1,12 @@

+gradio
+faiss-cpu
+sentence-transformers
+google-generativeai
+huggingface_hub
+llama-index
+llama-index-core
+llama-index-embeddings-huggingface
+llama-index-llms-google-genai
+llama-index-llms-openai
+llama-index-vector-stores-faiss
+llama-index-retrievers-bm25