Spaces:

Wplotnikow
/

vkr-assistant

Build error

App Files Files Community

Wplotnikow commited on Aug 20

Commit

f60d0cc

verified ·

1 Parent(s): 53d6f1a

Update app.py

Browse files

Files changed (1) hide show

app.py +124 -61

app.py CHANGED Viewed

@@ -1,72 +1,135 @@
-import gradio as gr
 import os
-import nltk # Импортируем новую библиотеку
-from langchain_community.embeddings import HuggingFaceEmbeddings
-from langchain_community.vectorstores import FAISS
-from langchain.chains import RetrievalQA
-from langchain_community.llms import HuggingFaceHub
 from huggingface_hub import login
-from langchain_community.document_loaders import UnstructuredWordDocumentLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-# --- ЗАГРУЗКА ДОПОЛНИТЕЛЬНЫХ КОМПОНЕНТОВ ДЛЯ ОБРАБОТКИ ТЕКСТА ---
-# Эти строки решают ошибку 'LookupError: Resource punkt not found'
-# Они скачивают необходимые языковые модели для разделения текста на предложения.
-nltk.download('punkt')
-# --- КОНФИГУРАЦИЯ ---
-HF_TOKEN = os.environ.get("HUGGINGFACEHUB_API_TOKEN")
-login(token=HF_TOKEN)
-EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
-LLM_REPO_ID = "mistralai/Mistral-7B-Instruct-v0.2"
 FAISS_INDEX_PATH = "faiss_index"
-SOURCE_DOCUMENT = "Правила подготовки ВКР_СУЛ_набор 2024.docx"
-# --- АВТОМАТИЧЕСКАЯ ПОДГОТОВКА БАЗЫ ЗНАНИЙ (ПРИ ПЕРВОМ ЗАПУСКЕ) ---
 def create_vector_db_if_not_exists():
-    if not os.path.exists(FAISS_INDEX_PATH):
-        print("База знаний не найдена. Запускаю процесс создания...")
-        if not os.path.exists(SOURCE_DOCUMENT):
-            raise FileNotFoundError(f"Ошибка: Файл '{SOURCE_DOCUMENT}' не найден.")
-        loader = UnstructuredWordDocumentLoader(SOURCE_DOCUMENT)
-        documents = loader.load()
-        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
-        docs = text_splitter.split_documents(documents)
-        embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL)
-        db = FAISS.from_documents(docs, embeddings)
-        db.save_local(FAISS_INDEX_PATH)
-        print(f"База знаний успешно создана.")
-    else:
-        print(f"Обнаружена существующая база знаний. Загружаю ее.")
 create_vector_db_if_not_exists()
-# --- ЗАГРУЗКА КОМПОНЕНТОВ ДЛЯ ЧАТ-БОТА ---
-embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL)
-db = FAISS.load_local(FAISS_INDEX_PATH, embeddings, allow_dangerous_deserialization=True)
-llm = HuggingFaceHub(repo_id=LLM_REPO_ID, model_kwargs={"temperature": 0.1, "max_new_tokens": 1024})
-qa_chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=db.as_retriever(search_kwargs={"k": 3}), return_source_documents=True)
-# --- ФУНКЦИЯ ДЛЯ ИНТЕРФЕЙСА ---
-def get_response(message, history):
-    prompt = f"Инструкция: Ты — вежливый и точный ассистент для студентов. Отвечай на вопрос пользователя строго на основе предоставленного контекста. Если в контексте нет ответа, вежливо сообщи, что не можешь ответить. Отвечай на русском языке. Вопрос: {message}"
-    result = qa_chain({"query": prompt})
-    return result["result"].split("Ответ:")[-1].strip()
-# --- СОЗДАНИЕ ИНТЕРФЕЙСА GRADIO ---
-demo = gr.ChatInterface(
-    fn=get_response,
-    title="🎓 Ассистент по написанию ВКР",
-    description="Задайте свой вопрос по правилам оформления, срокам или структуре выпускной квалификационной работы.",
-    examples=[
-        "Какой должен быть объем работы в страницах?",
-        "Как правильно оформить ссылку на интернет-источник?",
-        "Что делать, если таблица не помещается на одну страницу?",
-        "Какие требования к оригинальности текста?"
-    ]
-)
-if __name__ == "__main__":
-    demo.launch()

 import os
+import glob
+import nltk
 from huggingface_hub import login
+import gradio as gr
+# ШАГ 1: Гарантированная загрузка необходимого компонента NLTK
+# Эта команда выполняется в самом начале и решает ошибку 'LookupError'.
+try:
+    print("Проверяем наличие NLTK компонента 'punkt'...")
+    nltk.data.find('tokenizers/punkt')
+    print("'punkt' уже на месте.")
+except LookupError:
+    print("Компонент 'punkt' не найден. Запускаю принудительную загрузку...")
+    nltk.download('punkt', quiet=False)
+    print("Загрузка 'punkt' завершена.")
+from langchain_community.document_loaders import UnstructuredWordDocumentLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.vectorstores import FAISS
+from langchain.chains import RetrievalQA
+from langchain_huggingface import HuggingFaceEndpoint
+# --- Константы и настройки ---
+DOCX_FILE_PATH = "" # Путь будет определен автоматически
 FAISS_INDEX_PATH = "faiss_index"
+MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"
+REPO_ID = "mistralai/Mistral-7B-Instruct-v0.2"
+# --- ШАГ 2: Автоматическое создание базы знаний ---
 def create_vector_db_if_not_exists():
+    """Создает векторную базу данных, если она еще не создана."""
+    if os.path.exists(FAISS_INDEX_PATH):
+        print(f"База знаний найдена в '{FAISS_INDEX_PATH}'. Пропускаю создание.")
+        return
+    print("База знаний не найдена. Запускаю процесс создания...")
+    # Автоматически находим первый .docx файл в репозитории
+    docx_files = glob.glob("*.docx")
+    if not docx_files:
+        raise FileNotFoundError("Ошибка: Не найден .docx файл в репозитории. Пожалуйста, загрузите ваш документ.")
+    global DOCX_FILE_PATH
+    DOCX_FILE_PATH = docx_files[0]
+    print(f"Найден документ для обработки: {DOCX_FILE_PATH}")
+    # Загрузка и обработка документа
+    loader = UnstructuredWordDocumentLoader(DOCX_FILE_PATH)
+    documents = loader.load()
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
+    docs = text_splitter.split_documents(documents)
+    print(f"Документ разделен на {len(docs)} частей.")
+    # Создание эмбеддингов и сохранение базы
+    embeddings = HuggingFaceEmbeddings(model_name=MODEL_NAME)
+    db = FAISS.from_documents(docs, embeddings)
+    db.save_local(FAISS_INDEX_PATH)
+    print(f"База знаний успешно создана и сохранена в '{FAISS_INDEX_PATH}'.")
+# --- ШАГ 3: Загрузка AI и настройка логики чат-бота ---
+def initialize_qa_chain():
+    """Инициализирует и возвращает готовую к работе цепочку QA."""
+    # Проверка наличия токена
+    HF_TOKEN = os.environ.get("HUGGINGFACEHUB_API_TOKEN")
+    if not HF_TOKEN:
+        raise ValueError("Секрет 'HUGGINGFACEHUB_API_TOKEN' не найден. Пожалуйста, добавьте его в настройках Space.")
+    login(token=HF_TOKEN)
+    print("Успешная аутентификация по токену.")
+    # Загрузка векторной базы
+    embeddings = HuggingFaceEmbeddings(model_name=MODEL_NAME)
+    db = FAISS.load_local(FAISS_INDEX_PATH, embeddings, allow_dangerous_deserialization=True)
+    # Настройка языковой модели (LLM) через новый класс HuggingFaceEndpoint
+    llm = HuggingFaceEndpoint(
+        repo_id=REPO_ID,
+        temperature=0.3,
+        max_new_tokens=512,
+        repetition_penalty=1.1,
+        huggingfacehub_api_token=HF_TOKEN
+    )
+    # Создание цепочки Вопрос-Ответ
+    qa_chain = RetrievalQA.from_chain_type(
+        llm=llm,
+        chain_type="stuff",
+        retriever=db.as_retriever(search_kwargs={"k": 3}),
+        return_source_documents=True
+    )
+    print("Цепочка QA успешно инициализирована.")
+    return qa_chain
+# --- Основной код ---
 create_vector_db_if_not_exists()
+qa_chain = initialize_qa_chain()
+def chatbot_response(message, history):
+    """Основная функция для генерации ответа чат-бота."""
+    response = qa_chain.invoke({"query": message})
+    return response["result"]
+# --- ШАГ 4: Создание веб-интерфейса ---
+with gr.Blocks(theme='gradio/soft', title="AI-Ассистент по ВКР") as demo:
+    gr.Markdown("# 🤖 AI-Ассистент по вопросам ВКР")
+    gr.Markdown(f"Этот бот отвечает на вопросы на основе документа: **{os.path.basename(DOCX_FILE_PATH)}**.")
+    chatbot = gr.ChatInterface(
+        fn=chatbot_response,
+        chatbot=gr.Chatbot(height=400),
+        textbox=gr.Textbox(placeholder="Задайте свой вопрос о правилах оформления, сроках или структуре ВКР...", container=False, scale=7),
+        title=None,
+        examples=[
+            "Какие требования к объему магистерской диссертации?",
+            "Как правильно оформить список литературы?",
+            "Какие сроки сдачи и защиты ВКР в этом году?",
+            "Что должно быть во введении?",
+            "Какой процент оригинальности требуется?"
+        ],
+        clear_btn="🗑️ Очистить диалог",
+        retry_btn=None,
+        undo_btn=None,
+    )
+# Запуск приложения
+demo.launch()