Spaces:

Wplotnikow
/

vkr-assistant

Build error

App Files Files Community

Wplotnikow commited on Aug 20, 2025

Commit

21b6cd8

verified ·

1 Parent(s): 192643b

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -58

app.py CHANGED Viewed

@@ -4,15 +4,11 @@ import nltk
 from huggingface_hub import login
 import gradio as gr
-# ШАГ 1: Гарантированная загрузка необходимого компонента NLTK
 try:
-    print("Проверяем наличие NLTK компонента 'punkt'...")
     nltk.data.find('tokenizers/punkt')
-    print("'punkt' уже на месте.")
 except LookupError:
-    print("Компонент 'punkt' не найден. Запускаю принудительную загрузку...")
-    nltk.download('punkt', quiet=False)
-    print("Загрузка 'punkt' завершена.")
 from langchain_community.document_loaders import UnstructuredWordDocumentLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
@@ -21,90 +17,76 @@ from langchain_community.vectorstores import FAISS
 from langchain.chains import RetrievalQA
 from langchain_huggingface import HuggingFaceEndpoint
-# --- Константы и настройки ---
-DOCX_FILE_PATH = "" # Путь будет определен автоматически
 FAISS_INDEX_PATH = "faiss_index"
 MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"
-REPO_ID = "mistralai/Mistral-7B-Instruct-v0.2"
-# --- ШАГ 2: Автоматическое создание базы знаний ---
-def create_vector_db_if_not_exists():
-    if os.path.exists(FAISS_INDEX_PATH):
-        print(f"База знаний найдена в '{FAISS_INDEX_PATH}'. Пропускаю создание.")
-        global DOCX_FILE_PATH
-        # Если база есть, все равно найдем имя файла для отображения в интерфейсе
         docx_files = glob.glob("*.docx")
         if docx_files:
             DOCX_FILE_PATH = docx_files[0]
-        return
-    print("База знаний не найдена. Запускаю процесс создания...")
-    docx_files = glob.glob("*.docx")
-    if not docx_files:
-        raise FileNotFoundError("Ошибка: Не найден .docx файл в репозитории. Пожалуйста, загрузите ваш документ.")
-    DOCX_FILE_PATH = docx_files[0]
-    print(f"Найден документ для обработки: {DOCX_FILE_PATH}")
-    loader = UnstructuredWordDocumentLoader(DOCX_FILE_PATH)
-    documents = loader.load()
-    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
-    docs = text_splitter.split_documents(documents)
-    print(f"Документ разделен на {len(docs)} частей.")
-    embeddings = HuggingFaceEmbeddings(model_name=MODEL_NAME)
-    db = FAISS.from_documents(docs, embeddings)
-    db.save_local(FAISS_INDEX_PATH)
-    print(f"База знаний успешно создана и сохранена в '{FAISS_INDEX_PATH}'.")
-# --- ШАГ 3: Загрузка AI и настройка логики чат-бота ---
 def initialize_qa_chain():
     HF_TOKEN = os.environ.get("HUGGINGFACEHUB_API_TOKEN")
     if not HF_TOKEN:
-        raise ValueError("Секрет 'HUGGINGFACEHUB_API_TOKEN' не найден. Пожалуйста, добавьте его в настройках Space.")
     login(token=HF_TOKEN)
-    print("Успешная аутентификация по токену.")
     embeddings = HuggingFaceEmbeddings(model_name=MODEL_NAME)
     db = FAISS.load_local(FAISS_INDEX_PATH, embeddings, allow_dangerous_deserialization=True)
     llm = HuggingFaceEndpoint(
         repo_id=REPO_ID,
-        temperature=0.3,
         max_new_tokens=512,
         repetition_penalty=1.1,
         huggingfacehub_api_token=HF_TOKEN
     )
-    qa_chain = RetrievalQA.from_chain_type(
         llm=llm,
         chain_type="stuff",
-        retriever=db.as_retriever(search_kwargs={"k": 3}),
-        return_source_documents=True
     )
-    print("Цепочка QA успешно инициализирована.")
-    return qa_chain
 # --- Основной код ---
-create_vector_db_if_not_exists()
 qa_chain = initialize_qa_chain()
 def chatbot_response(message, history):
-    response = qa_chain.invoke({"query": message})
     return response["result"]
-# --- ШАГ 4: Создание веб-интерфейса (ИСПРАВЛЕННАЯ ВЕРСИЯ) ---
 with gr.Blocks(theme='gradio/soft', title="AI-Ассистент по ВКР") as demo:
     gr.Markdown("# 🤖 AI-Ассистент по вопросам ВКР")
-    gr.Markdown(f"Этот бот отвечает на вопросы на основе документа: **{os.path.basename(DOCX_FILE_PATH)}**.")
-    # В новой версии Gradio параметры кнопок встроены по умолчанию.
-    # Просто убираем лишние аргументы, и все заработает.
     gr.ChatInterface(
         fn=chatbot_response,
         title=None,
@@ -117,5 +99,4 @@ with gr.Blocks(theme='gradio/soft', title="AI-Ассистент по ВКР") a
         ]
     )
-# Запуск приложения
 demo.launch()

 from huggingface_hub import login
 import gradio as gr
+# --- Загрузка NLTK ---
 try:
     nltk.data.find('tokenizers/punkt')
 except LookupError:
+    nltk.download('punkt', quiet=True)
 from langchain_community.document_loaders import UnstructuredWordDocumentLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.chains import RetrievalQA
 from langchain_huggingface import HuggingFaceEndpoint
+# --- Константы ---
 FAISS_INDEX_PATH = "faiss_index"
 MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"
+REPO_ID = "google/flan-t5-large"
+DOCX_FILE_PATH = ""
+# --- Создание базы знаний ---
+def create_vector_db():
+    global DOCX_FILE_PATH
+    if not os.path.exists(FAISS_INDEX_PATH):
+        print("База знаний не найдена. Создаю новую...")
+        docx_files = glob.glob("*.docx")
+        if not docx_files:
+            raise FileNotFoundError("Ошибка: Не найден .docx файл.")
+        DOCX_FILE_PATH = docx_files[0]
+        loader = UnstructuredWordDocumentLoader(DOCX_FILE_PATH)
+        documents = loader.load()
+        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
+        docs = text_splitter.split_documents(documents)
+        embeddings = HuggingFaceEmbeddings(model_name=MODEL_NAME)
+        db = FAISS.from_documents(docs, embeddings)
+        db.save_local(FAISS_INDEX_PATH)
+        print("База знаний создана.")
+    else:
+        print("База знаний найдена.")
         docx_files = glob.glob("*.docx")
         if docx_files:
             DOCX_FILE_PATH = docx_files[0]
+# --- Инициализация QA ---
 def initialize_qa_chain():
     HF_TOKEN = os.environ.get("HUGGINGFACEHUB_API_TOKEN")
     if not HF_TOKEN:
+        raise ValueError("Не найден HUGGINGFACEHUB_API_TOKEN.")
     login(token=HF_TOKEN)
     embeddings = HuggingFaceEmbeddings(model_name=MODEL_NAME)
     db = FAISS.load_local(FAISS_INDEX_PATH, embeddings, allow_dangerous_deserialization=True)
     llm = HuggingFaceEndpoint(
         repo_id=REPO_ID,
         max_new_tokens=512,
+        temperature=0.3,
         repetition_penalty=1.1,
         huggingfacehub_api_token=HF_TOKEN
     )
+    return RetrievalQA.from_chain_type(
         llm=llm,
         chain_type="stuff",
+        retriever=db.as_retriever(search_kwargs={"k": 3})
     )
 # --- Основной код ---
+create_vector_db()
 qa_chain = initialize_qa_chain()
 def chatbot_response(message, history):
+    response = qa_chain.invoke(message)
     return response["result"]
+# --- Интерфейс ---
 with gr.Blocks(theme='gradio/soft', title="AI-Ассистент по ВКР") as demo:
     gr.Markdown("# 🤖 AI-Ассистент по вопросам ВКР")
+    if DOCX_FILE_PATH:
+        gr.Markdown(f"Бот отвечает на вопросы на основе документа: **{os.path.basename(DOCX_FILE_PATH)}**.")
     gr.ChatInterface(
         fn=chatbot_response,
         title=None,
         ]
     )
 demo.launch()