Spaces:

Wplotnikow
/

TeacherChat

Sleeping

App Files Files Community

Wplotnikow commited on Aug 20, 2025

Commit

bf2aee6

verified ·

1 Parent(s): 4f47efe

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -21

app.py CHANGED Viewed

@@ -7,7 +7,6 @@ from sklearn.metrics.pairwise import cosine_similarity
 import torch
 from transformers import T5ForConditionalGeneration, T5Tokenizer
-# 1. Получение текстов из абзацев и таблиц .docx
 def get_blocks_from_docx():
     docx_list = glob.glob("*.docx")
     if not docx_list:
@@ -25,7 +24,6 @@ def get_blocks_from_docx():
             row_text = " | ".join(cell.text.strip() for cell in row.cells if cell.text.strip())
             if row_text:
                 blocks.append(row_text)
-    # Удаляем дубли
     seen = set()
     uniq_blocks = []
     for b in blocks:
@@ -38,7 +36,6 @@ blocks = get_blocks_from_docx()
 vectorizer = TfidfVectorizer().fit(blocks)
 matrix = vectorizer.transform(blocks)
-# 2. Загрузка модели rut5-base-multitask
 tokenizer = T5Tokenizer.from_pretrained("cointegrated/rut5-base-multitask")
 model = T5ForConditionalGeneration.from_pretrained("cointegrated/rut5-base-multitask")
 model.eval()
@@ -48,32 +45,24 @@ def rut5_answer(question, context):
     prompt = f"question: {question} context: {context}"
     input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
     with torch.no_grad():
-        output_ids = model.generate(input_ids, max_length=200, num_beams=4)
     return tokenizer.decode(output_ids[0], skip_special_tokens=True)
-# 3. Комбинированная функция: поиск + генерация
 def ask_chatbot(question):
     if not question.strip():
         return "Пожалуйста, введите вопрос."
     if len(blocks) < 2:
         return "Ошибка: база знаний пуста или слишком мала. Проверьте .docx."
-    # Находим релевантный абзац
     user_vec = vectorizer.transform([question])
     sims = cosine_similarity(user_vec, matrix)[0]
-    best_idx = sims.argmax()
-    best_block = blocks[best_idx]
-    score = sims[best_idx]
-    if score < 0.12:
-        context = ""
-    else:
-        context = best_block
-    # Генерируем нейросетевой ответ на русском с учетом найденного контекста
     answer = rut5_answer(question, context)
-    # Для большей прозрачности покажем также фрагмент из документа (можно убрать)
-    if context:
-        return f"**Ответ:** {answer}\n\n---\n**Релевантный фрагмент из документа:**\n{context}"
-    else:
-        return f"**Ответ:** {answer}\n\n(Контекст в документе не найден — ответ дан на основе общего знания модели.)"
 EXAMPLES = [
     "Какие требования к объему магистерской диссертации?",
@@ -89,7 +78,7 @@ with gr.Blocks() as demo:
         """
         # Русскоязычный FAQ-чат-бот на базе вашей методички и нейросетевой модели
-        Задайте вопрос — получайте свежий AI-ответ, опирающийся на ваш документ!
         """
     )
     question = gr.Textbox(label="Ваш вопрос", lines=2)
@@ -98,7 +87,8 @@ with gr.Blocks() as demo:
     ask_btn.click(ask_chatbot, question, answer)
     question.submit(ask_chatbot, question, answer)
     gr.Markdown("#### Примеры вопросов:")
-    gr.Examples(EXAMPLES, inputs=question)
     gr.Markdown("""
     ---

 import torch
 from transformers import T5ForConditionalGeneration, T5Tokenizer
 def get_blocks_from_docx():
     docx_list = glob.glob("*.docx")
     if not docx_list:
             row_text = " | ".join(cell.text.strip() for cell in row.cells if cell.text.strip())
             if row_text:
                 blocks.append(row_text)
     seen = set()
     uniq_blocks = []
     for b in blocks:
 vectorizer = TfidfVectorizer().fit(blocks)
 matrix = vectorizer.transform(blocks)
 tokenizer = T5Tokenizer.from_pretrained("cointegrated/rut5-base-multitask")
 model = T5ForConditionalGeneration.from_pretrained("cointegrated/rut5-base-multitask")
 model.eval()
     prompt = f"question: {question} context: {context}"
     input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
     with torch.no_grad():
+        output_ids = model.generate(input_ids, max_length=250, num_beams=4, min_length=40, no_repeat_ngram_size=3)
     return tokenizer.decode(output_ids[0], skip_special_tokens=True)
 def ask_chatbot(question):
     if not question.strip():
         return "Пожалуйста, введите вопрос."
     if len(blocks) < 2:
         return "Ошибка: база знаний пуста или слишком мала. Проверьте .docx."
+    # Берём ТРИ лучших блока для большего контекста (больше данных для генерации)
     user_vec = vectorizer.transform([question])
     sims = cosine_similarity(user_vec, matrix)[0]
+    top_idxs = sims.argsort()[-3:][::-1]
+    context = " ".join([blocks[i] for i in top_idxs if sims[i] > 0.08])
     answer = rut5_answer(question, context)
+    # Проверяем: выдаём только развёрнутые (2 предложения и более) или повторяем часть исходника как расширение
+    if len(answer.split('.')) < 2:
+        answer += "\n\n" + context
+    return answer
 EXAMPLES = [
     "Какие требования к объему магистерской диссертации?",
         """
         # Русскоязычный FAQ-чат-бот на базе вашей методички и нейросетевой модели
+        Задайте вопрос — получите развернутый AI-ответ на русском языке на основании вашего документа!
         """
     )
     question = gr.Textbox(label="Ваш вопрос", lines=2)
     ask_btn.click(ask_chatbot, question, answer)
     question.submit(ask_chatbot, question, answer)
     gr.Markdown("#### Примеры вопросов:")
+    for ex in EXAMPLES:
+        gr.Markdown(f"- {ex}")
     gr.Markdown("""
     ---