Spaces:

uyen13
/

chatbot

Sleeping

App Files Files Community

uyen13 commited on May 14, 2025

Commit

991d23a

verified ·

1 Parent(s): 3ca3d47

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -32

app.py CHANGED Viewed

@@ -7,12 +7,12 @@ from langchain.vectorstores import FAISS
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
-import os
 import torch
 @st.cache_resource
 def load_llm():
-    model_name = "google/flan-t5-xl"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForSeq2SeqLM.from_pretrained(
@@ -26,17 +26,19 @@ def load_llm():
         model=model,
         tokenizer=tokenizer,
         max_new_tokens=512,
-        temperature=0.6,
         top_k=50,
-        top_p=0.85,
         repetition_penalty=1.2,
-        num_beams=3,
         early_stopping=True,
         do_sample=True
     )
     return HuggingFacePipeline(pipeline=pipe)
 def process_pdf(pdf_path):
     loader = PyPDFLoader(pdf_path)
     documents = loader.load()
@@ -48,37 +50,15 @@ def process_pdf(pdf_path):
     )
     texts = text_splitter.split_documents(documents)
-    # Sử dụng model embedding đa ngôn ngữ
     embeddings = SentenceTransformerEmbeddings(model_name="paraphrase-multilingual-mpnet-base-v2")
     vectorstore = FAISS.from_documents(texts, embeddings)
     return vectorstore
-def postprocess_answer(answer):
-    # Thay thế các cụm từ không tự nhiên trong tiếng Nhật
-    replacements = {
-        "the context": "ドキュメント",
-        "according to the document": "文書によりますと",
-        "it is stated that": "記載されている内容では",
-        "the answer is": "答えは",
-        "based on the information": "提供された情報に基づきますと"
-    }
-    for eng, jp in replacements.items():
-        answer = answer.replace(eng, jp)
-    # Chuẩn hóa định dạng tiếng Nhật
-    answer = answer.strip()
-    if answer and len(answer) > 0:
-        answer = answer[0].upper() + answer[1:]
-    # Kiểm tra câu trả lời ngắn
-    if len(answer.split()) < 4:
-        answer = "情報が不足しているようです。 " + answer
-    return answer
-# Prompt template tiếng Nhật
-template = """以下の内容に基づいて質問に自然な日本語で回答してください:
 {context}
 質問: {question}
@@ -89,6 +69,30 @@ QA_PROMPT = PromptTemplate(
     input_variables=["context", "question"]
 )
 def main():
     st.set_page_config(page_title="PDFアシスタント", page_icon="📘")
     st.title("PDFアシスタント 🤖")
@@ -139,5 +143,6 @@ def main():
     else:
         st.info("PDFファイルをアップロードしてください")
 if __name__ == "__main__":
     main()

 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
 import torch
+# --- Load mô hình ngôn ngữ ---
 @st.cache_resource
 def load_llm():
+    model_name = "google/flan-t5-xl"  # Có thể thay bằng google/flan-ul2 hoặc mistralai/Mistral-7B-Instruct-v0.2 nếu có GPU
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForSeq2SeqLM.from_pretrained(
         model=model,
         tokenizer=tokenizer,
         max_new_tokens=512,
+        temperature=0.7,
+        top_p=0.9,
         top_k=50,
         repetition_penalty=1.2,
+        num_beams=4,
         early_stopping=True,
         do_sample=True
     )
     return HuggingFacePipeline(pipeline=pipe)
+# --- Xử lý file PDF ---
 def process_pdf(pdf_path):
     loader = PyPDFLoader(pdf_path)
     documents = loader.load()
     )
     texts = text_splitter.split_documents(documents)
     embeddings = SentenceTransformerEmbeddings(model_name="paraphrase-multilingual-mpnet-base-v2")
     vectorstore = FAISS.from_documents(texts, embeddings)
     return vectorstore
+# --- Tiền xử lý prompt và hậu xử lý câu trả lời ---
+template = """以下の文書情報をもとに、質問に自然で丁寧な日本語で回答してください。できるだけ具体的に、例を挙げて分かりやすく説明してください。
+文書情報:
 {context}
 質問: {question}
     input_variables=["context", "question"]
 )
+def postprocess_answer(answer):
+    answer = answer.strip()
+    # Loại bỏ phần đầu không cần thiết
+    if "Answer:" in answer:
+        answer = answer.split("Answer:")[-1].strip()
+    # Thêm dấu chấm cuối câu nếu thiếu
+    if answer and answer[-1] not in "。.?！":
+        answer += "。"
+    # Viết hoa chữ cái đầu tiên
+    if len(answer) > 0:
+        answer = answer[0].upper() + answer[1:]
+    # Kiểm tra xem câu có quá ngắn không
+    if len(answer.split()) < 3:
+        answer = "ご参考までに、提供された資料にはその点についての詳細な記載が見受けられませんが、" + answer
+    return answer
+# --- Giao diện chính của ứng dụng ---
 def main():
     st.set_page_config(page_title="PDFアシスタント", page_icon="📘")
     st.title("PDFアシスタント 🤖")
     else:
         st.info("PDFファイルをアップロードしてください")
 if __name__ == "__main__":
     main()