Spaces:

uyen13
/

chatbot

Sleeping

App Files Files Community

uyen13 commited on May 12, 2025

Commit

c1244e1

verified ·

1 Parent(s): dc7d59a

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -25

app.py CHANGED Viewed

@@ -1,57 +1,60 @@
 # app.py
-from langchain.document_loaders import PyPDFLoader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.embeddings import SentenceTransformerEmbeddings
-from langchain_community.embeddings import HuggingFaceEmbeddings
-from langchain.vectorstores import FAISS
 from langchain.chains import RetrievalQA
-from langchain.llms import HuggingFacePipeline
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
-import streamlit as st
-import tempfile
-# Load FLAN-T5 model
 model_name = "google/flan-t5-base"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
-pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, max_length=512)
-llm = HuggingFacePipeline(pipeline=pipe)
-# Streamlit UI
-st.title("Chat with PDF (FLAN-T5, no OpenAI)")
-uploaded_file = st.file_uploader("Upload a PDF", type="pdf")
 if uploaded_file:
     with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
         tmp_file.write(uploaded_file.read())
         pdf_path = tmp_file.name
-    # Load PDF
     loader = PyPDFLoader(pdf_path)
     documents = loader.load()
-    # Split text
     splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     docs = splitter.split_documents(documents)
-    # Embed & Store
-    embedding = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
-    db = FAISS.from_documents(docs, embedding)
-    retriever = db.as_retriever()
-    # RetrievalQA chain
-    qa_chain = RetrievalQA.from_chain_type(
         llm=llm,
         chain_type="stuff",
         retriever=retriever,
         return_source_documents=True
     )
-    # Chat input
-    query = st.text_input("Ask a question about the PDF:")
     if query:
-        result = qa_chain(query)
-        st.write("### Answer:")
         st.write(result["result"])

 # app.py
+import streamlit as st
+import tempfile
+from langchain_community.document_loaders import PyPDFLoader
 from langchain.text_splitter import CharacterTextSplitter
+from langchain_community.vectorstores import FAISS
 from langchain.embeddings import SentenceTransformerEmbeddings
 from langchain.chains import RetrievalQA
+from langchain_huggingface import HuggingFacePipeline
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
+# Khai báo model HuggingFace LLM
 model_name = "google/flan-t5-base"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+text2text_gen = pipeline("text2text-generation", model=model, tokenizer=tokenizer, max_length=512)
+llm = HuggingFacePipeline(pipeline=text2text_gen)
+st.title("Chat với PDF (LangChain + HuggingFace + FAISS)")
+uploaded_file = st.file_uploader("Tải lên file PDF", type="pdf")
 if uploaded_file:
     with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
         tmp_file.write(uploaded_file.read())
         pdf_path = tmp_file.name
+    # Load văn bản từ PDF
     loader = PyPDFLoader(pdf_path)
     documents = loader.load()
+    # Chia nhỏ văn bản
     splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     docs = splitter.split_documents(documents)
+    # Embedding và FAISS index
+    embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
+    vectorstore = FAISS.from_documents(docs, embeddings)
+    retriever = vectorstore.as_retriever()
+    # Tạo RetrievalQA
+    qa = RetrievalQA.from_chain_type(
         llm=llm,
         chain_type="stuff",
         retriever=retriever,
         return_source_documents=True
     )
+    # Hỏi đáp
+    query = st.text_input("Nhập câu hỏi về PDF:")
     if query:
+        result = qa.invoke({"query": query})
+        st.markdown("### Câu trả lời:")
         st.write(result["result"])
+        with st.expander("📄 Nguồn tham chiếu"):
+            for doc in result["source_documents"]:
+                st.markdown(doc.page_content[:1000] + ("..." if len(doc.page_content) > 1000 else ""))