Spaces:

Muthuraja18
/

Chatbot

Sleeping

App Files Files Community

Update app.py

#13

by Muthuraja18 - opened Apr 26

base: refs/heads/main

←

from: refs/pr/13

Discussion Files changed

+35

-98

Files changed (1) hide show

app.py +35 -98

app.py CHANGED Viewed

@@ -1,48 +1,31 @@
 import streamlit as st
-import tempfile
-import os
 from langchain_community.document_loaders import PyPDFLoader, TextLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.embeddings import HuggingFaceEmbeddings
-from langchain.vectorstores import FAISS
-from langchain.llms import HuggingFacePipeline
-from langchain.chains import RetrievalQA
-from langchain.prompts import PromptTemplate
-from transformers.pipelines import pipeline
-# -------------------------------
-# Page Config
-# -------------------------------
-st.set_page_config(page_title="RAG Chatbot", layout="wide")
-st.title("📄 Chat with Your Documents (RAG)")
-st.write("🚀 App started successfully")
 # -------------------------------
 # Load Documents
 # -------------------------------
 def load_documents(uploaded_files):
     documents = []
     for file in uploaded_files:
-        file_extension = os.path.splitext(file.name)[1]
-        with tempfile.NamedTemporaryFile(delete=False, suffix=file_extension) as tmp:
-            tmp.write(file.getbuffer())
-            temp_path = tmp.name
-        try:
-            if file_extension.lower() == ".pdf":
-                loader = PyPDFLoader(temp_path)
-            else:
-                loader = TextLoader(temp_path)
-            documents.extend(loader.load())
-        except Exception as e:
-            st.error(f"❌ Error loading file: {e}")
     return documents
@@ -57,112 +40,66 @@ def split_documents(documents):
     return splitter.split_documents(documents)
-# -------------------------------
-# Cached Embeddings
-# -------------------------------
-@st.cache_resource
-def get_embeddings():
-    return HuggingFaceEmbeddings(
-        model_name="sentence-transformers/all-MiniLM-L6-v2"
-    )
 # -------------------------------
 # Create Vector Store
 # -------------------------------
 def create_vectorstore(chunks):
-    embeddings = get_embeddings()
     return FAISS.from_documents(chunks, embeddings)
 # -------------------------------
-# Cached LLM
 # -------------------------------
-@st.cache_resource
 def load_llm():
     pipe = pipeline(
-        "text2text-generation",
-        model="google/flan-t5-small",
-        max_length=256
     )
     return HuggingFacePipeline(pipeline=pipe)
 # -------------------------------
-# Custom Prompt (IMPORTANT)
-# -------------------------------
-prompt_template = """
-Use the following context to answer the question clearly.
-Context:
-{context}
-Question:
-{question}
-Answer:
-"""
-PROMPT = PromptTemplate(
-    template=prompt_template,
-    input_variables=["context", "question"]
-)
-# -------------------------------
-# Build QA Chain
 # -------------------------------
 def build_qa(vectorstore):
     llm = load_llm()
-    retriever = vectorstore.as_retriever(
-        search_kwargs={"k": 3}   # 🔥 improves answer quality
-    )
     qa = RetrievalQA.from_chain_type(
         llm=llm,
-        retriever=retriever,
-        chain_type_kwargs={"prompt": PROMPT},
-        return_source_documents=False
     )
     return qa
 # -------------------------------
-# UI - Upload
 # -------------------------------
 uploaded_files = st.file_uploader(
     "Upload PDF or TXT files",
     accept_multiple_files=True
 )
 if uploaded_files:
-    with st.spinner("📄 Processing documents..."):
         docs = load_documents(uploaded_files)
-        if not docs:
-            st.error("❌ No valid documents loaded.")
-            st.stop()
         chunks = split_documents(docs)
         vectorstore = create_vectorstore(chunks)
         qa_chain = build_qa(vectorstore)
-    st.success("✅ Documents ready!")
-    # -------------------------------
-    # User Query
-    # -------------------------------
-    query = st.text_input("💬 Ask a question from your documents")
     if query:
-        with st.spinner("🤖 Generating answer..."):
-            try:
-                result = qa_chain.run(query)
-                st.markdown("### 🧠 Answer:")
-                st.write(result)
-            except Exception as e:
-                st.error(f"❌ Error generating answer: {e}")

 import streamlit as st
+# ✅ Correct imports (new structure)
 from langchain_community.document_loaders import PyPDFLoader, TextLoader
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.vectorstores import FAISS
+from langchain_community.llms import HuggingFacePipeline
+from langchain.chains import RetrievalQA
+from transformers import pipeline
 # -------------------------------
 # Load Documents
 # -------------------------------
 def load_documents(uploaded_files):
     documents = []
     for file in uploaded_files:
+        with open(file.name, "wb") as f:
+            f.write(file.getbuffer())
+        if file.name.endswith(".pdf"):
+            loader = PyPDFLoader(file.name)
+        else:
+            loader = TextLoader(file.name)
+        documents.extend(loader.load())
     return documents
     return splitter.split_documents(documents)
 # -------------------------------
 # Create Vector Store
 # -------------------------------
 def create_vectorstore(chunks):
+    embeddings = HuggingFaceEmbeddings(
+        model_name="sentence-transformers/all-MiniLM-L6-v2"
+    )
     return FAISS.from_documents(chunks, embeddings)
 # -------------------------------
+# Load Local LLM (FREE)
 # -------------------------------
 def load_llm():
     pipe = pipeline(
+        "text2text-generation",   # ✅ FIXED
+        model="google/flan-t5-base",
+        max_length=512
     )
     return HuggingFacePipeline(pipeline=pipe)
 # -------------------------------
+# Build QA Chain (with strict prompt)
 # -------------------------------
 def build_qa(vectorstore):
     llm = load_llm()
+    retriever = vectorstore.as_retriever()
     qa = RetrievalQA.from_chain_type(
         llm=llm,
+        retriever=retriever
     )
     return qa
 # -------------------------------
+# Streamlit UI
 # -------------------------------
+st.set_page_config(page_title="RAG Chatbot", layout="wide")
+st.title("📄 Chat with Your Documents (RAG)")
 uploaded_files = st.file_uploader(
     "Upload PDF or TXT files",
     accept_multiple_files=True
 )
 if uploaded_files:
+    with st.spinner("Processing documents..."):
         docs = load_documents(uploaded_files)
         chunks = split_documents(docs)
         vectorstore = create_vectorstore(chunks)
         qa_chain = build_qa(vectorstore)
+    st.success("Documents ready!")
+    query = st.text_input("Ask a question from your documents")
     if query:
+        with st.spinner("Generating answer..."):
+            result = qa_chain.run(query)
+            st.write("### Answer:")
+            st.write(result)