Spaces:

Muthuraja18
/

Chatbot

Sleeping

App Files Files Community

Update app.py

#18

by Muthuraja18 - opened Apr 26

base: refs/heads/main

←

from: refs/pr/18

Discussion Files changed

+99

-59

Files changed (1) hide show

app.py +99 -59

app.py CHANGED Viewed

@@ -2,28 +2,41 @@ import streamlit as st
 import pandas as pd
 import os
-# LangChain
 from langchain_community.document_loaders import PyPDFLoader, TextLoader
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain.chains import RetrievalQA
-# Local LLM
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
 from langchain_community.llms import HuggingFacePipeline
-# Charts
 import plotly.express as px
 # -------------------------------
-# CONFIG
 # -------------------------------
 st.set_page_config(page_title="Offline GPT RAG", layout="wide")
-st.title("🤖 Offline ChatGPT-like RAG + 📊 Dashboard")
 # -------------------------------
-# CACHE MODEL (IMPORTANT ⚡)
 # -------------------------------
 @st.cache_resource
 def load_llm():
@@ -42,9 +55,9 @@ def load_llm():
     return HuggingFacePipeline(pipeline=pipe)
 # -------------------------------
-# LOAD DOCS
 # -------------------------------
-def load_docs(files):
     docs = []
     stats = []
@@ -58,26 +71,26 @@ def load_docs(files):
         if file.name.endswith(".pdf"):
             loader = PyPDFLoader(path)
-            ftype = "PDF"
         else:
             loader = TextLoader(path)
-            ftype = "TXT"
-        loaded = loader.load()
-        docs.extend(loaded)
         stats.append({
             "File": file.name,
-            "Type": ftype,
-            "Pages": len(loaded)
         })
     return docs, pd.DataFrame(stats)
 # -------------------------------
-# SPLIT
 # -------------------------------
-def split_docs(docs):
     splitter = RecursiveCharacterTextSplitter(
         chunk_size=400,
         chunk_overlap=50
@@ -87,43 +100,42 @@ def split_docs(docs):
 # -------------------------------
 # VECTOR STORE
 # -------------------------------
-@st.cache_resource
-def load_embeddings():
-    return HuggingFaceEmbeddings(
-        model_name="sentence-transformers/all-MiniLM-L6-v2"
-    )
 def create_vectorstore(chunks):
-    return FAISS.from_documents(chunks, load_embeddings())
 # -------------------------------
-# QA CHAIN (BETTER PROMPT)
 # -------------------------------
 def build_qa(vs):
     llm = load_llm()
-    prompt_template = """
-    You are an intelligent assistant.
-    Answer ONLY from the provided context.
-    If the answer is not in the context, say "Not found in document".
-    Context:
-    {context}
-    Question:
-    {question}
-    Answer:
-    """
     return RetrievalQA.from_chain_type(
         llm=llm,
         retriever=vs.as_retriever(search_kwargs={"k": 3}),
-        chain_type_kwargs={"prompt": prompt_template}
     )
 # -------------------------------
-# SESSION
 # -------------------------------
 if "qa" not in st.session_state:
     st.session_state.qa = None
@@ -132,56 +144,84 @@ if "history" not in st.session_state:
     st.session_state.history = []
 # -------------------------------
-# UPLOAD
 # -------------------------------
-files = st.file_uploader("Upload PDF/TXT", accept_multiple_files=True)
 # -------------------------------
-# PROCESS
 # -------------------------------
 if files and st.session_state.qa is None:
-    with st.spinner("Processing..."):
-        docs, df = load_docs(files)
-        chunks = split_docs(docs)
         vs = create_vectorstore(chunks)
         qa = build_qa(vs)
         st.session_state.qa = qa
         st.session_state.df = df
-        st.session_state.doc_count = len(docs)
-        st.session_state.chunk_count = len(chunks)
-    st.success("✅ Ready!")
 # -------------------------------
 # DASHBOARD
 # -------------------------------
 if st.session_state.qa:
-    st.subheader("📊 Analytics")
     df = st.session_state.df
-    st.metric("Docs", st.session_state.doc_count)
-    st.metric("Chunks", st.session_state.chunk_count)
-    st.plotly_chart(px.bar(df, x="File", y="Pages", color="Type"))
-    st.plotly_chart(px.pie(df, names="Type"))
 # -------------------------------
-# CHAT
 # -------------------------------
 query = st.text_input("Ask your question")
 if query and st.session_state.qa:
-    result = st.session_state.qa.invoke({"query": query})
-    answer = result["result"]
-    st.session_state.history.append((query, answer))
 # -------------------------------
-# HISTORY
 # -------------------------------
-for q, a in reversed(st.session_state.history):
-    st.markdown(f"**Q:** {q}")
-    st.markdown(f"**A:** {a}")
-    st.markdown("---")

 import pandas as pd
 import os
+# -------------------------------
+# LANGCHAIN IMPORTS (NEW STYLE)
+# -------------------------------
 from langchain_community.document_loaders import PyPDFLoader, TextLoader
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain.chains import RetrievalQA
+from langchain.prompts import PromptTemplate
+# Local LLM (NO API, NO TRANSFORMERS PIPELINE)
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
 from langchain_community.llms import HuggingFacePipeline
+# Dashboard
 import plotly.express as px
 # -------------------------------
+# STREAMLIT CONFIG
 # -------------------------------
 st.set_page_config(page_title="Offline GPT RAG", layout="wide")
+st.title("🤖 ChatGPT-like RAG (Offline) + 📊 Dashboard")
+# -------------------------------
+# CACHE EMBEDDINGS
+# -------------------------------
+@st.cache_resource
+def load_embeddings():
+    return HuggingFaceEmbeddings(
+        model_name="sentence-transformers/all-MiniLM-L6-v2"
+    )
 # -------------------------------
+# LOAD LOCAL LLM (STABLE FIX)
 # -------------------------------
 @st.cache_resource
 def load_llm():
     return HuggingFacePipeline(pipeline=pipe)
 # -------------------------------
+# LOAD DOCUMENTS
 # -------------------------------
+def load_documents(files):
     docs = []
     stats = []
         if file.name.endswith(".pdf"):
             loader = PyPDFLoader(path)
+            file_type = "PDF"
         else:
             loader = TextLoader(path)
+            file_type = "TXT"
+        loaded_docs = loader.load()
+        docs.extend(loaded_docs)
         stats.append({
             "File": file.name,
+            "Type": file_type,
+            "Pages": len(loaded_docs)
         })
     return docs, pd.DataFrame(stats)
 # -------------------------------
+# SPLIT DOCUMENTS
 # -------------------------------
+def split_documents(docs):
     splitter = RecursiveCharacterTextSplitter(
         chunk_size=400,
         chunk_overlap=50
 # -------------------------------
 # VECTOR STORE
 # -------------------------------
 def create_vectorstore(chunks):
+    embeddings = load_embeddings()
+    return FAISS.from_documents(chunks, embeddings)
 # -------------------------------
+# QA CHAIN (FIXED PROMPT ERROR)
 # -------------------------------
 def build_qa(vs):
     llm = load_llm()
+    prompt = PromptTemplate(
+        template="""
+You are an intelligent assistant.
+Answer ONLY using the given context.
+If answer is not found, say "Not found in document".
+Context:
+{context}
+Question:
+{question}
+Answer:
+""",
+        input_variables=["context", "question"]
+    )
     return RetrievalQA.from_chain_type(
         llm=llm,
         retriever=vs.as_retriever(search_kwargs={"k": 3}),
+        chain_type="stuff",
+        chain_type_kwargs={"prompt": prompt}
     )
 # -------------------------------
+# SESSION STATE
 # -------------------------------
 if "qa" not in st.session_state:
     st.session_state.qa = None
     st.session_state.history = []
 # -------------------------------
+# UPLOAD FILES
 # -------------------------------
+files = st.file_uploader(
+    "Upload PDF / TXT files",
+    accept_multiple_files=True
+)
 # -------------------------------
+# PROCESS PIPELINE
 # -------------------------------
 if files and st.session_state.qa is None:
+    with st.spinner("Processing documents..."):
+        docs, df = load_documents(files)
+        chunks = split_documents(docs)
         vs = create_vectorstore(chunks)
         qa = build_qa(vs)
         st.session_state.qa = qa
         st.session_state.df = df
+        st.session_state.docs = len(docs)
+        st.session_state.chunks = len(chunks)
+    st.success("✅ Ready! Ask questions now.")
 # -------------------------------
 # DASHBOARD
 # -------------------------------
 if st.session_state.qa:
+    st.subheader("📊 Analytics Dashboard")
     df = st.session_state.df
+    col1, col2, col3 = st.columns(3)
+    col1.metric("📄 Documents", st.session_state.docs)
+    col2.metric("🧩 Chunks", st.session_state.chunks)
+    col3.metric("📁 Files", len(df))
+    # Bar chart
+    fig1 = px.bar(df, x="File", y="Pages", color="Type", title="Pages per File")
+    st.plotly_chart(fig1, use_container_width=True)
+    # Pie chart
+    fig2 = px.pie(df, names="Type", title="File Type Distribution")
+    st.plotly_chart(fig2, use_container_width=True)
+    # Growth chart
+    growth = pd.DataFrame({
+        "Stage": ["Documents", "Chunks"],
+        "Count": [st.session_state.docs, st.session_state.chunks]
+    })
+    fig3 = px.line(growth, x="Stage", y="Count", markers=True, title="Processing Growth")
+    st.plotly_chart(fig3, use_container_width=True)
 # -------------------------------
+# CHAT SECTION
 # -------------------------------
+st.subheader("🤖 Chat with Documents")
 query = st.text_input("Ask your question")
 if query and st.session_state.qa:
+    with st.spinner("Thinking..."):
+        result = st.session_state.qa.invoke({"query": query})
+        answer = result["result"]
+        st.session_state.history.append((query, answer))
+        st.markdown("### 🧠 Answer")
+        st.write(answer)
 # -------------------------------
+# CHAT HISTORY
 # -------------------------------
+if st.session_state.history:
+    st.subheader("💬 Chat History")
+    for q, a in reversed(st.session_state.history):
+        st.markdown(f"**Q:** {q}")
+        st.markdown(f"**A:** {a}")
+        st.markdown("---")