Spaces:

aaporosh
/

SmartPDF_Q_A

Sleeping

App Files Files Community

aaporosh commited on Aug 20

Commit

fecb449

verified ·

1 Parent(s): d9893e1

Update app.py

Browse files

Files changed (1) hide show

app.py +62 -29

app.py CHANGED Viewed

@@ -1,60 +1,93 @@
 import streamlit as st
 import pdfplumber
-from transformers import pipeline
 import re
-# Load models once for speed
-qa_model = pipeline("question-answering", model="google/flan-t5-large", tokenizer="google/flan-t5-large")
-summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
-st.set_page_config(page_title="Smart PDF Chatbot & Summarizer", layout="wide")
-st.title("📄 Smart PDF Chatbot & Summarizer")
-# Sidebar settings
-st.sidebar.header("⚙️ Settings")
-max_length = st.sidebar.slider("Summary Length", 50, 500, 250)
-# Upload PDF
-uploaded_file = st.file_uploader("Upload your PDF", type=["pdf"])
 if uploaded_file:
     with pdfplumber.open(uploaded_file) as pdf:
         text = "\n".join([page.extract_text() for page in pdf.pages if page.extract_text()])
     if not text.strip():
-        st.error("Couldn't extract text from this PDF.")
     else:
         tabs = st.tabs(["💬 Chat with PDF", "📝 Summarize PDF", "💻 Extract Code"])
-        # Chat tab
         with tabs[0]:
             st.subheader("Ask Questions About Your PDF")
-            question = st.text_input("Enter your question:")
-            if st.button("Ask", key="qa") and question:
-                try:
-                    result = qa_model(question=question, context=text)
-                    st.success(result['answer'])
-                except Exception as e:
-                    st.error(f"Error: {e}")
-        # Summarization tab
         with tabs[1]:
-            st.subheader("PDF Summary")
             if st.button("Generate Summary", key="sum"):
                 try:
-                    summary = summarizer(text, max_length=max_length, min_length=30, do_sample=False)
-                    st.info(summary[0]['summary_text'])
                 except Exception as e:
-                    st.error(f"Error: {e}")
-        # Code extraction tab
         with tabs[2]:
-            st.subheader("Extracted Programming Code")
-            code_blocks = re.findall(r'```[a-zA-Z]*([\s\S]*?)```', text)
             if code_blocks:
                 for idx, code in enumerate(code_blocks, 1):
                     st.code(code, language="python")
             else:
                 st.warning("No code blocks found in this PDF.")
 else:
-    st.info("👆 Please upload a PDF to start.")

 import streamlit as st
 import pdfplumber
 import re
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.vectorstores import FAISS
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.chat_models import ChatOpenAI
+from langchain.chains import ConversationalRetrievalChain
+from transformers import pipeline
+# -------------------- PAGE CONFIG --------------------
+st.set_page_config(page_title="Smart PDF Chatbot", layout="wide")
+# -------------------- MODELS --------------------
+@st.cache_resource
+def load_models():
+    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
+    return embeddings, summarizer
+embeddings, summarizer = load_models()
+# -------------------- TITLE --------------------
+st.title("📄 Smart PDF Chatbot & Summarizer")
+# -------------------- UPLOAD PDF --------------------
+uploaded_file = st.file_uploader("📤 Upload your PDF file", type=["pdf"])
 if uploaded_file:
+    # Extract text from PDF
     with pdfplumber.open(uploaded_file) as pdf:
         text = "\n".join([page.extract_text() for page in pdf.pages if page.extract_text()])
     if not text.strip():
+        st.error("⚠️ Could not extract text from this PDF.")
     else:
+        # Split into chunks for better retrieval
+        splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+        chunks = splitter.split_text(text)
+        # Build vector store for retrieval
+        vector_store = FAISS.from_texts(chunks, embedding=embeddings)
+        retriever = vector_store.as_retriever()
+        # Create conversational chain with memory
+        llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
+        qa_chain = ConversationalRetrievalChain.from_llm(llm=llm, retriever=retriever)
+        # Tabs for Chat, Summary, and Code
         tabs = st.tabs(["💬 Chat with PDF", "📝 Summarize PDF", "💻 Extract Code"])
+        # -------------------- CHAT TAB --------------------
         with tabs[0]:
             st.subheader("Ask Questions About Your PDF")
+            if "chat_history" not in st.session_state:
+                st.session_state.chat_history = []
+            user_input = st.text_input("Enter your question:", key="chat_input")
+            if st.button("Send"):
+                result = qa_chain({"question": user_input, "chat_history": st.session_state.chat_history})
+                st.session_state.chat_history.append((user_input, result["answer"]))
+            for q, a in st.session_state.chat_history:
+                st.markdown(f"**You:** {q}")
+                st.markdown(f"**Bot:** {a}")
+        # -------------------- SUMMARY TAB --------------------
         with tabs[1]:
+            st.subheader("📘 PDF Summary")
             if st.button("Generate Summary", key="sum"):
                 try:
+                    # Summarize in chunks for long PDFs
+                    summaries = []
+                    for i in range(0, len(chunks), 3):
+                        chunk_text = " ".join(chunks[i:i+3])
+                        summary = summarizer(chunk_text, max_length=150, min_length=30, do_sample=False)
+                        summaries.append(summary[0]['summary_text'])
+                    final_summary = " ".join(summaries)
+                    st.info(final_summary)
                 except Exception as e:
+                    st.error(f"Summarization error: {e}")
+        # -------------------- CODE EXTRACTION TAB --------------------
         with tabs[2]:
+            st.subheader("🧑‍💻 Extracted Code Blocks")
+            code_blocks = re.findall(r"```[a-zA-Z]*([\s\S]*?)```", text)
             if code_blocks:
                 for idx, code in enumerate(code_blocks, 1):
                     st.code(code, language="python")
             else:
                 st.warning("No code blocks found in this PDF.")
 else:
+    st.info("👆 Please upload a PDF to get started.")