Spaces:

snehakingrani
/

pdf_chatbot

Running

App Files Files Community

snehakingrani commited on Mar 2, 2025

Commit

6d852a7

verified ·

1 Parent(s): af15820

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -96

app.py CHANGED Viewed

@@ -1,108 +1,49 @@
-import os
-import logging
-from dotenv import load_dotenv
 import streamlit as st
-from PyPDF2 import PdfReader
-from langchain.text_splitter import CharacterTextSplitter
-from langchain.embeddings import HuggingFaceInstructEmbeddings
 from langchain.vectorstores import FAISS
-from langchain.memory import ConversationBufferMemory
-from langchain.chains import ConversationalRetrievalChain
-from langchain_groq import ChatGroq
 # Load environment variables
 load_dotenv()
-# Set up logging
-logging.basicConfig(
-    level=logging.INFO,
-    format='%(asctime)s - %(levelname)s - %(message)s'
-)
-# Function to extract text from PDF files
-def get_pdf_text(pdf_docs):
-    text = ""
-    for pdf in pdf_docs:
-        pdf_reader = PdfReader(pdf)
-        for page in pdf_reader.pages:
-            text += page.extract_text()
-    return text
-# Function to split the extracted text into chunks
-def get_text_chunks(text):
-    text_splitter = CharacterTextSplitter(
-        separator="\n",
-        chunk_size=1000,
-        chunk_overlap=200,
-        length_function=len
-    )
-    chunks = text_splitter.split_text(text)
-    return chunks
-# Function to create a FAISS vectorstore
-def get_vectorstore(text_chunks):
-    embeddings = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-xl")
-    vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
-    return vectorstore
-# Function to set up the conversational retrieval chain
-def get_conversation_chain(vectorstore):
-    try:
-        llm = ChatGroq(model="llama-3.3-70b-versatile", temperature=0.5)
-        memory = ConversationBufferMemory(memory_key='chat_history', return_messages=True)
-        conversation_chain = ConversationalRetrievalChain.from_llm(
-            llm=llm,
-            retriever=vectorstore.as_retriever(),
-            memory=memory
-        )
-        logging.info("Conversation chain created successfully.")
-        return conversation_chain
-    except Exception as e:
-        logging.error(f"Error creating conversation chain: {e}")
-        st.error("An error occurred while setting up the conversation chain.")
-# Handle user input
-def handle_userinput(user_question):
-    if st.session_state.conversation is not None:
-        response = st.session_state.conversation({'question': user_question})
-        st.session_state.chat_history = response['chat_history']
-        for i, message in enumerate(st.session_state.chat_history):
-            if i % 2 == 0:
-                st.write(f"*User:* {message.content}")
-            else:
-                st.write(f"*Bot:* {message.content}")
-    else:
-        st.warning("Please process the documents first.")
-# Main function to run the Streamlit app
-def main():
-    load_dotenv()
-    st.set_page_config(page_title="Chat with multiple PDFs", page_icon=":books:")
-    if "conversation" not in st.session_state:
-        st.session_state.conversation = None
-    if "chat_history" not in st.session_state:
-        st.session_state.chat_history = None
-    st.header("Chat with multiple PDFs :books:")
-    user_question = st.text_input("Ask a question about your documents:")
-    if user_question:
-        handle_userinput(user_question)
-    with st.sidebar:
-        st.subheader("Your documents")
-        pdf_docs = st.file_uploader(
-            "Upload your PDFs here and click on 'Process'", accept_multiple_files=True
-        )
-        if st.button("Process"):
-            with st.spinner("Processing..."):
-                raw_text = get_pdf_text(pdf_docs)
-                text_chunks = get_text_chunks(raw_text)
-                vectorstore = get_vectorstore(text_chunks)
-                st.session_state.conversation = get_conversation_chain(vectorstore)
-if __name__ == '__main__':
-    main()

 import streamlit as st
+import PyPDF2
+import os
+import faiss
+import numpy as np
+from langchain.embeddings.openai import OpenAIEmbeddings
 from langchain.vectorstores import FAISS
+from langchain.llms import OpenAI
+from langchain.chains import RetrievalQA
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from dotenv import load_dotenv
 # Load environment variables
 load_dotenv()
+# Streamlit UI
+st.title("PDF Q&A Assistant")
+st.write("Upload a PDF and ask questions about its content.")
+# Input Groq API Key
+groq_api_key = st.secrets["GROQ_API_KEY"]
+# Initialize Groq Model
+llm = OpenAI(api_key=groq_api_key, base_url="https://api.groq.com")
+embeddings = OpenAIEmbeddings(api_key=groq_api_key, base_url="https://api.groq.com")
+uploaded_file = st.file_uploader("Upload your PDF", type=["pdf"])
+if uploaded_file:
+    with st.spinner("Processing PDF..."):
+        pdf_reader = PyPDF2.PdfReader(uploaded_file)
+        text = "".join([page.extract_text() for page in pdf_reader.pages if page.extract_text()])
+        # Split text into smaller chunks for better retrieval
+        text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
+        texts = text_splitter.split_text(text)
+        # Convert text to embeddings and store in FAISS
+        vector_store = FAISS.from_texts(texts, embeddings)
+        retriever = vector_store.as_retriever()
+        qa_chain = RetrievalQA(llm=llm, retriever=retriever)
+        st.success("PDF processed successfully! Ask your questions below.")
+        query = st.text_input("Ask a question about the PDF")
+        if query:
+            response = qa_chain.run(query)
+            st.write("### Answer:")
+            st.write(response)