PDF_Question_and_Answer

Sleeping

File size: 8,396 Bytes

# import os

# import streamlit as st
# from dotenv import load_dotenv
# from PyPDF2 import PdfReader
# from langchain.text_splitter import CharacterTextSplitter
# from langchain_openai import OpenAIEmbeddings
# from langchain.vectorstores import FAISS
# # from langchain_community.vectorstores import FAISS
# from langchain.embeddings import HuggingFaceEmbeddings
# from langchain.memory import ConversationBufferMemory
# from langchain.chains import ConversationalRetrievalChain
# from langchain.chat_models import ChatOpenAI
# from htmlTemplates import css, bot_template, user_template
# from langchain.embeddings import HuggingFaceInstructEmbeddings
# from langchain.llms import HuggingFaceHub
# import os
# def get_pdf_text(pdf_doc):
#     text = ""
#     for pdf in pdf_doc:
#         pdf_reader = PdfReader(pdf)
#         for page in pdf_reader.pages:
#             text += page.extract_text()
#     return text


# def get_text_chunk(row_text):
#     text_splitter = CharacterTextSplitter(
#         separator="\n",
#         chunk_size = 1000,
#         chunk_overlap = 200,
#         length_function = len
#     )
#     chunk = text_splitter.split_text(row_text)
#     return chunk


# def get_vectorstore(text_chunk):
#     #embeddings = OpenAIEmbeddings(openai_api_key = os.getenv("OPENAI_API_KEY"))
#     embeddings = HuggingFaceInstructEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
#     vector = FAISS.from_texts(text_chunk,embeddings)
#     return vector


# def get_conversation_chain(vectorstores):
#     #llm = ChatOpenAI(openai_api_key = os.getenv("OPENAI_API_KEY"))
#     llm = HuggingFaceHub(repo_id="google/flan-t5-base", model_kwargs={"temperature":0.5, "max_length":512})
#     memory = ConversationBufferMemory(memory_key = "chat_history",return_messages = True)
#     conversation_chain = ConversationalRetrievalChain.from_llm(llm=llm,
#                                                                retriever=vectorstores.as_retriever(),
#                                                                memory=memory)
#     return conversation_chain


# def user_input(user_question):
#     response = st.session_state.conversation({"question":user_question})
#     st.session_state.chat_history = response["chat_history"]

#     for indx, msg in enumerate(st.session_state.chat_history):
#         if indx % 2==0:
#             st.write(user_template.replace("{{MSG}}",msg.content), unsafe_allow_html=True)
#         else:
#             st.write(bot_template.replace("{{MSG}}", msg.content), unsafe_allow_html=True)



# def main():
#     # load secret key
#     load_dotenv()
    
#     # config the pg
#     st.set_page_config(page_title="Chat with multiple PDFs" ,page_icon=":books:")
#     st.write(css, unsafe_allow_html=True)
#     if "conversation" not in st.session_state:
#         st.session_state.conversation = None

#     st.header("Chat with multiple PDFs :books:")
#     user_question = st.text_input("Ask a question about your docs")
#     if user_question:
#         user_input(user_question)

#     # st.write(user_template.replace("{{MSG}}","Hello Robot"), unsafe_allow_html=True)
#     # st.write(bot_template.replace("{{MSG}}","Hello Human"), unsafe_allow_html=True)

#     # create side bar
#     with st.sidebar:
#         st.subheader("Your Documents")
#         pdf_doc = st.file_uploader(label="Upload your documents",accept_multiple_files=True)
#         if st.button("Process"):
#             with st.spinner(text="Processing"):

#             # get pdf text
#                 row_text = get_pdf_text(pdf_doc)
#             # get the text chunk
#                 text_chunk = get_text_chunk(row_text)
#                 # st.write(text_chunk)
#             # create vecor store
#                 vectorstores = get_vectorstore(text_chunk)
#                 # st.write(vectorstores)
#             # create conversation chain
#                 st.session_state.conversation = get_conversation_chain(vectorstores)


# if __name__ == "__main__":
#     main()

import os
import streamlit as st
from dotenv import load_dotenv
from PyPDF2 import PdfReader
from pdf2image import convert_from_path
from langchain.text_splitter import CharacterTextSplitter
from sentence_transformers import SentenceTransformer
from langchain.vectorstores import FAISS
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain.llms import HuggingFaceHub
from htmlTemplates import css, bot_template, user_template
from transformers import pipeline

# Function to extract text from PDF
def get_pdf_text(pdf_doc):
    text = ""
    for pdf in pdf_doc:
        pdf_reader = PdfReader(pdf)
        for page in pdf_reader.pages:
            text += page.extract_text()
    return text

# Function to extract images from PDF
def get_pdf_images(pdf_doc):
    images = []
    for pdf in pdf_doc:
        images.extend(convert_from_path(pdf))
    return images

# Function to split text into chunks
def get_text_chunk(row_text):
    text_splitter = CharacterTextSplitter(
        separator="\n",
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len
    )
    chunk = text_splitter.split_text(row_text)
    return chunk

# Function to create vector store
def get_vectorstore(text_chunk):
    model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
    embeddings = model.encode(text_chunk)
    vector = FAISS.from_embeddings(embeddings)
    return vector

# Function to create conversation chain
def get_conversation_chain(vectorstores):
    llm = HuggingFaceHub(repo_id="google/flan-t5-base", model_kwargs={"temperature": 0.5, "max_length": 512})
    memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
    conversation_chain = ConversationalRetrievalChain.from_llm(
        llm=llm,
        retriever=vectorstores.as_retriever(),
        memory=memory
    )
    return conversation_chain

# Function to handle user input
def user_input(user_question):
    response = st.session_state.conversation({"question": user_question})
    st.session_state.chat_history = response["chat_history"]

    for indx, msg in enumerate(st.session_state.chat_history):
        if indx % 2 == 0:
            st.write(user_template.replace("{{MSG}}", msg.content), unsafe_allow_html=True)
        else:
            st.write(bot_template.replace("{{MSG}}", msg.content), unsafe_allow_html=True)

# Function to generate images from text using a DALL-E model
def generate_image_from_text(prompt):
    # Ensure you have a DALL-E or similar model for text-to-image generation
    generator = pipeline("text-to-image", model="dalle-mini/dalle-mini")
    images = generator(prompt)
    return images

# Main function
def main():
    # Load secret key
    load_dotenv()

    # Config the page
    st.set_page_config(page_title="Chat with multiple PDFs", page_icon=":books:")
    st.write(css, unsafe_allow_html=True)

    if "conversation" not in st.session_state:
        st.session_state.conversation = None

    st.header("Chat with multiple PDFs :books:")
    user_question = st.text_input("Ask a question about your docs")
    if user_question:
        user_input(user_question)

    # Create side bar
    with st.sidebar:
        st.subheader("Your Documents")
        pdf_doc = st.file_uploader(label="Upload your documents", accept_multiple_files=True, type=["pdf"])
        if st.button("Process"):
            with st.spinner(text="Processing"):
                # Get PDF text
                row_text = get_pdf_text(pdf_doc)
                # Get the text chunk
                text_chunk = get_text_chunk(row_text)
                # Create vector store
                vectorstores = get_vectorstore(text_chunk)
                # Create conversation chain
                st.session_state.conversation = get_conversation_chain(vectorstores)

                # Extract and display images from PDFs
                images = get_pdf_images(pdf_doc)
                for img in images:
                    st.image(img)

                # Generate and display images from text using DALL-E
                if user_question:
                    generated_images = generate_image_from_text(user_question)
                    for gen_img in generated_images:
                        st.image(gen_img)

if __name__ == "__main__":
    main()