PDF_Question_and_Answer

Sleeping

App Files Files Community

PDF_Question_and_Answer / app.py

patel18

Update app.py

a6fe9a8 verified over 1 year ago

raw

history blame contribute delete

8.4 kB

	# import os

	# import streamlit as st
	# from dotenv import load_dotenv
	# from PyPDF2 import PdfReader
	# from langchain.text_splitter import CharacterTextSplitter
	# from langchain_openai import OpenAIEmbeddings
	# from langchain.vectorstores import FAISS
	# # from langchain_community.vectorstores import FAISS
	# from langchain.embeddings import HuggingFaceEmbeddings
	# from langchain.memory import ConversationBufferMemory
	# from langchain.chains import ConversationalRetrievalChain
	# from langchain.chat_models import ChatOpenAI
	# from htmlTemplates import css, bot_template, user_template
	# from langchain.embeddings import HuggingFaceInstructEmbeddings
	# from langchain.llms import HuggingFaceHub
	# import os
	# def get_pdf_text(pdf_doc):
	# text = ""
	# for pdf in pdf_doc:
	# pdf_reader = PdfReader(pdf)
	# for page in pdf_reader.pages:
	# text += page.extract_text()
	# return text


	# def get_text_chunk(row_text):
	# text_splitter = CharacterTextSplitter(
	# separator="\n",
	# chunk_size = 1000,
	# chunk_overlap = 200,
	# length_function = len
	# )
	# chunk = text_splitter.split_text(row_text)
	# return chunk


	# def get_vectorstore(text_chunk):
	# #embeddings = OpenAIEmbeddings(openai_api_key = os.getenv("OPENAI_API_KEY"))
	# embeddings = HuggingFaceInstructEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
	# vector = FAISS.from_texts(text_chunk,embeddings)
	# return vector


	# def get_conversation_chain(vectorstores):
	# #llm = ChatOpenAI(openai_api_key = os.getenv("OPENAI_API_KEY"))
	# llm = HuggingFaceHub(repo_id="google/flan-t5-base", model_kwargs={"temperature":0.5, "max_length":512})
	# memory = ConversationBufferMemory(memory_key = "chat_history",return_messages = True)
	# conversation_chain = ConversationalRetrievalChain.from_llm(llm=llm,
	# retriever=vectorstores.as_retriever(),
	# memory=memory)
	# return conversation_chain


	# def user_input(user_question):
	# response = st.session_state.conversation({"question":user_question})
	# st.session_state.chat_history = response["chat_history"]

	# for indx, msg in enumerate(st.session_state.chat_history):
	# if indx % 2==0:
	# st.write(user_template.replace("{{MSG}}",msg.content), unsafe_allow_html=True)
	# else:
	# st.write(bot_template.replace("{{MSG}}", msg.content), unsafe_allow_html=True)



	# def main():
	# # load secret key
	# load_dotenv()

	# # config the pg
	# st.set_page_config(page_title="Chat with multiple PDFs" ,page_icon=":books:")
	# st.write(css, unsafe_allow_html=True)
	# if "conversation" not in st.session_state:
	# st.session_state.conversation = None

	# st.header("Chat with multiple PDFs :books:")
	# user_question = st.text_input("Ask a question about your docs")
	# if user_question:
	# user_input(user_question)

	# # st.write(user_template.replace("{{MSG}}","Hello Robot"), unsafe_allow_html=True)
	# # st.write(bot_template.replace("{{MSG}}","Hello Human"), unsafe_allow_html=True)

	# # create side bar
	# with st.sidebar:
	# st.subheader("Your Documents")
	# pdf_doc = st.file_uploader(label="Upload your documents",accept_multiple_files=True)
	# if st.button("Process"):
	# with st.spinner(text="Processing"):

	# # get pdf text
	# row_text = get_pdf_text(pdf_doc)
	# # get the text chunk
	# text_chunk = get_text_chunk(row_text)
	# # st.write(text_chunk)
	# # create vecor store
	# vectorstores = get_vectorstore(text_chunk)
	# # st.write(vectorstores)
	# # create conversation chain
	# st.session_state.conversation = get_conversation_chain(vectorstores)


	# if __name__ == "__main__":
	# main()

	import os
	import streamlit as st
	from dotenv import load_dotenv
	from PyPDF2 import PdfReader
	from pdf2image import convert_from_path
	from langchain.text_splitter import CharacterTextSplitter
	from sentence_transformers import SentenceTransformer
	from langchain.vectorstores import FAISS
	from langchain.memory import ConversationBufferMemory
	from langchain.chains import ConversationalRetrievalChain
	from langchain.llms import HuggingFaceHub
	from htmlTemplates import css, bot_template, user_template
	from transformers import pipeline

	# Function to extract text from PDF
	def get_pdf_text(pdf_doc):
	text = ""
	for pdf in pdf_doc:
	pdf_reader = PdfReader(pdf)
	for page in pdf_reader.pages:
	text += page.extract_text()
	return text

	# Function to extract images from PDF
	def get_pdf_images(pdf_doc):
	images = []
	for pdf in pdf_doc:
	images.extend(convert_from_path(pdf))
	return images

	# Function to split text into chunks
	def get_text_chunk(row_text):
	text_splitter = CharacterTextSplitter(
	separator="\n",
	chunk_size=1000,
	chunk_overlap=200,
	length_function=len
	)
	chunk = text_splitter.split_text(row_text)
	return chunk

	# Function to create vector store
	def get_vectorstore(text_chunk):
	model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
	embeddings = model.encode(text_chunk)
	vector = FAISS.from_embeddings(embeddings)
	return vector

	# Function to create conversation chain
	def get_conversation_chain(vectorstores):
	llm = HuggingFaceHub(repo_id="google/flan-t5-base", model_kwargs={"temperature": 0.5, "max_length": 512})
	memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
	conversation_chain = ConversationalRetrievalChain.from_llm(
	llm=llm,
	retriever=vectorstores.as_retriever(),
	memory=memory
	)
	return conversation_chain

	# Function to handle user input
	def user_input(user_question):
	response = st.session_state.conversation({"question": user_question})
	st.session_state.chat_history = response["chat_history"]

	for indx, msg in enumerate(st.session_state.chat_history):
	if indx % 2 == 0:
	st.write(user_template.replace("{{MSG}}", msg.content), unsafe_allow_html=True)
	else:
	st.write(bot_template.replace("{{MSG}}", msg.content), unsafe_allow_html=True)

	# Function to generate images from text using a DALL-E model
	def generate_image_from_text(prompt):
	# Ensure you have a DALL-E or similar model for text-to-image generation
	generator = pipeline("text-to-image", model="dalle-mini/dalle-mini")
	images = generator(prompt)
	return images

	# Main function
	def main():
	# Load secret key
	load_dotenv()

	# Config the page
	st.set_page_config(page_title="Chat with multiple PDFs", page_icon=":books:")
	st.write(css, unsafe_allow_html=True)

	if "conversation" not in st.session_state:
	st.session_state.conversation = None

	st.header("Chat with multiple PDFs :books:")
	user_question = st.text_input("Ask a question about your docs")
	if user_question:
	user_input(user_question)

	# Create side bar
	with st.sidebar:
	st.subheader("Your Documents")
	pdf_doc = st.file_uploader(label="Upload your documents", accept_multiple_files=True, type=["pdf"])
	if st.button("Process"):
	with st.spinner(text="Processing"):
	# Get PDF text
	row_text = get_pdf_text(pdf_doc)
	# Get the text chunk
	text_chunk = get_text_chunk(row_text)
	# Create vector store
	vectorstores = get_vectorstore(text_chunk)
	# Create conversation chain
	st.session_state.conversation = get_conversation_chain(vectorstores)

	# Extract and display images from PDFs
	images = get_pdf_images(pdf_doc)
	for img in images:
	st.image(img)

	# Generate and display images from text using DALL-E
	if user_question:
	generated_images = generate_image_from_text(user_question)
	for gen_img in generated_images:
	st.image(gen_img)

	if __name__ == "__main__":
	main()