Spaces:

DataWizard9742
/

ChatWIthPdf

Sleeping

Update app.py

e651f81 verified over 1 year ago

1.45 kB

	import streamlit as st
	from dotenv import load_dotenv
	from PyPDF2 import PdfReader
	from langchain.text_splitter import RecursiveCharacterTextSplitter
	from langchain.embeddings.openai import OpenAIEmbeddings
	from langchain.vectorstores import FAISS
	from langchain.llms import OpenAI
	from langchain.chains.question_answering import load_qa_chain
	from langchain.callbacks import get_openai_callback

	load_dotenv()

	def main():
	st.title("Chat with PDF 💬")
	pdf = st.file_uploader("Upload your PDF", type='pdf')
	if pdf is not None:
	pdf_reader = PdfReader(pdf)
	text = ""
	for page in pdf_reader.pages:
	text += page.extract_text()

	text_splitter = RecursiveCharacterTextSplitter(
	chunk_size=1000,
	chunk_overlap=200,
	length_function=len
	)
	chunks = text_splitter.split_text(text=text)

	embeddings = OpenAIEmbeddings()
	VectorStore = FAISS.from_texts(chunks, embedding=embeddings)
	query = st.text_input("Ask questions about your PDF file:")
	if query:
	docs = VectorStore.similarity_search(query=query, k=3)
	llm = OpenAI()
	chain = load_qa_chain(llm=llm, chain_type="stuff")
	with get_openai_callback() as cb:
	response = chain.run(input_documents=docs, question=query)
	print(cb)
	st.write(response)

	if __name__ == '__main__':
	main()