Spaces:

Alimustoofaa
/

PDF_QuestionAnswer

Runtime error

App Files Files Community

Alimustoofaa commited on Jun 4, 2023

Commit

5ddf6ee

1 Parent(s): 598ae31

Add application file

Browse files

Files changed (3) hide show

main.py +45 -0
process.py +54 -0
requirements.txt +10 -0

main.py ADDED Viewed

	@@ -0,0 +1,45 @@

+import pathlib
+import base64
+import streamlit as st
+from pathlib import Path
+import process
+st.title("PDF Question Answer")
+# check directory
+SAVE_FOLDER = './assets'
+pathlib.Path(SAVE_FOLDER).mkdir(parents=True, exist_ok=True)
+def display_pdf(file):
+	with open(file, "rb") as f:
+		base64_pdf = base64.b64encode(f.read()).decode('utf-8')
+	pdf_display = F'<iframe src="data:application/pdf;base64,{base64_pdf}" width="700" height="700" type="application/pdf"></iframe>'
+	st.markdown(pdf_display, unsafe_allow_html=True)
+# Input file upload
+pdf_uploaded = st.file_uploader(label = "Upload PDF File", type=["pdf"])
+if pdf_uploaded:
+	save_path = Path(SAVE_FOLDER, pdf_uploaded.name)
+	with open(save_path, mode='wb') as w:
+		w.write(pdf_uploaded.getvalue())
+	if save_path.exists():
+		st.success(f'File {pdf_uploaded.name} is successfully saved!')
+		display_pdf(save_path)
+		# Display input Question
+		st.markdown("**Please fill the below form :**")
+		with st.form(key="Form :", clear_on_submit = False):
+			question_input      = st.text_input('Question : ')
+			token_openai_input  = st.text_input('Token OpenAI : ')
+			submit_btn = st.form_submit_button(label='Submit')
+		if submit_btn:
+			answer = process.main_process(
+						pdf_path=f'{SAVE_FOLDER}/{pdf_uploaded.name}',
+						question= question_input,
+						openai_key=token_openai_input
+					)
+			st.markdown("Answer : ")
+			st.markdown(answer)

process.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import os
+# Import langchain lib
+from langchain.llms import OpenAI
+from langchain.chains import RetrievalQA
+from langchain.vectorstores import Chroma
+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.document_loaders import UnstructuredPDFLoader
+from langchain.chains.question_answering import load_qa_chain
+def load_pdf(pdf_path):
+	loader = UnstructuredPDFLoader(pdf_path)
+	pages = loader.load()
+	return pages
+def update_openai_key(openai_key):
+	os.environ['OPENAI_API_KEY'] = openai_key
+def texts_splitter(pages):
+	text_splitter = CharacterTextSplitter(chunk_size=3000, chunk_overlap=20)
+	texts = text_splitter.split_documents(pages)
+	return texts
+def qa_langchain(docsearch):
+	qa_chain = load_qa_chain(OpenAI(temperature=0), chain_type="stuff")
+	qa = RetrievalQA(combine_documents_chain=qa_chain, retriever=docsearch.as_retriever())
+	return qa
+def main_process(pdf_path, question, openai_key):
+	# Update OpenAI key
+	update_openai_key(openai_key)
+	# load PDF
+	pages = load_pdf(pdf_path)
+	# Text splitter
+	texts = texts_splitter(pages)
+	# define embeddings
+	embeddings = OpenAIEmbeddings()
+	# print(embeddings)
+	docsearch = Chroma.from_documents(texts, embeddings)
+	qa = qa_langchain(docsearch)
+	answer = qa.run(question)
+	return answer
+if __name__ == "__main__":
+	answer = main_process(
+		pdf_path='assets/599-Article Text-5382-1-10-20230603.pdf',
+		question= 'Keberadaan mahkamah partai untuk',
+		openai_key='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'
+	)
+	print(answer)

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+streamlit
+openai
+pypdf
+langchain
+unstructured
+chromadb
+tiktoken
+pdf2image
+urllib3==1.26.6
+tabulate