PDF_text_QA_

Runtime error

App Files Files Community

raghuram13 commited on Jul 21, 2023

Commit

d940d16

0 Parent(s):

Duplicate from mushroomsolutions/PDF_QA

Browse files

Files changed (4) hide show

.gitattributes +34 -0
README.md +14 -0
app.py +51 -0
requirements.txt +6 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: PDF QA
+emoji: 📚
+colorFrom: blue
+colorTo: blue
+sdk: gradio
+sdk_version: 3.23.0
+app_file: app.py
+pinned: false
+license: cc
+duplicated_from: mushroomsolutions/PDF_QA
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,51 @@

+import gradio as gr
+import PyPDF2
+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain.vectorstores.faiss import FAISS
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain import OpenAI, VectorDBQA
+import os
+import openai
+openai_api_key = os.environ["OPENAI_API_KEY"]
+def pdf_to_text(pdf_file, query):
+  # Open the PDF file in binary mode
+  with open(pdf_file.name, 'rb') as pdf_file:
+      # Create a PDF reader object
+      pdf_reader = PyPDF2.PdfReader(pdf_file)
+      # Create an empty string to store the text
+      text = ""
+      # Loop through each page of the PDF
+      for page_num in range(len(pdf_reader.pages)):
+          # Get the page object
+          page = pdf_reader.pages[page_num]
+          # Extract the texst from the page and add it to the text variable
+          text += page.extract_text()
+    #embedding step
+  text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
+  texts = text_splitter.split_text(text)
+  embeddings = OpenAIEmbeddings()
+  #vector store
+  vectorstore = FAISS.from_texts(texts, embeddings)
+    #inference
+  qa = VectorDBQA.from_chain_type(llm=OpenAI(), chain_type="stuff", vectorstore=vectorstore)
+  return qa.run(query)
+# Define the Gradio interface
+pdf_input = gr.inputs.File(label="PDF File")
+query_input = gr.inputs.Textbox(label="Query")
+outputs = gr.outputs.Textbox(label="Chatbot Response")
+interface = gr.Interface(fn=pdf_to_text, inputs=[pdf_input, query_input], outputs=outputs)
+# Run the interface
+interface.launch(debug = True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+openai
+langchain
+faiss-cpu
+gradio
+PyPDF2
+tiktoken