Spaces:

juniorjukeko
/

small-pdf-summarizer

Sleeping

App Files Files Community

juniorjukeko commited on Oct 16, 2023

Commit

990b17a

1 Parent(s): 02f3795

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -4

app.py CHANGED Viewed

@@ -1,6 +1,9 @@
 import os
 from langchain.document_loaders import PyPDFLoader, OnlinePDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.chat_models import ChatOpenAI
 from langchain.llms import OpenAI
 from langchain import PromptTemplate
@@ -53,13 +56,38 @@ model_list = {'gpt-3.5-turbo':'chat',
 text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"], chunk_size=10000, chunk_overlap=250)
 def summarize_pdf(pdf_file, api_key,
                   model_name, temperature, llm_max_tokens,
                   custom_map_prompt, custom_combine_prompt):
-  global pdf_docs
   # Read PDF
-  loader = OnlinePDFLoader(pdf_file.name)
-  pdf_docs = loader.load_and_split(text_splitter)
   file_check(pdf_file)
   # Build LLM Model
@@ -94,7 +122,7 @@ def summarize_pdf(pdf_file, api_key,
 def file_check(pdf_file):
   if os.path.getsize(pdf_file.name)/1024 **2 > 1:
     raise gr.Error("Maximum File Size is 1MB!")
-  elif len(pdf_docs) > 15:
     raise gr.Error("Maximum File Length is 15 Pages!")
   else:
     pass

 import os
+from pypdf import PdfReader
 from langchain.document_loaders import PyPDFLoader, OnlinePDFLoader
+from langchain.docstore.document import Document
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.chat_models import ChatOpenAI
 from langchain.llms import OpenAI
 from langchain import PromptTemplate
 text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"], chunk_size=10000, chunk_overlap=250)
+def parse_pdf(file_path):
+    output = []
+    print(file_path)
+    pdf = PdfReader(file_path)
+    for page in pdf.pages:
+        text = page.extract_text()
+        output.append(text)
+    return output, len(pdf.pages)
+def preprocess_pdf_text(list_of_text):
+  page_docs = [Document(page_content=page) for page in list_of_text]
+  text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"], chunk_size=250, chunk_overlap=50)
+  doc_sections = []
+  for page in page_docs:
+    sections_text = text_splitter.split_text(page.page_content)
+    sections_doc = [Document(page_content=section) for section in sections_text]
+    for section in sections_doc:
+      doc_sections.append(section)
+  return doc_sections
 def summarize_pdf(pdf_file, api_key,
                   model_name, temperature, llm_max_tokens,
                   custom_map_prompt, custom_combine_prompt):
+  global page_num
   # Read PDF
+  pdf_txt, page_num = parse_pdf(pdf_file)
+  pdf_doc = preprocess_pdf_text(pdf_txt)
   file_check(pdf_file)
   # Build LLM Model
 def file_check(pdf_file):
   if os.path.getsize(pdf_file.name)/1024 **2 > 1:
     raise gr.Error("Maximum File Size is 1MB!")
+  elif page_num > 15:
     raise gr.Error("Maximum File Length is 15 Pages!")
   else:
     pass