Spaces:

Hk4crprasad
/

Test

Sleeping

Hk4crprasad commited on Jan 23, 2024

Commit

b78f929

verified ·

1 Parent(s): 1e4a977

Upload 2 files

Files changed (2) hide show

app.py CHANGED Viewed

@@ -23,7 +23,8 @@ from langchain.chains.question_answering import load_qa_chain
 from langchain.prompts import PromptTemplate
 load_dotenv()
 import datetime
 history=[
   {
     "parts": [
@@ -462,9 +463,10 @@ history=[
 def get_pdf_text(pdf_docs):
     text = ""
     for pdf in pdf_docs:
-        pdf_reader = PdfReader(pdf)
-        for page in pdf_reader.pages:
-            text += page.extract_text()
     return text
 def get_text_chunks(text):

 from langchain.prompts import PromptTemplate
 load_dotenv()
 import datetime
+import fitz  # PyMuPDF
 history=[
   {
     "parts": [
 def get_pdf_text(pdf_docs):
     text = ""
     for pdf in pdf_docs:
+        pdf_reader = fitz.open(pdf)
+        for page_num in range(pdf_reader.page_count):
+            page = pdf_reader[page_num]
+            text += page.get_text()
     return text
 def get_text_chunks(text):

requirements.txt CHANGED Viewed

@@ -7,4 +7,5 @@ PyPDF2
 chromadb
 faiss-cpu
 langchain_google_genai
-langchain-community

 chromadb
 faiss-cpu
 langchain_google_genai
+langchain-community
+PyMuPDF