Spaces:

ARBAJSSHAIKH
/

PDF-READER-LLM

Sleeping

App Files Files Community

ARBAJSSHAIKH commited on Feb 1, 2024

Commit

77550f2

verified ·

1 Parent(s): 75e83db

Update app.py

Browse files

Files changed (1) hide show

app.py +96 -85

app.py CHANGED Viewed

@@ -1,31 +1,6 @@
 import streamlit as st
 import pdfplumber
 import base64
-def main():
-    st.title("PDF Viewer App")
-    # Upload PDF file
-    pdf_file = st.file_uploader("Upload PDF file", type=["pdf"])
-    if pdf_file is not None:
-        # Display PDF content
-        pdf_content = read_pdf(pdf_file)
-        st.markdown(pdf_content, unsafe_allow_html=True)
-def read_pdf(file):
-    with pdfplumber.open(file) as pdf:
-        text = ""
-        for page in pdf.pages:
-            text += page.extract_text()
-    return text
-if __name__ == "__main__":
-    main()
 from langchain.llms import OpenAI
 from langchain.vectorstores.cassandra import Cassandra
 from langchain.indexes.vectorstore import VectorStoreIndexWrapper
@@ -38,65 +13,101 @@ import cassio
 from PyPDF2 import PdfReader
-ASTRA_DB_APPLICATION_TOKEN="AstraCS:KRrILGTZHQMczBfoJhucdxkN:a6aaf66c8f7e318f1048bb13ec9132510c3fefc85501a5268cd873edd418ad10"
-ASTRA_DB_ID="800e9596-9d6a-487d-a87c-b95436d8026a"
-OPENAI_API_KEY="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"
-pdfreader=PdfReader("budget_speech.pdf")
-from typing_extensions import Concatenate
-raw_text=''
-for i ,page in enumerate(pdfreader.pages):
-  content=page.extract_text()
-  if content:
-    raw_text += content
-cassio.init(token=ASTRA_DB_APPLICATION_TOKEN,database_id=ASTRA_DB_ID)
-llm=OpenAI(openai_api_key=OPENAI_API_KEY)
-embedding=OpenAIEmbeddings(openai_api_key=OPENAI_API_KEY)
-astra_vector_store=Cassandra(embedding=embedding,
-                             table_name='qa_mini_demo',
-                             session=None,
-                             keyspace=None,
-                             )
-from langchain.text_splitter import CharacterTextSplitter
-text_splitter=CharacterTextSplitter(
-    separator='\n',
-    chunk_size=800,
-    chunk_overlap=200,
-    length_function=len
-)
-texts=text_splitter.split_text(raw_text)
-astra_vector_store.add_texts(texts)
-astra_vector_index=VectorStoreIndexWrapper(vectorstore=astra_vector_store)
-first_question=True
-while True:
-  if first_question:
-    query_text=input("\nEnter your Question or type quit to end:").strip()
-  else:
-    query_text=input("\nWhat is your next question:").strip()
-  if query_text.lower()=='quit':
-    break
-  if query_text=='':
-    continue
-  first_question=False
-  print("\nQUESTION :\"%s\"" % query_text)
-  answer=astra_vector_index.query(query_text,llm=llm).strip()
-  print("\nANSWER :\"%s\"" % answer)

 import streamlit as st
 import pdfplumber
 import base64
 from langchain.llms import OpenAI
 from langchain.vectorstores.cassandra import Cassandra
 from langchain.indexes.vectorstore import VectorStoreIndexWrapper
 from PyPDF2 import PdfReader
+def main():
+    st.title("INTERACTION WITH PDF USING LLM")
+    # Upload PDF file
+    pdf_file = st.file_uploader("Upload PDF file", type=["pdf"])
+    if pdf_file is not None:
+        # Display PDF content
+ #       pdf_content = read_pdf(pdf_file)
+ #       st.markdown(pdf_content, unsafe_allow_html=True)
+#def read_pdf(file):
+ #   with pdfplumber.open(file) as pdf:
+ #       text = ""
+ #       for page in pdf.pages:
+  #          text += page.extract_text()
+  #  return text
+        ASTRA_DB_APPLICATION_TOKEN="AstraCS:KRrILGTZHQMczBfoJhucdxkN:a6aaf66c8f7e318f1048bb13ec9132510c3fefc85501a5268cd873edd418ad10"
+        ASTRA_DB_ID="800e9596-9d6a-487d-a87c-b95436d8026a"
+        OPENAI_API_KEY="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"
+        pdfreader=PdfReader(pdf_file)
+        from typing_extensions import Concatenate
+        raw_text=''
+        for i ,page in enumerate(pdfreader.pages):
+          content=page.extract_text()
+          if content:
+            raw_text += content
+        cassio.init(token=ASTRA_DB_APPLICATION_TOKEN,database_id=ASTRA_DB_ID)
+        llm=OpenAI(openai_api_key=OPENAI_API_KEY)
+        embedding=OpenAIEmbeddings(openai_api_key=OPENAI_API_KEY)
+        astra_vector_store=Cassandra(embedding=embedding,
+                                     table_name='qa_mini_demo',
+                                     session=None,
+                                     keyspace=None,
+                                     )
+        from langchain.text_splitter import CharacterTextSplitter
+        text_splitter=CharacterTextSplitter(
+            separator='\n',
+            chunk_size=800,
+            chunk_overlap=200,
+            length_function=len
+        )
+        texts=text_splitter.split_text(raw_text)
+        astra_vector_store.add_texts(texts)
+        astra_vector_index=VectorStoreIndexWrapper(vectorstore=astra_vector_store)
+        first_question = True
+        while True:
+            if first_question:
+                query_text = st.text_input("Enter your Question or type quit to end:").strip()
+            else:
+                query_text = st.text_input("What is your next question:").strip()
+            if query_text.lower() == 'quit':
+                break
+            if query_text == '':
+                continue
+            first_question = False
+            st.write("\nQUESTION :\"%s\"" % query_text)
+            # Assuming you have the functions and variables needed for querying
+            answer = astra_vector_index.query(query_text, llm=llm).strip()
+            st.write("\nANSWER :\"%s\"" % answer)
+if __name__ == "__main__":
+    main()