Spaces:

ARBAJSSHAIKH
/

PDF-READER-LLM

Sleeping

App Files Files Community

ARBAJSSHAIKH commited on Feb 1, 2024

Commit

1e917f4

verified ·

1 Parent(s): d67d243

Create app.py

Browse files

Files changed (1) hide show

app.py +102 -0

app.py ADDED Viewed

	@@ -0,0 +1,102 @@

+import streamlit as st
+import pdfplumber
+import base64
+def main():
+    st.title("PDF Viewer App")
+    # Upload PDF file
+    pdf_file = st.file_uploader("Upload PDF file", type=["pdf"])
+    if pdf_file is not None:
+        # Display PDF content
+        pdf_content = read_pdf(pdf_file)
+        st.markdown(pdf_content, unsafe_allow_html=True)
+def read_pdf(file):
+    with pdfplumber.open(file) as pdf:
+        text = ""
+        for page in pdf.pages:
+            text += page.extract_text()
+    return text
+if __name__ == "__main__":
+    main()
+from langchain.llms import OpenAI
+from langchain.vectorstores.cassandra import Cassandra
+from langchain.indexes.vectorstore import VectorStoreIndexWrapper
+from langchain.embeddings import OpenAIEmbeddings
+from datasets import load_dataset
+import cassio
+from PyPDF2 import PdfReader
+ASTRA_DB_APPLICATION_TOKEN="AstraCS:KRrILGTZHQMczBfoJhucdxkN:a6aaf66c8f7e318f1048bb13ec9132510c3fefc85501a5268cd873edd418ad10"
+ASTRA_DB_ID="800e9596-9d6a-487d-a87c-b95436d8026a"
+OPENAI_API_KEY="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"
+pdfreader=PdfReader("budget_speech.pdf")
+from typing_extensions import Concatenate
+raw_text=''
+for i ,page in enumerate(pdfreader.pages):
+  content=page.extract_text()
+  if content:
+    raw_text += content
+cassio.init(token=ASTRA_DB_APPLICATION_TOKEN,database_id=ASTRA_DB_ID)
+llm=OpenAI(openai_api_key=OPENAI_API_KEY)
+embedding=OpenAIEmbeddings(openai_api_key=OPENAI_API_KEY)
+astra_vector_store=Cassandra(embedding=embedding,
+                             table_name='qa_mini_demo',
+                             session=None,
+                             keyspace=None,
+                             )
+from langchain.text_splitter import CharacterTextSplitter
+text_splitter=CharacterTextSplitter(
+    separator='\n',
+    chunk_size=800,
+    chunk_overlap=200,
+    length_function=len
+)
+texts=text_splitter.split_text(raw_text)
+astra_vector_store.add_texts(texts)
+astra_vector_index=VectorStoreIndexWrapper(vectorstore=astra_vector_store)
+first_question=True
+while True:
+  if first_question:
+    query_text=input("\nEnter your Question or type quit to end:").strip()
+  else:
+    query_text=input("\nWhat is your next question:").strip()
+  if query_text.lower()=='quit':
+    break
+  if query_text=='':
+    continue
+  first_question=False
+  print("\nQUESTION :\"%s\"" % query_text)
+  answer=astra_vector_index.query(query_text,llm=llm).strip()
+  print("\nANSWER :\"%s\"" % answer)