Spaces:

zhtet
/

document-chat

Sleeping

App Files Files Community

Zwea Htet commited on Jan 10, 2024

Commit

a43a4a7

1 Parent(s): 781a2e4

updated code

Browse files

Files changed (2) hide show

app.py +47 -25
pdf/NDA for Student Interns.pdf +0 -0

app.py CHANGED Viewed

@@ -3,16 +3,17 @@
 import streamlit as st
 from langchain_community.document_loaders.pdf import PyPDFLoader
-from langchain_community.vectorstores import pinecone
-from langchain_openai import OpenAIEmbeddings, OpenAI
 from langchain.memory import ConversationBufferMemory
 from langchain_core.prompts import ChatPromptTemplate
-from langchain.chains import ConversationalRetrievalChain, RetrievalQA
 import openai
 from dotenv import load_dotenv
 import os
-# import pinecone
 load_dotenv()
@@ -27,31 +28,47 @@ SAVE_DIR = "pdf"
 def generate_response(pages, query_text, k, chain_type):
-    if pages is not None:
         pinecone.init(
             api_key=os.getenv("PINECONE_API_KEY"),
             environment=os.getenv("PINECONE_ENV_NAME"),
         )
-        vector_db = pinecone.Pinecone.from_documents(
-            documents=pages, embedding=OpenAIEmbeddings(), index_name="openai-index"
         )
         retriever = vector_db.as_retriever(
             search_type="similarity", search_kwards={"k": k}
         )
         # create a chain to answer questions
-        qa = RetrievalQA.from_chain_type(
-            llm=OpenAI(),
             chain_type=chain_type,
             retriever=retriever,
-            return_source_documents=True
         )
-        response = qa({"query": query_text})
         return response
 def visual_annotate(document, answer):
     # Implement this function according to your specific requirements
     # Highlight the part of the document where the answer was found
@@ -80,18 +97,19 @@ with st.sidebar.form(key="sidebar-form"):
     )
     os.environ["PINECONE_API_KEY"] = pinecone_api_key
-    pinecone_env_name = st.text_input("Enter your Pinecone environment name)")
     os.environ["PINECONE_ENV_NAME"] = pinecone_env_name
-    submitted = st.sidebar.form_submit_button(
         label="Submit",
-        disabled=not (openai_api_key and pinecone_api_key and pinecone_env_name),
     )
 left_column, right_column = st.columns(2)
 with left_column:
     uploaded_file = st.file_uploader("Choose a pdf file", type="pdf")
     if uploaded_file is not None:
         # save the uploaded file to the specified directory
@@ -101,7 +119,8 @@ with left_column:
         st.success(f"File {uploaded_file.name} is saved at path {file_path}")
         loader = PyPDFLoader(file_path=file_path)
-        pages = loader.load_and_split()
     query_text = st.text_input(
         "Enter your question:", placeholder="Please provide a short summary."
@@ -115,20 +134,23 @@ with left_column:
     with st.spinner("Retrieving and generating a response ..."):
         response = generate_response(
-            pages=pages,
-            query_text=query_text,
-            k=k,
-            chain_type=chain_type
         )
         with right_column:
             st.write("Output of your question")
-            st.subheader("Result")
-            st.write(response['result'])
-            st.subheader("source_documents")
-            st.write(response['source_documents'][0])
 # with st.form("myform", clear_on_submit=True):

 import streamlit as st
 from langchain_community.document_loaders.pdf import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores.pinecone import Pinecone
+from langchain_openai import OpenAIEmbeddings, ChatOpenAI
 from langchain.memory import ConversationBufferMemory
 from langchain_core.prompts import ChatPromptTemplate
+from langchain.chains import ConversationalRetrievalChain, RetrievalQAWithSourcesChain
 import openai
 from dotenv import load_dotenv
 import os
+import pinecone
 load_dotenv()
 def generate_response(pages, query_text, k, chain_type):
+    if pages:
         pinecone.init(
             api_key=os.getenv("PINECONE_API_KEY"),
             environment=os.getenv("PINECONE_ENV_NAME"),
         )
+        vector_db = Pinecone.from_documents(
+            documents=pages, embedding=OpenAIEmbeddings(), index_name="document-chat"
         )
         retriever = vector_db.as_retriever(
             search_type="similarity", search_kwards={"k": k}
         )
+        prompt_template = ChatPromptTemplate.from_messages(
+            [
+                (
+                    "system",
+                    "You are a helpful assistant that can answer questions regarding to a document provided by the user.",
+                ),
+                ("human", "Hello, how are you doing?"),
+                ("ai", "I'm doing well, thanks!"),
+                ("human", "{user_input}"),
+            ]
+        )
+        llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)
         # create a chain to answer questions
+        qa = RetrievalQAWithSourcesChain.from_chain_type(
+            llm=llm,
             chain_type=chain_type,
             retriever=retriever,
+            return_source_documents=True,
+            # prompt_template=prompt_template,
         )
+        response = qa({"question": query_text})
         return response
 def visual_annotate(document, answer):
     # Implement this function according to your specific requirements
     # Highlight the part of the document where the answer was found
     )
     os.environ["PINECONE_API_KEY"] = pinecone_api_key
+    pinecone_env_name = st.text_input("Enter your Pinecone environment name")
     os.environ["PINECONE_ENV_NAME"] = pinecone_env_name
+    submitted = st.form_submit_button(
         label="Submit",
+        # disabled=not (openai_api_key and pinecone_api_key and pinecone_env_name),
     )
 left_column, right_column = st.columns(2)
 with left_column:
     uploaded_file = st.file_uploader("Choose a pdf file", type="pdf")
+    pages = []
     if uploaded_file is not None:
         # save the uploaded file to the specified directory
         st.success(f"File {uploaded_file.name} is saved at path {file_path}")
         loader = PyPDFLoader(file_path=file_path)
+        text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
+        pages = loader.load_and_split(text_splitter=text_splitter)
     query_text = st.text_input(
         "Enter your question:", placeholder="Please provide a short summary."
     with st.spinner("Retrieving and generating a response ..."):
         response = generate_response(
+            pages=pages, query_text=query_text, k=k, chain_type=chain_type
         )
         with right_column:
             st.write("Output of your question")
+            if response:
+                st.subheader("Result")
+                st.write(response["answer"])
+                print("response: ", response)
+                st.subheader("source_documents")
+                for each in response["source_documents"]:
+                    st.write("page: ", each.metadata["page"])
+                    st.write("source: ", each.metadata["source"])
+            else:
+                st.write("response not showing at the moment")
 # with st.form("myform", clear_on_submit=True):

pdf/NDA for Student Interns.pdf ADDED Viewed

Binary file (530 kB). View file