Spaces:

santuchal
/

test_chat2

Runtime error

App Files Files Community

santuchal commited on Feb 8, 2024

Commit

46414bc

verified ·

1 Parent(s): 427610f

Upload 4 files

Browse files

Files changed (5) hide show

.gitattributes +1 -0
app.py +63 -0
chat_workflow.py +95 -0
mydocs/1.pdf +3 -0
requirements.txt +102 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+mydocs/1.pdf filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,63 @@

+import time
+import streamlit as st
+from chat_workflow import chain_workflow
+# Custom image for the app icon and the assistant's avatar
+assistant_logo = 'https://assets.website-files.com/5f902c64ef70f699f7a0c50d/64b7aa8bcb0b1ad4dd48b451_AI_icon_3.png'
+# Configure Streamlit page
+st.set_page_config(
+    page_title="Budget-GPT 2024-2025",
+    page_icon=assistant_logo
+)
+with st.sidebar:
+    openai_api_key = st.text_input('Input your OpenAI API Key', value="sk-", type = 'password')
+    "[View the source code](https://github.com/codysaint/streamlit-pdf-qa-langchain-app.git)"
+# Initialize chat history
+if 'messages' not in st.session_state:
+    # Start with first message from assistant
+    st.session_state['messages'] = [{"role": "assistant",
+                                  "content": "Hi user! ask me questions about union budget 2024-2025"}]
+for message in st.session_state.messages:
+    if message["role"] == 'assistant':
+        with st.chat_message(message["role"], avatar=assistant_logo):
+            st.markdown(message["content"])
+    else:
+        with st.chat_message(message["role"]):
+            st.markdown(message["content"])
+# Chat logic
+if query := st.chat_input("Ask me about key highlights of recently announced union budget"):
+    if len(openai_api_key) <= 3:
+        st.sidebar.error("☝️ Put in your openapi key")
+    else:
+        # Add user message to chat history
+        st.session_state.messages.append({"role": "user", "content": query})
+        # Display user message in chat message container
+        with st.chat_message("user"):
+            st.markdown(query)
+        with st.chat_message("assistant", avatar=assistant_logo):
+            message_placeholder = st.empty()
+            # Send user's question to our chain
+            # Initialize LLM chain
+            chain = chain_workflow(openai_api_key=openai_api_key)
+            result = chain({"question": query})
+            response = result['answer']
+            full_response = ""
+            # Simulate stream of response with milliseconds delay
+            for chunk in response.split():
+                full_response += chunk + " "
+                time.sleep(0.05)
+                # Add a blinking cursor to simulate typing
+                message_placeholder.markdown(full_response + "▌")
+            message_placeholder.markdown(full_response)
+        # Add assistant message to chat history
+        st.session_state.messages.append({"role": "assistant", "content": response})

chat_workflow.py ADDED Viewed

	@@ -0,0 +1,95 @@

+import streamlit as st
+from langchain.chains import ConversationalRetrievalChain
+from langchain.memory import ConversationBufferWindowMemory
+from langchain.chat_models import ChatOpenAI
+from langchain.embeddings import OpenAIEmbeddings
+from langchain.vectorstores import Chroma
+from langchain.retrievers import ContextualCompressionRetriever
+from langchain.retrievers.document_compressors import LLMChainExtractor
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.document_loaders import PyPDFLoader, PyPDFDirectoryLoader
+import os
+def create_directory_if_not_exists(directory_path):
+    if not os.path.exists(directory_path):
+        os.makedirs(directory_path, exist_ok=True)
+    else:
+        print(f" {directory_path} already exists")
+#llm
+llm_name = "gpt-3.5-turbo"
+# persist_directory
+persist_directory = 'vector_index/'
+create_directory_if_not_exists(persist_directory)
+docs_dir = 'mydocs/'
+docs_sqlite_store_chroma = os.path.join(persist_directory, "chroma_vec_store.sqlite3")
+# @st.cache_resource
+def chain_workflow(openai_api_key):
+    # Load OpenAI embedding model
+    embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)
+    # Check if the file exists
+    if not os.path.exists(docs_sqlite_store_chroma):
+        # If it doesn't exist, create it
+        # load multiple pdfs at once
+        # loader = PyPDFDirectoryLoader(docs_dir)
+        # load single document
+        file = os.path.join(docs_dir, "key_highlights.pdf")
+        loader = PyPDFLoader(file)
+        documents = loader.load()
+        # split documents
+        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
+        splits = text_splitter.split_documents(documents)
+        # persist_directory
+        # persist_directory = 'vector_index/'
+        vectordb = Chroma.from_documents(
+            documents=splits,
+            embedding=embeddings,
+            persist_directory=persist_directory
+        )
+        vectordb.persist()
+        print(f"Vectorstore created and saved successfully, The {docs_sqlite_store_chroma} file has been created.")
+    else:
+        # if vectorstore already exist, just call it
+        vectordb = Chroma(persist_directory=persist_directory, embedding_function=embeddings)
+    # Load OpenAI chat model
+    llm = ChatOpenAI(temperature=0, openai_api_key=openai_api_key)
+    # specify a retrieval to retrieve relevant splits or documents
+    compressor = LLMChainExtractor.from_llm(llm)
+    compression_retriever = ContextualCompressionRetriever(base_compressor=compressor,base_retriever=vectordb.as_retriever(search_type="mmr", search_kwargs={"k": 3}))
+    # Create memory 'chat_history'
+    memory = ConversationBufferWindowMemory(k=5,memory_key="chat_history")
+    # create a chatbot chain
+    qa = ConversationalRetrievalChain.from_llm(
+        llm=ChatOpenAI(model_name=llm_name, temperature=0.7, openai_api_key=openai_api_key),
+        chain_type="stuff",
+        retriever=compression_retriever,
+        memory=memory,
+        get_chat_history=lambda h : h,
+        verbose=True
+    )
+    return qa

mydocs/1.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78b1d0b8faa9b8a4219028726393154e35bb256404631e2d5566158c69a43ee5
+size 1682781

requirements.txt ADDED Viewed

	@@ -0,0 +1,102 @@

+aiohttp==3.8.5
+aiosignal==1.3.1
+altair==5.1.1
+annotated-types==0.5.0
+anyio==3.7.1
+async-timeout==4.0.3
+attrs==23.1.0
+backoff==2.2.1
+bcrypt==4.0.1
+blinker==1.6.2
+cachetools==5.3.1
+certifi==2023.7.22
+charset-normalizer==3.3.0
+chroma-hnswlib==0.7.3
+chromadb==0.4.13
+click==8.1.7
+coloredlogs==15.0.1
+dataclasses-json==0.6.1
+fastapi==0.103.2
+filelock==3.12.4
+flatbuffers==23.5.26
+frozenlist==1.4.0
+fsspec==2023.9.2
+gitdb==4.0.10
+GitPython==3.1.37
+greenlet==2.0.2
+h11==0.14.0
+httptools==0.6.0
+huggingface-hub==0.16.4
+humanfriendly==10.0
+idna==3.4
+importlib-metadata==6.8.0
+importlib-resources==6.1.0
+Jinja2==3.1.2
+jsonpatch==1.33
+jsonpointer==2.4
+jsonschema==4.19.1
+jsonschema-specifications==2023.7.1
+langchain==0.0.305
+langsmith==0.0.41
+markdown-it-py==3.0.0
+MarkupSafe==2.1.3
+marshmallow==3.20.1
+mdurl==0.1.2
+monotonic==1.6
+mpmath==1.3.0
+multidict==6.0.4
+mypy-extensions==1.0.0
+numexpr==2.8.7
+numpy==1.26.0
+onnxruntime==1.16.0
+openai==0.28.1
+overrides==7.4.0
+packaging==23.1
+pandas==2.1.1
+Pillow==10.0.1
+posthog==3.0.2
+protobuf==4.24.3
+pulsar-client==3.3.0
+pyarrow==13.0.0
+pydantic==2.4.2
+pydantic_core==2.10.1
+pydeck==0.8.1b0
+Pygments==2.16.1
+pypdf==3.16.2
+PyPika==0.48.9
+python-dateutil==2.8.2
+python-dotenv==1.0.0
+pytz==2023.3.post1
+PyYAML==6.0.1
+referencing==0.30.2
+regex==2023.8.8
+requests==2.31.0
+rich==13.6.0
+rpds-py==0.10.3
+six==1.16.0
+smmap==5.0.1
+sniffio==1.3.0
+SQLAlchemy==2.0.21
+starlette==0.27.0
+streamlit==1.27.1
+sympy==1.12
+tenacity==8.2.3
+tiktoken==0.5.1
+tokenizers==0.14.0
+toml==0.10.2
+toolz==0.12.0
+tornado==6.3.3
+tqdm==4.66.1
+typer==0.9.0
+typing-inspect==0.9.0
+typing_extensions==4.8.0
+tzdata==2023.3
+tzlocal==5.0.1
+urllib3==2.0.5
+uvicorn==0.23.2
+validators==0.22.0
+watchdog==3.0.0
+watchfiles==0.20.0
+websockets==11.0.3
+yarl==1.9.2
+zipp==3.17.0