Spaces:

AjiNiktech
/

Document_search

Sleeping

App Files Files Community

AjiNiktech commited on Jul 7, 2024

Commit

fe58b7c

verified ·

1 Parent(s): 3a30a49

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -26

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ from langchain_openai import ChatOpenAI, OpenAIEmbeddings
 import os
 import dotenv
 from langchain_community.document_loaders import TextLoader, PyPDFLoader, CSVLoader, UnstructuredPowerPointLoader, UnstructuredWordDocumentLoader, UnstructuredExcelLoader
-from langchain_text_splitters import TokenTextSplitter
 from langchain_chroma import Chroma
 from langchain.chains.combine_documents import create_stuff_documents_chain
 from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
@@ -26,6 +26,7 @@ with st.sidebar:
 # Main app logic
 if "OPENAI_API_KEY" in os.environ:
     st.header('Multiple File Upload')
     uploaded_files = st.file_uploader('Upload your files', accept_multiple_files=True, type=['txt', 'pdf', 'csv', 'ppt', 'doc', 'xls', 'pptx', 'xlsx'])
@@ -55,29 +56,23 @@ if "OPENAI_API_KEY" in os.environ:
         os.unlink(temp_file_path)
         return documents
-    @st.cache_data
-    def process_documents(uploaded_files):
         all_documents = []
         for file in uploaded_files:
             all_documents.extend(load_file(file))
-        text_splitter = TokenTextSplitter(chunk_size=1000, chunk_overlap=200)
-        all_splits = text_splitter.split_documents(all_documents)
-        return all_splits
-    # Process uploaded files
-    if uploaded_files:
-        with st.spinner("Processing documents..."):
-            all_splits = process_documents(uploaded_files)
         # Initialize components
         @st.cache_resource
         def initialize_components(_all_splits):
             dotenv.load_dotenv()
-            chat = ChatOpenAI(model="gpt-3.5-turbo-instruct", temperature=0.2)
-            embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
             vectorstore = Chroma.from_documents(documents=_all_splits, embedding=embeddings)
-            retriever = vectorstore.as_retriever(search_type="mmr", k=3)
             SYSTEM_TEMPLATE = """
             You are an advanced AI assistant designed for document search and chatbot functionality. Your primary functions are:
@@ -159,19 +154,19 @@ if "OPENAI_API_KEY" in os.environ:
                 # Retrieve relevant documents
                 docs = retriever.get_relevant_documents(prompt)
-                # Get recent chat history
-                MAX_HISTORY = 5
-                recent_history = st.session_state.memory.load_memory_variables({})["chat_history"][-MAX_HISTORY:]
                 # Generate response
-                full_response = ""
-                for chunk in document_chain.stream({
-                    "context": docs,
-                    "chat_history": recent_history,
-                    "messages": [HumanMessage(content=prompt)],
-                }):
-                    full_response += chunk
-                    message_placeholder.markdown(full_response + "▌")
                 message_placeholder.markdown(full_response)
             # Add assistant response to chat history

 import os
 import dotenv
 from langchain_community.document_loaders import TextLoader, PyPDFLoader, CSVLoader, UnstructuredPowerPointLoader, UnstructuredWordDocumentLoader, UnstructuredExcelLoader
+from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_chroma import Chroma
 from langchain.chains.combine_documents import create_stuff_documents_chain
 from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
 # Main app logic
 if "OPENAI_API_KEY" in os.environ:
+    # with st.sidebar:
     st.header('Multiple File Upload')
     uploaded_files = st.file_uploader('Upload your files', accept_multiple_files=True, type=['txt', 'pdf', 'csv', 'ppt', 'doc', 'xls', 'pptx', 'xlsx'])
         os.unlink(temp_file_path)
         return documents
+    # Process uploaded files
+    if uploaded_files:
         all_documents = []
         for file in uploaded_files:
             all_documents.extend(load_file(file))
+        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+        all_splits = text_splitter.split_documents(all_documents)
         # Initialize components
         @st.cache_resource
         def initialize_components(_all_splits):
             dotenv.load_dotenv()
+            chat = ChatOpenAI(model="gpt-3.5-turbo-1106", temperature=0.2)
+            embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
             vectorstore = Chroma.from_documents(documents=_all_splits, embedding=embeddings)
+            retriever = vectorstore.as_retriever(k=4)
             SYSTEM_TEMPLATE = """
             You are an advanced AI assistant designed for document search and chatbot functionality. Your primary functions are:
                 # Retrieve relevant documents
                 docs = retriever.get_relevant_documents(prompt)
                 # Generate response
+                response = document_chain.invoke(
+                    {
+                        "context": docs,
+                        "chat_history": st.session_state.memory.load_memory_variables({})["chat_history"],
+                        "messages": [
+                            HumanMessage(content=prompt)
+                        ],
+                    }
+                )
+                # The response is already a string, so we can use it directly
+                full_response = response
                 message_placeholder.markdown(full_response)
             # Add assistant response to chat history