Spaces:

ayoub-edh
/

MultiDoc_ChatBot

Sleeping

App Files Files Community

eddahmany commited on Jun 23, 2024

Commit

6ee1ffa

1 Parent(s): e9c3677

add app files

Browse files

Files changed (5) hide show

.env +3 -0
.gitignore +1 -0
app.py +163 -0
htmlTemplates.py +44 -0
requirements.txt +18 -0

.env ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ OPENAI_API_KEY=
2	+ HUGGINGFACEHUB_API_TOKEN=
3	+

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ /venv

app.py ADDED Viewed

	@@ -0,0 +1,163 @@

+import os
+import streamlit as st
+from dotenv import load_dotenv
+from PyPDF2 import PdfReader
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.embeddings import HuggingFaceInstructEmbeddings, OpenAIEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.memory import ConversationBufferMemory
+from langchain.chains import ConversationalRetrievalChain
+from htmlTemplates import css, bot_template, user_template
+from langchain.llms import HuggingFaceHub
+from langchain.chat_models import ChatOpenAI
+load_dotenv()
+def update_api_token(model_choice, api_token):
+    dotenv_file = '.env'
+    if model_choice == "OpenAI":
+        with open(dotenv_file, 'r') as file:
+            lines = file.readlines()
+        with open(dotenv_file, 'w') as file:
+            for line in lines:
+                if line.startswith("OPENAI_API_KEY"):
+                    file.write(f"OPENAI_API_KEY={api_token}\n")
+                else:
+                    file.write(line)
+        os.environ['OPENAI_API_KEY'] = api_token
+    elif model_choice == "HuggingFace":
+        with open(dotenv_file, 'r') as file:
+            lines = file.readlines()
+        with open(dotenv_file, 'w') as file:
+            for line in lines:
+                if line.startswith("HUGGINGFACEHUB_API_TOKEN"):
+                    file.write(f"HUGGINGFACEHUB_API_TOKEN={api_token}\n")
+                else:
+                    file.write(line)
+        os.environ['HUGGINGFACEHUB_API_TOKEN'] = api_token
+def validate_token(model_choice):
+    if 'validation_done' not in st.session_state:
+        try:
+            if model_choice == "OpenAI":
+                st.session_state.EMBEDDINGS = OpenAIEmbeddings()
+                st.session_state.LLM = ChatOpenAI()
+            else:
+                st.session_state.EMBEDDINGS = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-xl")
+                st.session_state.LLM = HuggingFaceHub(repo_id="google/flan-t5-base", model_kwargs={"temperature": 0.5, "max_length": 512})
+            st.session_state.validation_done = True
+            return True
+        except Exception as e:
+            return False
+    else:
+        return True
+def get_pdf_text(pdf_docs):
+    text = ""
+    if pdf_docs:
+        for pdf in pdf_docs:
+            pdf_reader = PdfReader(pdf)
+            for page in pdf_reader.pages:
+                text += page.extract_text()
+    return text
+def get_text_chunks(text):
+    text_splitter = CharacterTextSplitter(
+        separator="\n",
+        chunk_size=1000,
+        chunk_overlap=200,
+        length_function=len
+    )
+    chunks = text_splitter.split_text(text)
+    return chunks
+def get_vectorstore(text_chunks, embeddings):
+    vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
+    return vectorstore
+def get_conversation_chain(llm, embeddings, vectorstore=None):
+    if llm is None or embeddings is None:
+        raise ValueError("LLM or EMBEDDINGS is not initialized.")
+    memory = ConversationBufferMemory(memory_key='chat_history', return_messages=True)
+    if vectorstore is None:
+        dummy_text = [""]
+        vectorstore = FAISS.from_texts(texts=dummy_text, embedding=embeddings)
+    retriever = vectorstore.as_retriever()
+    conversation_chain = ConversationalRetrievalChain.from_llm(llm=llm, retriever=retriever, memory=memory)
+    return conversation_chain
+def handle_userinput(user_question):
+    response = st.session_state.conversation({'question': user_question})
+    st.session_state.chat_history = response['chat_history']
+    for i, message in enumerate(st.session_state.chat_history):
+        if i % 2 == 0:
+            st.write(user_template.replace(
+                "{{MSG}}", message.content), unsafe_allow_html=True)
+        else:
+            st.write(bot_template.replace(
+                "{{MSG}}", message.content), unsafe_allow_html=True)
+def main():
+    global LLM, EMBEDDINGS
+    LLM = None
+    EMBEDDINGS = None
+    st.set_page_config(page_title="Chat with multiple PDFs", page_icon=":mag:")
+    st.write(css, unsafe_allow_html=True)
+    st.header("Chat with multiple PDFs :mag:")
+    # User options for LLM and Embeddings
+    model_choice = st.radio("Choose your model", ("OpenAI", "HuggingFace"))
+    api_token = st.text_input("Enter your API token", type="password")
+    if st.button("Save API Token"):
+        update_api_token(model_choice, api_token)
+        with st.spinner("Validating API Token..."):
+            if validate_token(model_choice):
+                st.success(f"{model_choice} API token saved and model uploaded!")
+            else:
+                st.error("Invalid API token. Please try again.")
+            print("LLM : ", st.session_state.LLM)
+            print("EMBEDDINGS : ", st.session_state.EMBEDDINGS)
+    if 'LLM' in st.session_state:
+        LLM = st.session_state.LLM
+    if 'EMBEDDINGS' in st.session_state:
+        EMBEDDINGS = st.session_state.EMBEDDINGS
+    if "user_question" not in st.session_state:
+        st.session_state.user_question = ""
+    user_question = st.text_input("Ask a question about your documents:", key="question_input", value=st.session_state.user_question)
+    submit_button = st.button("Submit")
+    if submit_button and user_question:
+        if LLM is None or EMBEDDINGS is None:
+            st.error("LLM or EMBEDDINGS is not initialized.")
+        else:
+            if "conversation" not in st.session_state:
+                st.session_state.conversation = get_conversation_chain(LLM, EMBEDDINGS)
+            if "chat_history" not in st.session_state:
+                st.session_state.chat_history = []
+            handle_userinput(user_question)
+            st.session_state.user_question = ""
+    with st.sidebar:
+        st.subheader("Your documents")
+        pdf_docs = st.file_uploader("Upload your PDFs here and click on 'Process'", accept_multiple_files=True)
+        if st.button("Process"):
+            if LLM is None or EMBEDDINGS is None:
+                st.error("LLM or EMBEDDINGS is not initialized.")
+            else:
+                with st.spinner("Processing"):
+                    raw_text = get_pdf_text(pdf_docs)
+                    text_chunks = get_text_chunks(raw_text)
+                    vectorstore = get_vectorstore(text_chunks, EMBEDDINGS)
+                    st.session_state.conversation = get_conversation_chain(LLM, EMBEDDINGS, vectorstore=vectorstore)
+if __name__ == '__main__':
+    main()

htmlTemplates.py ADDED Viewed

	@@ -0,0 +1,44 @@

+css = '''
+<style>
+.chat-message {
+    padding: 1.5rem; border-radius: 0.5rem; margin-bottom: 1rem; display: flex
+}
+.chat-message.user {
+    background-color: #2b313e
+}
+.chat-message.bot {
+    background-color: #475063
+}
+.chat-message .avatar {
+  width: 20%;
+}
+.chat-message .avatar img {
+  max-width: 78px;
+  max-height: 78px;
+  border-radius: 50%;
+  object-fit: cover;
+}
+.chat-message .message {
+  width: 80%;
+  padding: 0 1.5rem;
+  color: #fff;
+}
+'''
+bot_template = '''
+<div class="chat-message bot">
+    <div class="avatar">
+        <img src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/2wCEAAkGBwgHBgkIBwgKCgkLDRYPDQwMDRsUFRAWIB0iIiAdHx8kKDQsJCYxJx8fLT0tMTU3Ojo6Iys/RD84QzQ5OjcBCgoKDQwNGg8PGjclHyU3Nzc3Nzc3Nzc3Nzc3Nzc3Nzc3Nzc3Nzc3Nzc3Nzc3Nzc3Nzc3Nzc3Nzc3Nzc3Nzc3N//AABEIAJQAnwMBIgACEQEDEQH/xAAcAAEAAgIDAQAAAAAAAAAAAAAABQYDBAECBwj/xABBEAABAwIDBAYGBwUJAAAAAAABAAIDBBEFEiEGMUFRBxMyYXGBIiNCUnKRkqGxs8HR0hQzsuHxFSQmNENiZHSi/8QAGAEBAQEBAQAAAAAAAAAAAAAAAAECAwT/xAAeEQEAAwACAgMAAAAAAAAAAAAAAQIRAxIxQRMhIv/aAAwDAQACEQMRAD8A9xREQEREBERARFjdKxu94QZEUbXVVQS1tIBb2nE2WnevPFv01qKymp5FA5sQbqC36S36GrlLHNqw1rhucDvCk1w1vourZGu7LgV2UUREQEREBERAREQEREBY55WxMzHyXdxDQSTYDioifEYaiYCA5hGbG4sLqxA2i9z9ZX5RyC0MQxPDsPYDV1UFMN95Xht/mvFNt+kjFMQxCejwepdS0MbjH1kYtJKRoTm4DlbxuqC4OlkdJI50kjtS95LnHxJ3rpFXOb4+ip+kHZKB2U43TPPKEOk/hBWm7pS2RB/z858KOX9K8EEZI1XcRLXRj5HvDOlHZFxt/aEzfipJf0rfptvtlao5Y8cpWuOgEpMd/pAL53Ma6mPQ2CdT5IfU9LW09ZH1lJURTM96J4d9i24qssIDtW8dV8mwPlo5hNSSPglbufE4tI8wvTejvpCxCoxSHCMdmE7ZzkgqC2zw/wB1x4g7gd/iszVuLPdQQQCDoVyouixOC4p5C4SDiRp3KUXKXQREQEREBERAREQamKEijfY8lVoHZXT/ABfgrXXxulpXtYLu3gKn6xyyh4IPIrdUl830zfVR/CPsVj2Z2cq8fqnQ0pYxrADJK++Vt927ed+irlKfUx/CFaNnNpq3Ao5WUTYT1pBPWNvYjzXame3j55tk9fLY2k2TrNn8hqHsmhebCWMEWPIg7lCCNT2M7WYhjVIKatEOUPD7saQSR5qDz7rneus5v048c3z9+XXq+asez2xNdjlKamOWOnhvZrpGlxf4AcO9V7rNVYsN21xTDKGKkpRThkQIBcwk2vfmkZ7Tk+TPwgMfwepwatdSVbQHgAgtNw4cx8lr4BptFhB/59P941b+0eO1WOVDJ6wRhzGZGhgsN91H4Ef8QYV/3oPvGrlfPT0cPbI7eX0REb1rvJWynN4WE8lUaEOkrCGAuJ5BW+FuSNrTwC4WeuHdERZUREQEREBERAUDtPATDHUAXaz0Xi3AqeXV7Q9ha5oLToQeKR9D5M2hwWfAMQfTSsd1Bd6iW3ovbw1524LQY+3FfT2K7JwVTHMhLOrdvhmbmaVRsU6KqOR7nMw6SEnjSym30Tp9S7Rdymjx9sverLsjj9DhLpmYlSNnhlsQ4Ma5zCPHgpqq6MRE6wq62I8BLB/Rabujif2cUaPGnP6luOTHG/DF69ZQ+1GNUuK1wloqVlPAxuVgDA0u7zZQRl71dm9HEt/TxO/w05/Ut6i6LmzH9/XTAb+riDR8ypN9WvD1rEQ83c+6sOwmCT4pjVNV9W4UlLKJXSW0c5puGjmbgL07COiqjhc2R1C0uHtVcpf/AORpfyV9wrZ+lw/K4+se3s+iA1vgFi13WtMbmE07qegiY8Wfa7vE6rdRFydRERAREQEREBERAXBNhdclVrG8QfMTDE4iEaEj2j+SsRomBilGZupbO18nJgJ+tcmeSQ2jFm81D4JTNZB1lvTlO/kFMEhje5XMRD4wyf0ZWAvto4Df4qG/bP8AcrSTckrDJS00pvLBE88y0LQrgrCdATfkOKnsLjmjhL5btc43AvuHes0VPBCbxQxsPNrQCsiIzR1bmOyyek3nxCyx4hSyS9W2ZufdlcCD9a0pOCjsQiF2ygC97FZ6iz3XKh8HrXG0Errj2XH7FMLLQiIgIiICIiAiIg08Un6mmIHafoFVajXRTmMSZ5so9gfzUHOt1RM4Q7+7Qge6s8st3W4BaFKHU9PCCbEszDzWTOqjYzpnWtnTOg2c6Z1rZ0zoM8j9FqVrrxD4gu0kmgWKZpkp3vG5hbfz0QKe4sQdVZKaXrYWu48fFVuDcprDX2Dmc9VJWG+iIsKIiICIiAuDuXKFBXax2aR7uZKi57nQC5OgUpWsMcjmu5/NYsNpXVFYx9vVRnM4/gt+mW5jNIxsVO6xBY3q87TY92oUV61vZnuOTxf6wrTVwCop3xHiNO4qqPJY9zHgtINiEqsskU+dpzZQ4EggFZMxWo4td2g0+IXGWP3R81UbedY5Zy0tawtu7TU7lgyx8WhcZ2t0YAPAIO7usebvmcByYMql6CjY3B6hzW6yAkE6k23KIpo31M7Iou04/JXCOJscTY2j0WtyhZtKq1T8FKURtI1aUtO6mqHRuFm39E8wt2haXvFuGpVnwJUIiLCiIiAiIgIiIOkkMcv7xjXW5hcsY1jcrGho5ALsiAojGcMNSOvpx61u9vvD81LogobnlpLXCzhoQd4XBlHmrjW4bSVus8QL7dtujvmoqTZdhPqqtzfiZf8AELfaExAmW/FcxNfNIGRNL3E6NbvU9FsvE1wMtVI8cmtDfzUvSUNPRttTxhpO87yfNJsNbB8N/YY88ljO/tHl3KSRFhXV8bHiz2hw7wjWNYLMaAO4LsiAiIgIiICIiAiIgIiICIiDo6RrNXGywurYG73rO5odvAK6GmhP+mEHRtZA7c9Zmva7sm66CniG5gWQNA3CyDlERAREQEREBERAREQEREBERAREQEREBERAREQEREBERAREQf/Z" style="max-height: 78px; max-width: 78px; border-radius: 50%; object-fit: cover;">
+    </div>
+    <div class="message">{{MSG}}</div>
+</div>
+'''
+user_template = '''
+<div class="chat-message user">
+    <div class="avatar">
+        <img src="https://img.freepik.com/premium-vector/anonymous-user-circle-icon-vector-illustration-flat-style-with-long-shadow_520826-1931.jpg">
+    </div>
+    <div class="message">{{MSG}}</div>
+</div>
+'''

requirements.txt ADDED Viewed

	@@ -0,0 +1,18 @@

+pydantic==1.10.9
+langchain==0.2.5
+langchain-community
+PyPDF2==3.0.1
+pydantic==1.10.9
+python-dotenv==1.0.0
+streamlit==1.18.1
+openai==0.27.6
+faiss-cpu==1.7.4
+altair==4
+tiktoken==0.4.0
+# uncomment to use huggingface llms
+huggingface-hub==0.14.1
+# uncomment to use instructor embeddings
+InstructorEmbedding==1.0.1
+sentence-transformers==2.2.2