Spaces:

Krish30
/

WhatsApp_FAQ_AI_Chatbot

Build error

App Files Files Community

Krish30 commited on Oct 13, 2024

Commit

2d12c4f

verified ·

1 Parent(s): 1991671

Upload 4 files

Browse files

Files changed (4) hide show

config.json +1 -0
main.py +82 -0
requirements.txt +9 -0
vectorize_documents.py +45 -0

config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"GROQ_API_KEY": "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"}

main.py ADDED Viewed

	@@ -0,0 +1,82 @@

+import os
+import json
+import streamlit as st
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_chroma import Chroma
+from langchain_groq import ChatGroq
+from langchain.memory import ConversationBufferMemory
+from langchain.chains import ConversationalRetrievalChain
+from vectorize_documents import embeddings
+working_dir = os.path.dirname(os.path.abspath(__file__))
+config_data = json.load(open(f"{working_dir}/config.json"))
+GROQ_API_KEY = config_data["GROQ_API_KEY"]
+os.environ["GROQ_API_KEY"]= GROQ_API_KEY
+def setup_vectorstore():
+    persist_directory = f"{working_dir}/vector_db_dir"
+    embeddings = HuggingFaceEmbeddings()
+    vectorstore = Chroma(persist_directory=persist_directory,
+                         embedding_function=embeddings)
+    return vectorstore
+def chat_chain(vectorstore):
+    llm = ChatGroq(
+        model = "llama-3.1-70b-versatile",
+        temperature = 0
+    )
+    retriever = vectorstore.as_retriever()
+    memory = ConversationBufferMemory(
+        llm = llm,
+        output_key = "answer",
+        memory_key = "chat_history",
+        return_messages = True
+    )
+    chain = ConversationalRetrievalChain.from_llm(
+        llm=llm,
+        retriever = retriever,
+        chain_type = "stuff",
+        memory = memory,
+        verbose=True,
+        return_source_documents= True
+    )
+    return chain
+st.set_page_config(
+    page_title="WhatsApp FAQ AI",
+    page_icon="🤖AI",
+    layout="centered"
+)
+st.title("🤖AI WhatsApp FAQ")
+if "chat_history" not in st.session_state:
+    st.session_state.chat_history = []
+if "vectorstore" not in st.session_state:
+    st.session_state.vectorstore = setup_vectorstore()
+if "conversational_chain" not in st.session_state:
+    st.session_state.conversational_chain = chat_chain(st.session_state.vectorstore)
+for message in st.session_state.chat_history:
+    with st.chat_message(message["role"]):
+        st.markdown(message["content"])
+user_input = st.chat_input("Ask AI....")
+if user_input:
+    st.session_state.chat_history.append({"role":"user", "content":user_input})
+    with st.chat_message("user"):
+        st.markdown(user_input)
+    with st.chat_message("assistant"):
+        response = st.session_state.conversational_chain({"question":user_input})
+        assistant_response = response["answer"]
+        st.markdown(assistant_response)
+        st.session_state.chat_history.append({"role":"assistant","content": assistant_response})

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+streamlit==1.38.0
+langchain-community==0.2.16
+langchain-text-splitters==0.2.4
+langchain-chroma==0.1.3
+langchain-huggingface==0.0.3
+langchain-groq==0.1.9
+unstructured==0.15.0
+unstructured[pdf]==0.15.0
+nltk==3.8.1

vectorize_documents.py ADDED Viewed

	@@ -0,0 +1,45 @@

+from langchain_community.document_loaders import UnstructuredFileLoader
+from langchain_community.document_loaders import DirectoryLoader
+from langchain_text_splitters import CharacterTextSplitter
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_chroma import Chroma
+# Define a function to perform vectorization
+def vectorize_documents():
+    # Loading the embedding model
+    embeddings = HuggingFaceEmbeddings()
+    loader = DirectoryLoader(
+        path="Data",
+        glob="./*.pdf",
+        loader_cls=UnstructuredFileLoader
+    )
+    documents = loader.load()
+    # Splitting the text and creating chunks of these documents.
+    text_splitter = CharacterTextSplitter(
+        chunk_size=2000,
+        chunk_overlap=500
+    )
+    text_chunks = text_splitter.split_documents(documents)
+    # Store in Chroma vector DB
+    vectordb = Chroma.from_documents(
+        documents=text_chunks,
+        embedding=embeddings,
+        persist_directory="vector_db_dir"
+    )
+    print("Documents Vectorized and saved in VectorDB")
+# Expose embeddings if needed
+embeddings = HuggingFaceEmbeddings()
+# Main guard to prevent execution on import
+if __name__ == "__main__":
+    vectorize_documents()