Spaces:

amalsp
/

website_chatbot

Sleeping

App Files Files Community

amalsp commited on Jun 7, 2024

Commit

bf8919e

verified ·

1 Parent(s): add1033

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -5

app.py CHANGED Viewed

@@ -2,11 +2,13 @@ import gradio as gr
 import bs4
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.document_loaders import WebBaseLoader
-from langchain_community.vectorstores import Chroma
-from langchain_community.embeddings import OllamaEmbeddings
 import ollama
-# Function to load, split, and retrieve documents
 def load_and_retrieve_docs(url):
     loader = WebBaseLoader(
         web_paths=(url,),
@@ -15,10 +17,27 @@ def load_and_retrieve_docs(url):
     docs = loader.load()
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     splits = text_splitter.split_documents(docs)
-    embeddings = OllamaEmbeddings(model="nomic-embed-text")
-    vectorstore = Chroma.from_documents(documents=splits, embedding=embeddings)
     return vectorstore.as_retriever()
 # Function to format documents
 def format_docs(docs):
     return "\n\n".join(doc.page_content for doc in docs)

 import bs4
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.document_loaders import WebBaseLoader
+from langchain_community.vectorstores import FAISS
+#from langchain_community.vectorstores import Chroma
+from langchain_community.embeddings import HuggingFaceBgeEmbeddings
+#from langchain_community.embeddings import OllamaEmbeddings
 import ollama
+# Function to load, split, and retrieve documents from a URL
 def load_and_retrieve_docs(url):
     loader = WebBaseLoader(
         web_paths=(url,),
     docs = loader.load()
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     splits = text_splitter.split_documents(docs)
+    embeddings = HuggingFaceBgeEmbeddings(model_name="BAAI/bge-small-en-v1.5",
+                                          model_kwargs={'device':'cpu'},
+                                          encode_kwargs={'normalize_embeddings':True})
+    vectorstore = FAISS.from_documents(documents=splits, embedding=embeddings)
     return vectorstore.as_retriever()
+# Function to initialize vector embedding with FAISS vector store
+def vector_embedding():
+    if "vectors" not in st.session_state:
+        st.session_state.embeddings = HuggingFaceBgeEmbeddings(model_name="BAAI/bge-small-en-v1.5",
+                                                               model_kwargs={'device':'cpu'},
+                                                               encode_kwargs={'normalize_embeddings':True})
+        st.session_state.loader = PyPDFDirectoryLoader("./Data_Science")  # Data Ingestion
+        st.session_state.docs = st.session_state.loader.load()  # Document Loading
+        st.session_state.text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)  # Chunk Creation
+        st.session_state.final_documents = st.session_state.text_splitter.split_documents(st.session_state.docs[:20])  # Splitting
+        st.session_state.vectors = FAISS.from_documents(st.session_state.final_documents, st.session_state.embeddings)  # Vector HuggingFace embeddings
+        st.write("Vector Store DB Is Ready")
+    else:
+        st.write("Vectors already initialized.")
 # Function to format documents
 def format_docs(docs):
     return "\n\n".join(doc.page_content for doc in docs)