Spaces:

eaglelandsonce
/

QueryaWebsite

Runtime error

App Files Files Community

eaglelandsonce commited on Sep 30, 2023

Commit

bc388c1

1 Parent(s): adc6014

Update utils.py

Browse files

Files changed (1) hide show

utils.py +7 -7

utils.py CHANGED Viewed

@@ -6,8 +6,8 @@ import asyncio
 from langchain.document_loaders.sitemap import SitemapLoader
-#Function to fetch data from website
-#https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/sitemap
 def get_website_data(sitemap_url):
     loop = asyncio.new_event_loop()
@@ -20,7 +20,7 @@ def get_website_data(sitemap_url):
     return docs
-#Function to split data into smaller chunks
 def split_data(docs):
     text_splitter = RecursiveCharacterTextSplitter(
@@ -32,13 +32,13 @@ def split_data(docs):
     docs_chunks = text_splitter.split_documents(docs)
     return docs_chunks
-#Function to create embeddings instance
 def create_embeddings():
     embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
     return embeddings
-#Function to push data to Pinecone
 def push_to_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,embeddings,docs):
     pinecone.init(
@@ -50,7 +50,7 @@ def push_to_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,em
     index = Pinecone.from_documents(docs, embeddings, index_name=index_name)
     return index
-#Function to pull index data from Pinecone
 def pull_from_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,embeddings):
     pinecone.init(
@@ -63,7 +63,7 @@ def pull_from_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,
     index = Pinecone.from_existing_index(index_name, embeddings)
     return index
-#This function will help us in fetching the top relevent documents from our vector store - Pinecone Index
 def get_similar_docs(index,query,k=2):
     similar_docs = index.similarity_search(query, k=k)

 from langchain.document_loaders.sitemap import SitemapLoader
+#Step 1: Loading data from website
 def get_website_data(sitemap_url):
     loop = asyncio.new_event_loop()
     return docs
+#Step 2:Split data into smaller chunks
 def split_data(docs):
     text_splitter = RecursiveCharacterTextSplitter(
     docs_chunks = text_splitter.split_documents(docs)
     return docs_chunks
+#Step3: Embedding this Function to create embeddings instance
 def create_embeddings():
     embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
     return embeddings
+#Step 3: Push data to Pinecone
 def push_to_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,embeddings,docs):
     pinecone.init(
     index = Pinecone.from_documents(docs, embeddings, index_name=index_name)
     return index
+#Step 4 & 5 pull index data from Pinecone
 def pull_from_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,embeddings):
     pinecone.init(
     index = Pinecone.from_existing_index(index_name, embeddings)
     return index
+#Step 4 & 5 Fetch the top relevent documents from our vector store - Pinecone Index
 def get_similar_docs(index,query,k=2):
     similar_docs = index.similarity_search(query, k=k)