coursera-assistant-3d-printing-applications

Runtime error

rohan13 commited on Jun 9, 2023

Commit

e0086ee

1 Parent(s): 9d48540

add pdf files

Files changed (1) hide show

utils.py CHANGED Viewed

@@ -7,7 +7,7 @@ from langchain import HuggingFaceHub
 from langchain.cache import InMemoryCache
 from langchain.chains import ConversationalRetrievalChain
 from langchain.chat_models import ChatOpenAI
-from langchain.document_loaders import DirectoryLoader, TextLoader, UnstructuredHTMLLoader
 from langchain.embeddings import OpenAIEmbeddings, HuggingFaceHubEmbeddings
 from langchain.memory import ConversationBufferWindowMemory
 from langchain.prompts.chat import (
@@ -151,6 +151,10 @@ def search_index_from_docs(source_chunks):
     return search_index
 def get_html_files():
     loader = DirectoryLoader('docs', glob="**/*.html", loader_cls=UnstructuredHTMLLoader, recursive=True)
     document_list = loader.load()
@@ -160,6 +164,7 @@ def get_html_files():
 def fetch_data_for_embeddings():
     document_list = get_text_files()
     document_list.extend(get_html_files())
     # use file_url_mapping to set metadata of document to url which has been set as the source
     for document in document_list:

 from langchain.cache import InMemoryCache
 from langchain.chains import ConversationalRetrievalChain
 from langchain.chat_models import ChatOpenAI
+from langchain.document_loaders import DirectoryLoader, TextLoader, UnstructuredHTMLLoader, PyPDFDirectoryLoader
 from langchain.embeddings import OpenAIEmbeddings, HuggingFaceHubEmbeddings
 from langchain.memory import ConversationBufferWindowMemory
 from langchain.prompts.chat import (
     return search_index
+def get_pdf_files():
+    loader = PyPDFDirectoryLoader('docs', glob="**/*.pdf", recursive=True)
+    document_list = loader.load()
+    return document_list
 def get_html_files():
     loader = DirectoryLoader('docs', glob="**/*.html", loader_cls=UnstructuredHTMLLoader, recursive=True)
     document_list = loader.load()
 def fetch_data_for_embeddings():
     document_list = get_text_files()
     document_list.extend(get_html_files())
+    document_list.extend(get_pdf_files())
     # use file_url_mapping to set metadata of document to url which has been set as the source
     for document in document_list: