Spaces:

3gg
/

isa

Sleeping

3gg commited on May 9, 2023

Commit

074f5a4

1 Parent(s): 6fcd382

Add overlap and reduce search count.

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,10 +9,13 @@ from langchain.vectorstores import FAISS
 # Number of search results to query from the vector database.
-SIMILARITY_SEARCH_COUNT = 7
 # Size of each document chunk in number of characters.
-CHUNK_SIZE = 500
 # Maximum number of output tokens.
 MODEL_MAX_LENGTH = 500
@@ -23,7 +26,7 @@ loader = PyMuPDFLoader("rdna3-shader-instruction-set-architecture-feb-2023_0.pdf
 documents = loader.load()
 print("Creating chunks")
-splitter = RecursiveCharacterTextSplitter(chunk_size=CHUNK_SIZE, chunk_overlap=0)
 chunks = splitter.split_documents(documents)
 print("Creating database")

 # Number of search results to query from the vector database.
+SIMILARITY_SEARCH_COUNT = 3
 # Size of each document chunk in number of characters.
+CHUNK_SIZE = 800
+# Chunk overlap in number of characters.
+CHUNK_OVERLAP = 50
 # Maximum number of output tokens.
 MODEL_MAX_LENGTH = 500
 documents = loader.load()
 print("Creating chunks")
+splitter = RecursiveCharacterTextSplitter(chunk_size=CHUNK_SIZE, chunk_overlap=CHUNK_OVERLAP)
 chunks = splitter.split_documents(documents)
 print("Creating database")