Spaces:

Cachoups
/

LoL_Lore

Sleeping

Cachoups commited on Feb 28, 2025

Commit

bce90b4

verified ·

1 Parent(s): 32fa615

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -52,8 +52,8 @@ tokenizer_name = EMBEDDING_MODEL_NAME
 # Token splitting for more context split
 text_splitter = TokenTextSplitter.from_huggingface_tokenizer(
     tokenizer=AutoTokenizer.from_pretrained(tokenizer_name),
-    chunk_size=300,
-    chunk_overlap=30
 )
 chunks = text_splitter.split_documents(documents) # chunks used for LLM generation
@@ -68,7 +68,7 @@ for i, doc in enumerate(chunks):
     doc.metadata["index"] = i  # Add an index for tracking
 """Retriever"""
-bm25_retriever = BM25Retriever.from_documents(chunks_bm25, k = 2) # 2 most similar contexts
 def retriever(query):
     tmp = bm25_retriever.invoke(preprocess_for_bm25(query))

 # Token splitting for more context split
 text_splitter = TokenTextSplitter.from_huggingface_tokenizer(
     tokenizer=AutoTokenizer.from_pretrained(tokenizer_name),
+    chunk_size=150,
+    chunk_overlap=15
 )
 chunks = text_splitter.split_documents(documents) # chunks used for LLM generation
     doc.metadata["index"] = i  # Add an index for tracking
 """Retriever"""
+bm25_retriever = BM25Retriever.from_documents(chunks_bm25, k = 4) # 2 most similar contexts
 def retriever(query):
     tmp = bm25_retriever.invoke(preprocess_for_bm25(query))