Spaces:

anl139
/

test

Sleeping

anl139 commited on Feb 12, 2025

Commit

6d0b309

verified ·

1 Parent(s): a3052bc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -78,6 +78,7 @@ text_splitter = RecursiveCharacterTextSplitter(
     chunk_size=1600,
     chunk_overlap=150,
     add_start_index=True
 )
 def split_document_with_metadata(document):
     # Split the document text into chunks.
@@ -110,10 +111,10 @@ vectorstore = Chroma.from_documents(
 print("Created new vector store and persisted embeddings.")
 # Create a BM25 retriever from the document splits.
-bm25_retriever = BM25Retriever.from_documents(all_splits)
 ensemble_retriever = EnsembleRetriever(
     retrievers=[
-        vectorstore.as_retriever(),
         bm25_retriever
     ],
     weights=[0.9, 0.1]

     chunk_size=1600,
     chunk_overlap=150,
     add_start_index=True
+    separators=["\n\n", "\n", ". ", " ", ""]
 )
 def split_document_with_metadata(document):
     # Split the document text into chunks.
 print("Created new vector store and persisted embeddings.")
 # Create a BM25 retriever from the document splits.
+bm25_retriever = BM25Retriever.from_documents(all_splits,search_kwargs={"score_threshold": 0.7})
 ensemble_retriever = EnsembleRetriever(
     retrievers=[
+        vectorstore.as_retriever(search_kwargs={"score_threshold": 0.5},),
         bm25_retriever
     ],
     weights=[0.9, 0.1]