Spaces:

dnzblgn
/

Fastener_Agent

Sleeping

dnzblgn commited on Feb 21, 2025

Commit

b392f40

verified ·

1 Parent(s): 7aa6142

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -159,7 +159,7 @@ def create_db(splits):
     vectordb = FAISS.from_documents(splits, embeddings)
     return vectordb
-def rerank_documents(query, docs, top_k=3):
     pairs = [[query, doc.page_content] for doc in docs]
     scores = reranker.predict(pairs)
     doc_score_pairs = list(zip(docs, scores))
@@ -187,10 +187,10 @@ def retrieve_documents(query, retriever, embeddings):
         print("No initial results found")
         return []
-    reranked_results = rerank_documents(query, results, top_k=3)
     print(f"Reranked results count: {len(reranked_results)}")
-    filtered_chunks = filter_relevant_chunks(query, reranked_results, embeddings, threshold=0.7)
     print(f"Filtered chunks count: {len(filtered_chunks)}")
     if not filtered_chunks:
@@ -206,7 +206,7 @@ def retrieve_documents(query, retriever, embeddings):
         print(f"Score: {score:.4f} | Source: {doc.metadata.get('source', 'Unknown')}")
         print(f"Content Preview: {doc.page_content[:100]}...\n")
-    MIN_SIMILARITY = 0.5
     filtered_results = [(doc, sim) for doc, sim in zip(filtered_chunks, similarity_scores) if sim >= MIN_SIMILARITY]
     print(f"Final filtered results count: {len(filtered_results)}")

     vectordb = FAISS.from_documents(splits, embeddings)
     return vectordb
+def rerank_documents(query, docs, top_k=5):
     pairs = [[query, doc.page_content] for doc in docs]
     scores = reranker.predict(pairs)
     doc_score_pairs = list(zip(docs, scores))
         print("No initial results found")
         return []
+    reranked_results = rerank_documents(query, results, top_k=5)
     print(f"Reranked results count: {len(reranked_results)}")
+    filtered_chunks = filter_relevant_chunks(query, reranked_results, embeddings, threshold=0.3)
     print(f"Filtered chunks count: {len(filtered_chunks)}")
     if not filtered_chunks:
         print(f"Score: {score:.4f} | Source: {doc.metadata.get('source', 'Unknown')}")
         print(f"Content Preview: {doc.page_content[:100]}...\n")
+    MIN_SIMILARITY = 0.3
     filtered_results = [(doc, sim) for doc, sim in zip(filtered_chunks, similarity_scores) if sim >= MIN_SIMILARITY]
     print(f"Final filtered results count: {len(filtered_results)}")