Spaces:

VashuTheGreat2
/

Multi-Rag

Sleeping

App Files Files Community

VashuTheGreat2 commited on 4 days ago

Commit

1e6d8a7

verified ·

1 Parent(s): 5cf4ac9

Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

.github/workflows/test.yml +33 -0
README.md +20 -1
debug_transformers.py +3 -0
graph.png +0 -0
main.py +8 -8
pyproject.toml +3 -0
src/MultiRag/components/content_embedder.py +9 -1
src/MultiRag/tests/run_pipeline_test.py +115 -115
src/MultiRag/tests/test_run_pipeline.py +122 -0
src/MultiRag/utils/ingestion_utils.py +34 -2
uv.lock +68 -0
worker_sub_graph.png +0 -0

.github/workflows/test.yml ADDED Viewed

	@@ -0,0 +1,33 @@

+name: Python Tests
+on:
+  pull_request:
+    branches:
+      - main
+jobs:
+  test:
+    runs-on: ubuntu-latest
+    steps:
+      - name: Checkout Code
+        uses: actions/checkout@v4
+      - name: Install uv
+        uses: astral-sh/setup-uv@v5
+      - name: Install Dependencies
+        run: uv sync
+      - name: Run Tests
+        env:
+          GROQ_API_KEY: ${{ secrets.GROQ_API_KEY }}
+          AWS_ACCESS_KEY_ID: ${{ secrets.AWS_ACCESS_KEY_ID }}
+          AWS_SECRET_ACCESS_KEY: ${{ secrets.AWS_SECRET_ACCESS_KEY }}
+          AWS_DEFAULT_REGION: ${{ secrets.AWS_DEFAULT_REGION }}
+          TAVILY_API_KEY: ${{ secrets.TAVILY_API_KEY }}
+          Gemini_API_Key: ${{ secrets.Gemini_API_Key }}
+          HF_TOKEN: ${{ secrets.HF_TOKEN }}
+          HUGGINGFACEHUB_ACCESS_TOKEN: ${{ secrets.HUGGINGFACEHUB_ACCESS_TOKEN }}
+          APP_API_KEY: ${{ secrets.APP_API_KEY }}
+        run: uv run pytest -v

README.md CHANGED Viewed

@@ -58,12 +58,31 @@ The worker sub-graph is responsible for specialized information retrieval from v
   - **TXT**: Plain text analysis.
   - **Images (OCR)**: Extraction of text from PNG/JPG using specialized loaders.
 - **🤖 Autonomous Orchestration**: Uses a Llama-3.3-70B model on **AWS Bedrock** with a manual JSON fallback mechanism for 100% reliable structured output.
-- **🔍 Hybrid Retrieval**: Combines local FAISS vector stores with real-time Google Search integration.
 - **🧠 Persistence & Memory**: Full multi-turn conversation support with LangGraph checkpointers.
 - **⚡ Modern Tech Stack**: Built with `uv` for lightning-fast dependency management and `FastAPI` for a high-performance backend.
 ---
 ## 🛠️ Tech Stack
 - **Core**: [Python 3.12](https://www.python.org/)

   - **TXT**: Plain text analysis.
   - **Images (OCR)**: Extraction of text from PNG/JPG using specialized loaders.
 - **🤖 Autonomous Orchestration**: Uses a Llama-3.3-70B model on **AWS Bedrock** with a manual JSON fallback mechanism for 100% reliable structured output.
+- **🔍 Advanced Retrieval Pipeline**:
+  - **Hybrid Search**: Combines semantic vector search with keyword-based BM25 for maximum precision.
+  - **RRF (Reciprocal Rank Fusion)**: Merges multiple retrieval streams with mathematical rigor.
+  - **Reranking**: Uses `Flashrank` to re-score and filter the most relevant context before generation.
+  - **Multi-Query Expansion**: Generates multiple perspectives of a user query to capture hidden context.
 - **🧠 Persistence & Memory**: Full multi-turn conversation support with LangGraph checkpointers.
 - **⚡ Modern Tech Stack**: Built with `uv` for lightning-fast dependency management and `FastAPI` for a high-performance backend.
 ---
+## 🔍 Advanced Retrieval Pipeline
+Multi-RAG doesn't just "search" — it employs a sophisticated multi-stage retrieval architecture to ensure the LLM receives the most accurate and relevant context possible.
+| Technique | Description | Benefit |
+| :--- | :--- | :--- |
+| **Hybrid Search** | Dual-path retrieval using **FAISS (Dense)** and **BM25 (Sparse)**. | Captures both deep semantic meaning and exact keyword matches. |
+| **Multi-Query** | The Orchestrator decomposes complex queries into multiple specialized sub-tasks. | Ensures no part of a complex request is overlooked. |
+| **RRF** | **Reciprocal Rank Fusion** algorithm to merge results from different retrievers. | Provides a unified, unbiased ranking of candidates. |
+| **Reranker** | **Flashrank-based cross-encoding** to re-evaluate the top-K results. | Drastically reduces "hallucinations" by filtering out low-relevance noise. |
+---
+---
 ## 🛠️ Tech Stack
 - **Core**: [Python 3.12](https://www.python.org/)

debug_transformers.py ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ from transformers import pipeline
2	+
3	+ pipe = pipeline("image-text-to-text", model="zai-org/GLM-OCR")

graph.png CHANGED Viewed

main.py CHANGED Viewed

@@ -15,11 +15,11 @@ app.mount("/blog/images", StaticFiles(directory="images"), name="blog_images")
 os.makedirs(DATA_FOLDER_PATH, exist_ok=True)
 os.makedirs(DB_FOLDER_PATH, exist_ok=True)
-# if __name__ == "__main__":
-#     uv.run(
-#         "main:app",
-#         host="0.0.0.0",
-#         port=7860,
-#         reload=False,
-#         reload_excludes=["db/*", "data/*", "logs/*", "vector_db/*", ".venv/*"],
-#     )

 os.makedirs(DATA_FOLDER_PATH, exist_ok=True)
 os.makedirs(DB_FOLDER_PATH, exist_ok=True)
+if __name__ == "__main__":
+    uv.run(
+        "main:app",
+        host="0.0.0.0",
+        port=7860,
+        reload=False,
+        reload_excludes=["db/*", "data/*", "logs/*", "vector_db/*", ".venv/*"],
+    )

pyproject.toml CHANGED Viewed

@@ -11,6 +11,7 @@ dependencies = [
     "easyocr>=1.7.2",
     "faiss-cpu>=1.13.2",
     "fastapi>=0.135.1",
     "keybert>=0.9.0",
     "langchain>=1.2.10",
     "langchain-aws>=1.3.1",
@@ -28,7 +29,9 @@ dependencies = [
     "pi-heif>=1.3.0",
     "pillow>=12.1.1",
     "pytesseract>=0.3.13",
     "python-multipart>=0.0.22",
     "sentence-transformers>=5.2.3",
     "transformers>=5.3.0",
     "unstructured>=0.21.5",

     "easyocr>=1.7.2",
     "faiss-cpu>=1.13.2",
     "fastapi>=0.135.1",
+    "flashrank>=0.2.10",
     "keybert>=0.9.0",
     "langchain>=1.2.10",
     "langchain-aws>=1.3.1",
     "pi-heif>=1.3.0",
     "pillow>=12.1.1",
     "pytesseract>=0.3.13",
+    "pytest>=9.0.3",
     "python-multipart>=0.0.22",
+    "rank-bm25>=0.2.2",
     "sentence-transformers>=5.2.3",
     "transformers>=5.3.0",
     "unstructured>=0.21.5",

src/MultiRag/components/content_embedder.py CHANGED Viewed

@@ -21,7 +21,15 @@ class ContentRetreiver(Retreiver):
         self.retriever = retriever
     async def retreive(self, query: str):
-        return await self.retriever.ainvoke(query)
 class ContentEmbedder:
     def __init__(self, content_embedder_config: ContentEmbedderConfig):
         self.content_embedder_config = content_embedder_config

         self.retriever = retriever
     async def retreive(self, query: str):
+        docs = await self.retriever.ainvoke(query)
+        # Ensure metadata is serializable (convert np.float32 to float)
+        for doc in docs:
+            if hasattr(doc, "metadata") and "relevance_score" in doc.metadata:
+                try:
+                    doc.metadata["relevance_score"] = float(doc.metadata["relevance_score"])
+                except (TypeError, ValueError):
+                    pass
+        return docs
 class ContentEmbedder:
     def __init__(self, content_embedder_config: ContentEmbedderConfig):
         self.content_embedder_config = content_embedder_config

src/MultiRag/tests/run_pipeline_test.py CHANGED Viewed

@@ -1,137 +1,137 @@
-import os
-import sys
-import asyncio
-sys.path.append(os.getcwd())
-from dotenv import load_dotenv
-load_dotenv()
-from logger import *
-import logging
-from src.MultiRag.pipeline.run_pipeline import RunPipeline
-from src.MultiRag.models.rag_model import Content
-from src.MultiRag.components.content_embedder import ContentEmbedder
-from src.MultiRag.entity.config_entity import ContentEmbedderConfig
-import os
-# ============= generating retreivers ===========================
-async def generate_retreivers(thread_id):
-    for file in os.listdir("docs"):
-        logging.info(f"Processing file: {file}")
-        content_embedder_config = ContentEmbedderConfig(
-            file_path=f"docs/{file}",
-            vector_store_path=f"db/{thread_id}/{file}",  # Updated path structure
-        )
-        component = ContentEmbedder(content_embedder_config=content_embedder_config)
-        retreiver = await component.embed_content()
-        logging.info(f"Generated retreiver for {file}: {retreiver}")
-# ============= testing pdf query loading =======================
-async def pdf_test():
-    run_pipeline = RunPipeline()
-    # Mocking user uploaded files
-    temp_user_content = [
-        Content(
-            name="AI_Intro.pdf",
-            about="An introductory document about Artificial Intelligence and Machine Learning.",
-            path="docs/AI_Intro.pdf"
-        )
-    ]
-    res = await run_pipeline.initiate(
-        thread_id="1",
-        query="What does the AI_Intro.pdf say about Neural Networks? Use the pdf",
-        userContent=temp_user_content
-    )
-    logging.info(f"Final Pipeline Response: {res}")
-# ============= testing txt query loading =======================
-async def txt_test():
-    run_pipeline = RunPipeline()
-    # Mocking user uploaded files
-    temp_user_content = [
-        Content(
-            name="growing_ai_tools.txt",
-            about="General notes about growing AI tools.",
-            path="docs/growing_ai_tools.txt"
-        )
-    ]
-    res = await run_pipeline.initiate(
-        thread_id="1",
-        query="What does the growing_ai_tools.txt say about AI tools? use the txt file",
-        userContent=temp_user_content
-    )
-    logging.info(f"Final Pipeline Response: {res}")
-# ============= testing docs query loading =======================
-async def docx_test():
-    run_pipeline = RunPipeline()
-    # Mocking user uploaded files
-    temp_user_content = [
-        Content(
-            name="google.docx",
-            about="General notes about company Google.",
-            path="docs/google.docx"
-        )
-    ]
-    res = await run_pipeline.initiate(
-        thread_id="1",
-        query="What does the google.docx say about Google? use the docx file",
-        userContent=temp_user_content
-    )
-    logging.info(f"Final Pipeline Response: {res}")
-# ============= testing image query loading =======================
-async def image_test():
-    run_pipeline = RunPipeline()
-    # Mocking user uploaded files
-    temp_user_content = [
-        Content(
-            name="lena.png",
-            about="An image of a girl.",
-            path="docs/lena.png"
-        )
-    ]
-    res = await run_pipeline.initiate(
-        thread_id="1",
-        query="What does the lena.png say about the girl? use the image file",
-        userContent=temp_user_content
-    )
-    logging.info(f"Final Pipeline Response: {res}")
-# ============== Running all the tests =============================
-async def main():
-    logging.info("Starting generating retreivers...")
-    await generate_retreivers(thread_id="1")
-    logging.info("Retreivers generated successfully. Starting pipeline tests...")
-    logging.info("Starting pipeline tests...")
-    await pdf_test()
-    await txt_test()
-    await docx_test()
-    await image_test()
-    logging.info("Pipeline tests completed.")
-asyncio.run(main())

+# import os
+# import sys
+# import asyncio
+# sys.path.append(os.getcwd())
+# from dotenv import load_dotenv
+# load_dotenv()
+# from logger import *
+# import logging
+# from src.MultiRag.pipeline.run_pipeline import RunPipeline
+# from src.MultiRag.models.rag_model import Content
+# from src.MultiRag.components.content_embedder import ContentEmbedder
+# from src.MultiRag.entity.config_entity import ContentEmbedderConfig
+# import os
+# # ============= generating retreivers ===========================
+# async def generate_retreivers(thread_id):
+#     for file in os.listdir("docs"):
+#         logging.info(f"Processing file: {file}")
+#         content_embedder_config = ContentEmbedderConfig(
+#             file_path=f"docs/{file}",
+#             vector_store_path=f"db/{thread_id}/{file}",  # Updated path structure
+#         )
+#         component = ContentEmbedder(content_embedder_config=content_embedder_config)
+#         retreiver = await component.embed_content()
+#         logging.info(f"Generated retreiver for {file}: {retreiver}")
+# # ============= testing pdf query loading =======================
+# async def pdf_test():
+#     run_pipeline = RunPipeline()
+#     # Mocking user uploaded files
+#     temp_user_content = [
+#         Content(
+#             name="AI_Intro.pdf",
+#             about="An introductory document about Artificial Intelligence and Machine Learning.",
+#             path="docs/AI_Intro.pdf"
+#         )
+#     ]
+#     res = await run_pipeline.initiate(
+#         thread_id="1",
+#         query="What does the AI_Intro.pdf say about Neural Networks? Use the pdf",
+#         userContent=temp_user_content
+#     )
+#     logging.info(f"Final Pipeline Response: {res}")
+# # ============= testing txt query loading =======================
+# async def txt_test():
+#     run_pipeline = RunPipeline()
+#     # Mocking user uploaded files
+#     temp_user_content = [
+#         Content(
+#             name="growing_ai_tools.txt",
+#             about="General notes about growing AI tools.",
+#             path="docs/growing_ai_tools.txt"
+#         )
+#     ]
+#     res = await run_pipeline.initiate(
+#         thread_id="1",
+#         query="What does the growing_ai_tools.txt say about AI tools? use the txt file",
+#         userContent=temp_user_content
+#     )
+#     logging.info(f"Final Pipeline Response: {res}")
+# # ============= testing docs query loading =======================
+# async def docx_test():
+#     run_pipeline = RunPipeline()
+#     # Mocking user uploaded files
+#     temp_user_content = [
+#         Content(
+#             name="google.docx",
+#             about="General notes about company Google.",
+#             path="docs/google.docx"
+#         )
+#     ]
+#     res = await run_pipeline.initiate(
+#         thread_id="1",
+#         query="What does the google.docx say about Google? use the docx file",
+#         userContent=temp_user_content
+#     )
+#     logging.info(f"Final Pipeline Response: {res}")
+# # ============= testing image query loading =======================
+# async def image_test():
+#     run_pipeline = RunPipeline()
+#     # Mocking user uploaded files
+#     temp_user_content = [
+#         Content(
+#             name="lena.png",
+#             about="An image of a girl.",
+#             path="docs/lena.png"
+#         )
+#     ]
+#     res = await run_pipeline.initiate(
+#         thread_id="1",
+#         query="What does the lena.png say about the girl? use the image file",
+#         userContent=temp_user_content
+#     )
+#     logging.info(f"Final Pipeline Response: {res}")
+# # ============== Running all the tests =============================
+# async def main():
+#     logging.info("Starting generating retreivers...")
+#     await generate_retreivers(thread_id="1")
+#     logging.info("Retreivers generated successfully. Starting pipeline tests...")
+#     logging.info("Starting pipeline tests...")
+#     await pdf_test()
+#     await txt_test()
+#     await docx_test()
+#     await image_test()
+#     logging.info("Pipeline tests completed.")
+# asyncio.run(main())

src/MultiRag/tests/test_run_pipeline.py ADDED Viewed

	@@ -0,0 +1,122 @@

+import os
+import sys
+import asyncio
+sys.path.append(os.getcwd())
+import logging
+import pytest
+from dotenv import load_dotenv
+from logger import *
+from src.MultiRag.pipeline.run_pipeline import RunPipeline
+from src.MultiRag.models.rag_model import Content
+from src.MultiRag.components.content_embedder import ContentEmbedder
+from src.MultiRag.entity.config_entity import ContentEmbedderConfig
+load_dotenv()
+THREAD_ID = "1"
+@pytest.fixture(scope="session", autouse=True)
+def generate_retreivers():
+    async def _generate():
+        for file in os.listdir("docs"):
+            logging.info(f"Processing file: {file}")
+            content_embedder_config = ContentEmbedderConfig(
+                file_path=f"docs/{file}",
+                vector_store_path=f"db/{THREAD_ID}/{file}",
+            )
+            component = ContentEmbedder(content_embedder_config=content_embedder_config)
+            retreiver = await component.embed_content()
+            logging.info(f"Generated retreiver for {file}: {retreiver}")
+    asyncio.run(_generate())
+def test_pdf_query():
+    async def _run():
+        run_pipeline = RunPipeline()
+        temp_user_content = [
+            Content(
+                name="AI_Intro.pdf",
+                about="An introductory document about Artificial Intelligence and Machine Learning.",
+                path="docs/AI_Intro.pdf"
+            )
+        ]
+        res = await run_pipeline.initiate(
+            thread_id=THREAD_ID,
+            query="What does the AI_Intro.pdf say about Neural Networks? Use the pdf",
+            userContent=temp_user_content
+        )
+        logging.info(f"Final Pipeline Response: {res}")
+        return res
+    result = asyncio.run(_run())
+    assert result is not None
+def test_txt_query():
+    async def _run():
+        run_pipeline = RunPipeline()
+        temp_user_content = [
+            Content(
+                name="growing_ai_tools.txt",
+                about="General notes about growing AI tools.",
+                path="docs/growing_ai_tools.txt"
+            )
+        ]
+        res = await run_pipeline.initiate(
+            thread_id=THREAD_ID,
+            query="What does the growing_ai_tools.txt say about AI tools? use the txt file",
+            userContent=temp_user_content
+        )
+        logging.info(f"Final Pipeline Response: {res}")
+        return res
+    result = asyncio.run(_run())
+    assert result is not None
+def test_docx_query():
+    async def _run():
+        run_pipeline = RunPipeline()
+        temp_user_content = [
+            Content(
+                name="google.docx",
+                about="General notes about company Google.",
+                path="docs/google.docx"
+            )
+        ]
+        res = await run_pipeline.initiate(
+            thread_id=THREAD_ID,
+            query="What does the google.docx say about Google? use the docx file",
+            userContent=temp_user_content
+        )
+        logging.info(f"Final Pipeline Response: {res}")
+        return res
+    result = asyncio.run(_run())
+    assert result is not None
+def test_image_query():
+    async def _run():
+        run_pipeline = RunPipeline()
+        temp_user_content = [
+            Content(
+                name="lena.png",
+                about="An image of a girl.",
+                path="docs/lena.png"
+            )
+        ]
+        res = await run_pipeline.initiate(
+            thread_id=THREAD_ID,
+            query="What does the lena.png say about the girl? use the image file",
+            userContent=temp_user_content
+        )
+        logging.info(f"Final Pipeline Response: {res}")
+        return res
+    result = asyncio.run(_run())
+    assert result is not None

src/MultiRag/utils/ingestion_utils.py CHANGED Viewed

@@ -6,6 +6,10 @@ from langchain_huggingface import HuggingFaceEmbeddings
 from utils.asyncHandler import asyncHandler
 from src.MultiRag.constants import EMBEDDING_MODEL
 from src.MultiRag.constants import EXCEPTED_FILE_TYPE, RETREIVER_DEFAULT_K
 import logging
 # ---------------- Embedding Model ----------------
@@ -140,8 +144,36 @@ async def create_vector_store(path: str = "db", docs: str = "data"):
 # ---------------- Retriever ----------------
 @asyncHandler
 async def create_retreiver(vectorstore, k: int = RETREIVER_DEFAULT_K):
-    retriever = vectorstore.as_retriever(search_kwargs={"k": k})
-    return retriever
 # ---------------- Get Raw Documents ----------------

 from utils.asyncHandler import asyncHandler
 from src.MultiRag.constants import EMBEDDING_MODEL
 from src.MultiRag.constants import EXCEPTED_FILE_TYPE, RETREIVER_DEFAULT_K
+from langchain_classic.retrievers import EnsembleRetriever
+from langchain_community.retrievers import BM25Retriever
+from langchain_classic.retrievers.contextual_compression import ContextualCompressionRetriever
+from langchain_community.document_compressors import FlashrankRerank
 import logging
 # ---------------- Embedding Model ----------------
 # ---------------- Retriever ----------------
 @asyncHandler
 async def create_retreiver(vectorstore, k: int = RETREIVER_DEFAULT_K):
+    # 1. Extract documents from FAISS vectorstore to use with BM25
+    logging.info("Extracting documents from vectorstore for BM25...")
+    # FAISS stores documents in docstore._dict
+    documents = list(vectorstore.docstore._dict.values())
+    # 2. Vector search retriever
+    # We set a slightly higher k for base retrievers to give the reranker more options
+    base_k = max(k * 2, 20)
+    vector_retriever = vectorstore.as_retriever(search_kwargs={"k": base_k})
+    # 3. BM25 search retriever
+    bm25_retriever = BM25Retriever.from_documents(documents)
+    bm25_retriever.k = base_k
+    # 4. Hybrid Searching (Ensemble)
+    hybrid_retriever = EnsembleRetriever(
+        retrievers=[vector_retriever, bm25_retriever],
+        weights=[0.7, 0.3]
+    )
+    # 5. Reranker
+    compressor = FlashrankRerank(top_n=k)
+    # 6. Final Compression Retriever
+    compression_retriever = ContextualCompressionRetriever(
+        base_compressor=compressor,
+        base_retriever=hybrid_retriever
+    )
+    return compression_retriever
 # ---------------- Get Raw Documents ----------------

uv.lock CHANGED Viewed

@@ -51,6 +51,7 @@ dependencies = [
     { name = "easyocr" },
     { name = "faiss-cpu" },
     { name = "fastapi" },
     { name = "keybert" },
     { name = "langchain" },
     { name = "langchain-aws" },
@@ -68,7 +69,9 @@ dependencies = [
     { name = "pi-heif" },
     { name = "pillow" },
     { name = "pytesseract" },
     { name = "python-multipart" },
     { name = "sentence-transformers" },
     { name = "transformers" },
     { name = "unstructured" },
@@ -85,6 +88,7 @@ requires-dist = [
     { name = "easyocr", specifier = ">=1.7.2" },
     { name = "faiss-cpu", specifier = ">=1.13.2" },
     { name = "fastapi", specifier = ">=0.135.1" },
     { name = "keybert", specifier = ">=0.9.0" },
     { name = "langchain", specifier = ">=1.2.10" },
     { name = "langchain-aws", specifier = ">=1.3.1" },
@@ -102,7 +106,9 @@ requires-dist = [
     { name = "pi-heif", specifier = ">=1.3.0" },
     { name = "pillow", specifier = ">=12.1.1" },
     { name = "pytesseract", specifier = ">=0.3.13" },
     { name = "python-multipart", specifier = ">=0.0.22" },
     { name = "sentence-transformers", specifier = ">=5.2.3" },
     { name = "transformers", specifier = ">=5.3.0" },
     { name = "unstructured", specifier = ">=0.21.5" },
@@ -1007,6 +1013,22 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/18/79/1b8fa1bb3568781e84c9200f951c735f3f157429f44be0495da55894d620/filetype-1.2.0-py2.py3-none-any.whl", hash = "sha256:7ce71b6880181241cf7ac8697a2f1eb6a8bd9b429f7ad6d27b8db9ba5f1c2d25", size = 19970, upload-time = "2022-11-02T17:34:01.425Z" },
 ]
 [[package]]
 name = "flatbuffers"
 version = "25.12.19"
@@ -1486,6 +1508,15 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/a4/ed/1f1afb2e9e7f38a545d628f864d562a5ae64fe6f7a10e28ffb9b185b4e89/importlib_resources-6.5.2-py3-none-any.whl", hash = "sha256:789cfdc3ed28c78b67a06acb8126751ced69a3d5f79c095a98298cd8a760ccec", size = 37461, upload-time = "2025-01-03T18:51:54.306Z" },
 ]
 [[package]]
 name = "installer"
 version = "0.7.0"
@@ -3269,6 +3300,15 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/ec/d2/de599c95ba0a973b94410477f8bf0b6f0b5e67360eb89bcb1ad365258beb/pillow-12.1.1-cp314-cp314t-win_arm64.whl", hash = "sha256:7b03048319bfc6170e93bd60728a1af51d3dd7704935feb228c4d4faab35d334", size = 2546446, upload-time = "2026-02-11T04:22:50.342Z" },
 ]
 [[package]]
 name = "posthog"
 version = "5.4.0"
@@ -3821,6 +3861,22 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/7a/33/8312d7ce74670c9d39a532b2c246a853861120486be9443eebf048043637/pytesseract-0.3.13-py3-none-any.whl", hash = "sha256:7a99c6c2ac598360693d83a416e36e0b33a67638bb9d77fdcac094a3589d4b34", size = 14705, upload-time = "2024-08-16T02:36:10.09Z" },
 ]
 [[package]]
 name = "python-bidi"
 version = "0.6.7"
@@ -3973,6 +4029,18 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/f1/12/de94a39c2ef588c7e6455cfbe7343d3b2dc9d6b6b2f40c4c6565744c873d/pyyaml-6.0.3-cp314-cp314t-win_arm64.whl", hash = "sha256:ebc55a14a21cb14062aa4162f906cd962b28e2e9ea38f9b4391244cd8de4ae0b", size = 149341, upload-time = "2025-09-25T21:32:56.828Z" },
 ]
 [[package]]
 name = "rapidfuzz"
 version = "3.14.3"

     { name = "easyocr" },
     { name = "faiss-cpu" },
     { name = "fastapi" },
+    { name = "flashrank" },
     { name = "keybert" },
     { name = "langchain" },
     { name = "langchain-aws" },
     { name = "pi-heif" },
     { name = "pillow" },
     { name = "pytesseract" },
+    { name = "pytest" },
     { name = "python-multipart" },
+    { name = "rank-bm25" },
     { name = "sentence-transformers" },
     { name = "transformers" },
     { name = "unstructured" },
     { name = "easyocr", specifier = ">=1.7.2" },
     { name = "faiss-cpu", specifier = ">=1.13.2" },
     { name = "fastapi", specifier = ">=0.135.1" },
+    { name = "flashrank", specifier = ">=0.2.10" },
     { name = "keybert", specifier = ">=0.9.0" },
     { name = "langchain", specifier = ">=1.2.10" },
     { name = "langchain-aws", specifier = ">=1.3.1" },
     { name = "pi-heif", specifier = ">=1.3.0" },
     { name = "pillow", specifier = ">=12.1.1" },
     { name = "pytesseract", specifier = ">=0.3.13" },
+    { name = "pytest", specifier = ">=9.0.3" },
     { name = "python-multipart", specifier = ">=0.0.22" },
+    { name = "rank-bm25", specifier = ">=0.2.2" },
     { name = "sentence-transformers", specifier = ">=5.2.3" },
     { name = "transformers", specifier = ">=5.3.0" },
     { name = "unstructured", specifier = ">=0.21.5" },
     { url = "https://files.pythonhosted.org/packages/18/79/1b8fa1bb3568781e84c9200f951c735f3f157429f44be0495da55894d620/filetype-1.2.0-py2.py3-none-any.whl", hash = "sha256:7ce71b6880181241cf7ac8697a2f1eb6a8bd9b429f7ad6d27b8db9ba5f1c2d25", size = 19970, upload-time = "2022-11-02T17:34:01.425Z" },
 ]
+[[package]]
+name = "flashrank"
+version = "0.2.10"
+source = { registry = "https://pypi.org/simple" }
+dependencies = [
+    { name = "numpy" },
+    { name = "onnxruntime" },
+    { name = "requests" },
+    { name = "tokenizers" },
+    { name = "tqdm" },
+]
+sdist = { url = "https://files.pythonhosted.org/packages/55/1f/176cb4a857a70c3538f637e19389ab6aed21548a1ba1d1424fccc8bba108/FlashRank-0.2.10.tar.gz", hash = "sha256:f8f82a25c32fdfc668a09dc4089421d6aab8e7f71308424b541f40bb3f01d9db", size = 18905, upload-time = "2025-01-06T13:33:01.657Z" }
+wheels = [
+    { url = "https://files.pythonhosted.org/packages/ec/99/72639cc1c9221c5bc77a2df1c2d352fe11965553bdf7d3e0856e7fcc8fd6/FlashRank-0.2.10-py3-none-any.whl", hash = "sha256:5d3272ae657d793c132d1e7917ed9e2adf49e0e1c60735583a67b051c6f0434a", size = 14511, upload-time = "2025-01-06T13:32:59.42Z" },
+]
 [[package]]
 name = "flatbuffers"
 version = "25.12.19"
     { url = "https://files.pythonhosted.org/packages/a4/ed/1f1afb2e9e7f38a545d628f864d562a5ae64fe6f7a10e28ffb9b185b4e89/importlib_resources-6.5.2-py3-none-any.whl", hash = "sha256:789cfdc3ed28c78b67a06acb8126751ced69a3d5f79c095a98298cd8a760ccec", size = 37461, upload-time = "2025-01-03T18:51:54.306Z" },
 ]
+[[package]]
+name = "iniconfig"
+version = "2.3.0"
+source = { registry = "https://pypi.org/simple" }
+sdist = { url = "https://files.pythonhosted.org/packages/72/34/14ca021ce8e5dfedc35312d08ba8bf51fdd999c576889fc2c24cb97f4f10/iniconfig-2.3.0.tar.gz", hash = "sha256:c76315c77db068650d49c5b56314774a7804df16fee4402c1f19d6d15d8c4730", size = 20503, upload-time = "2025-10-18T21:55:43.219Z" }
+wheels = [
+    { url = "https://files.pythonhosted.org/packages/cb/b1/3846dd7f199d53cb17f49cba7e651e9ce294d8497c8c150530ed11865bb8/iniconfig-2.3.0-py3-none-any.whl", hash = "sha256:f631c04d2c48c52b84d0d0549c99ff3859c98df65b3101406327ecc7d53fbf12", size = 7484, upload-time = "2025-10-18T21:55:41.639Z" },
+]
 [[package]]
 name = "installer"
 version = "0.7.0"
     { url = "https://files.pythonhosted.org/packages/ec/d2/de599c95ba0a973b94410477f8bf0b6f0b5e67360eb89bcb1ad365258beb/pillow-12.1.1-cp314-cp314t-win_arm64.whl", hash = "sha256:7b03048319bfc6170e93bd60728a1af51d3dd7704935feb228c4d4faab35d334", size = 2546446, upload-time = "2026-02-11T04:22:50.342Z" },
 ]
+[[package]]
+name = "pluggy"
+version = "1.6.0"
+source = { registry = "https://pypi.org/simple" }
+sdist = { url = "https://files.pythonhosted.org/packages/f9/e2/3e91f31a7d2b083fe6ef3fa267035b518369d9511ffab804f839851d2779/pluggy-1.6.0.tar.gz", hash = "sha256:7dcc130b76258d33b90f61b658791dede3486c3e6bfb003ee5c9bfb396dd22f3", size = 69412, upload-time = "2025-05-15T12:30:07.975Z" }
+wheels = [
+    { url = "https://files.pythonhosted.org/packages/54/20/4d324d65cc6d9205fabedc306948156824eb9f0ee1633355a8f7ec5c66bf/pluggy-1.6.0-py3-none-any.whl", hash = "sha256:e920276dd6813095e9377c0bc5566d94c932c33b27a3e3945d8389c374dd4746", size = 20538, upload-time = "2025-05-15T12:30:06.134Z" },
+]
 [[package]]
 name = "posthog"
 version = "5.4.0"
     { url = "https://files.pythonhosted.org/packages/7a/33/8312d7ce74670c9d39a532b2c246a853861120486be9443eebf048043637/pytesseract-0.3.13-py3-none-any.whl", hash = "sha256:7a99c6c2ac598360693d83a416e36e0b33a67638bb9d77fdcac094a3589d4b34", size = 14705, upload-time = "2024-08-16T02:36:10.09Z" },
 ]
+[[package]]
+name = "pytest"
+version = "9.0.3"
+source = { registry = "https://pypi.org/simple" }
+dependencies = [
+    { name = "colorama", marker = "sys_platform == 'win32'" },
+    { name = "iniconfig" },
+    { name = "packaging" },
+    { name = "pluggy" },
+    { name = "pygments" },
+]
+sdist = { url = "https://files.pythonhosted.org/packages/7d/0d/549bd94f1a0a402dc8cf64563a117c0f3765662e2e668477624baeec44d5/pytest-9.0.3.tar.gz", hash = "sha256:b86ada508af81d19edeb213c681b1d48246c1a91d304c6c81a427674c17eb91c", size = 1572165, upload-time = "2026-04-07T17:16:18.027Z" }
+wheels = [
+    { url = "https://files.pythonhosted.org/packages/d4/24/a372aaf5c9b7208e7112038812994107bc65a84cd00e0354a88c2c77a617/pytest-9.0.3-py3-none-any.whl", hash = "sha256:2c5efc453d45394fdd706ade797c0a81091eccd1d6e4bccfcd476e2b8e0ab5d9", size = 375249, upload-time = "2026-04-07T17:16:16.13Z" },
+]
 [[package]]
 name = "python-bidi"
 version = "0.6.7"
     { url = "https://files.pythonhosted.org/packages/f1/12/de94a39c2ef588c7e6455cfbe7343d3b2dc9d6b6b2f40c4c6565744c873d/pyyaml-6.0.3-cp314-cp314t-win_arm64.whl", hash = "sha256:ebc55a14a21cb14062aa4162f906cd962b28e2e9ea38f9b4391244cd8de4ae0b", size = 149341, upload-time = "2025-09-25T21:32:56.828Z" },
 ]
+[[package]]
+name = "rank-bm25"
+version = "0.2.2"
+source = { registry = "https://pypi.org/simple" }
+dependencies = [
+    { name = "numpy" },
+]
+sdist = { url = "https://files.pythonhosted.org/packages/fc/0a/f9579384aa017d8b4c15613f86954b92a95a93d641cc849182467cf0bb3b/rank_bm25-0.2.2.tar.gz", hash = "sha256:096ccef76f8188563419aaf384a02f0ea459503fdf77901378d4fd9d87e5e51d", size = 8347, upload-time = "2022-02-16T12:10:52.196Z" }
+wheels = [
+    { url = "https://files.pythonhosted.org/packages/2a/21/f691fb2613100a62b3fa91e9988c991e9ca5b89ea31c0d3152a3210344f9/rank_bm25-0.2.2-py3-none-any.whl", hash = "sha256:7bd4a95571adadfc271746fa146a4bcfd89c0cf731e49c3d1ad863290adbe8ae", size = 8584, upload-time = "2022-02-16T12:10:50.626Z" },
+]
 [[package]]
 name = "rapidfuzz"
 version = "3.14.3"

worker_sub_graph.png CHANGED Viewed