Spaces:

SanskarModi
/

atlasrag-backend

Sleeping

App Files Files Community

SanskarModi commited on Dec 20, 2025

Commit

cc246c6

1 Parent(s): 0e9b9ae

added workflow

Browse files

Files changed (30) hide show

.dockerignore +28 -0
.github/workflows/deploy.yaml +27 -0
Dockerfile +39 -0
README.md +9 -126
backend/app/api/routes_chat.py +30 -8
backend/app/api/routes_chat_langchain.py +6 -5
backend/app/api/routes_docs.py +63 -2
backend/app/config.py +1 -1
backend/app/core/llm.py +2 -1
backend/app/evaluation/ablation.py +5 -5
backend/app/evaluation/compare_baseline.py +5 -5
backend/app/evaluation/retrievers.py +2 -2
backend/app/evaluation/utils.py +1 -1
backend/app/ingestion/chunking.py +1 -1
backend/app/ingestion/indexing.py +4 -3
backend/app/ingestion/pdf_loader.py +2 -1
backend/app/ingestion/pipeline.py +9 -9
backend/app/main.py +4 -3
backend/app/memory/query_rewriter.py +1 -1
backend/app/models/api.py +2 -1
backend/app/models/retrieval.py +2 -1
backend/app/retrieval/chunk_registry.py +1 -1
backend/app/retrieval/citation_filter.py +3 -2
backend/app/retrieval/graph_utils.py +2 -1
backend/app/retrieval/keyword_index.py +3 -2
backend/app/retrieval/langchain_retriever.py +2 -1
backend/app/retrieval/reranker.py +2 -1
backend/app/retrieval/retrieve.py +7 -7
backend/app/retrieval/vector_store.py +5 -4
requirements.txt +1 -3

.dockerignore ADDED Viewed

	@@ -0,0 +1,28 @@

+__pycache__/
+*.pyc
+*.pyo
+*.pyd
+.Python
+*.so
+*.egg
+*.egg-info/
+dist/
+build/
+.env
+.venv
+env/
+venv/
+.git/
+.gitignore
+.vscode/
+.idea/
+*.log
+.DS_Store
+node_modules/
+frontend/
+*.md
+!README.md
+.pre-commit-config.yaml
+.editorconfig
+.ruff.toml
+backend/storage/

.github/workflows/deploy.yaml ADDED Viewed

	@@ -0,0 +1,27 @@

+name: Deploy to HuggingFace Space
+on:
+  push:
+    branches:
+      - main
+jobs:
+  deploy:
+    runs-on: ubuntu-latest
+    steps:
+    - name: Checkout Full History
+      uses: actions/checkout@v3
+      with:
+        fetch-depth: 0
+    - name: Set up Git LFS
+      run: |
+        git lfs install
+    - name: Push to HuggingFace Space
+      run: |
+        git config --global user.name "github-actions"
+        git config --global user.email "actions@github.com"
+        git remote add space https://SanskarModi:${{ secrets.HF_TOKEN }}@huggingface.co/spaces/SanskarModi/atlasrag-backend
+        git push space main --force

Dockerfile ADDED Viewed

	@@ -0,0 +1,39 @@

+# Use Python 3.10 slim image
+FROM python:3.10-slim
+# Set working directory
+WORKDIR /app
+# Install system dependencies
+RUN apt-get update && apt-get install -y \
+    build-essential \
+    && rm -rf /var/lib/apt/lists/*
+# Copy requirements first (for better caching)
+COPY requirements.txt .
+# Install Python dependencies
+RUN pip install --no-cache-dir -r requirements.txt
+# Download spaCy model
+RUN python -m spacy download en_core_web_sm
+# Copy the entire backend directory
+COPY backend/ ./backend/
+# Create necessary directories for storage
+RUN mkdir -p /data/qdrant /data/docs /data/uploads
+# Set environment variables
+ENV PYTHONPATH=/app
+ENV QDRANT_PATH=/data/qdrant
+# Expose port 7860 (required by Hugging Face)
+EXPOSE 7860
+# Health check
+HEALTHCHECK --interval=30s --timeout=10s --start-period=5s --retries=3 \
+    CMD python -c "import requests; requests.get('http://localhost:7860/docs')"
+# Run the application
+CMD ["uvicorn", "backend.app.main:app", "--host", "0.0.0.0", "--port", "7860"]

README.md CHANGED Viewed

@@ -1,127 +1,10 @@
-# AtlasRAG – Multi-Document Research & Reasoning Engine
-*A production-style RAG system powered by Hybrid Retrieval, Graph-RAG, Cross-Encoder Reranking, and structured citations.*
 ---
-## 🚀 Overview
-AtlasRAG is an advanced Retrieval-Augmented Generation (RAG) engine designed to answer questions across multiple PDFs with high accuracy and page-level citations. It integrates modern retrieval techniques used by AI search products (Perplexity, Vectara, LlamaIndex) and exposes a clean API + minimal frontend interface.
-This README will expand into full documentation once the project is completed.
----
-## ✨ Planned Feature Set
-### 🔍 Retrieval Engine
-* Hierarchical section-aware chunking
-* Hybrid retrieval (BM25 + dense vectors)
-* Cross-encoder reranking
-* Query rewriting for conversational context
-* Graph-RAG reasoning (entity graph traversal)
-* Multi-document support
-* Structured citations (doc, pages, snippet)
-### 📊 Evaluation
-* Synthetic QA generation
-* RAG metrics (context precision, answer relevance, faithfulness)
-* Benchmark variants:
-  * vector only
-  * hybrid
-  * graph-rag
-  * reranker enabled
-### ⚙️ Architecture
-* FastAPI backend
-* Next.js frontend
-* Qdrant vector database or Chroma
-* NetworkX knowledge graph
-* LLM backend abstraction
-* Full modular structure for research + production use
----
-## 📂 Project Structure (Initial)
-```
-backend/
-  app/
-    main.py                # FastAPI entrypoint
-    config.py              # Settings / env
-    core/                  # LLM abstraction, prompts
-    models/                # Pydantic schemas
-    ingestion/             # PDF → text → chunks → entities → index
-    retrieval/             # Vector / BM25 / hybrid / graph-rag / reranker
-    evaluation/            # Ragas / DeepEval evaluation pipeline
-    api/                   # HTTP routes
-    utils/                 # Helpers, logging
-frontend/
-  pages/                   # Upload dashboard, chat UI
-  components/
-  public/
-docs/
-  ARCHITECTURE.md          # Detailed system design
-  EVALUATION.md            # Benchmark results
-  diagrams/
-requirements.txt
-LICENSE
-README.md
-```
----
-## 🧠 High-Level Architecture (Text Diagram)
-```
-User → Next.js UI → FastAPI backend → Retrieval Engine
-                                     ↓
-                           Qdrant / Chroma Vector DB
-                                     ↓
-                            BM25 Keyword Index
-                                     ↓
-                         Knowledge Graph (NetworkX)
-                                     ↓
-                                   LLM
-```
----
-## 🏁 Getting Started (Development)
-### 1. Create Python environment
-```
-python3 -m venv .venv
-source .venv/bin/activate
-pip install -r requirements.txt
-```
-### 2. Install frontend deps (later)
-```
-cd frontend
-npm install
-```
-### 3. Run backend
-```
-uvicorn app.main:app --reload
-```
-### 4. Run frontend
-```
-npm run dev
-```
----
-## 📘 License
-[MIT License](LICENSE)

 ---
+title: AtlasRAG Backend
+emoji: 📚
+colorFrom: blue
+colorTo: indigo
+sdk: docker
+app_port: 7860
+pinned: false
+license: mit
+---

backend/app/api/routes_chat.py CHANGED Viewed

@@ -1,15 +1,16 @@
 """Chat routes for QA and summarization."""
-from app.core.llm import llm_chat
-from app.core.prompts import build_rag_prompt, build_summary_prompt
-from app.memory.conversation import conversation_memory
-from app.memory.query_rewriter import rewrite_query
-from app.models.api import ChatRequest, ChatResponse
-from app.retrieval.chunk_registry import get_chunks
-from app.retrieval.citation_filter import filter_citations
-from app.retrieval.retrieve import hybrid_graph_search
 from fastapi import APIRouter
 router = APIRouter()
@@ -28,6 +29,16 @@ def chat(request: ChatRequest) -> ChatResponse:
                 citations=[],
             )
         context = "\n\n".join(chunk.text for chunk in chunks)
         messages = build_summary_prompt(context)
@@ -56,6 +67,10 @@ def chat(request: ChatRequest) -> ChatResponse:
     # 3. Retrieve documents
     results = hybrid_graph_search(rewritten_query, request.top_k)
     if not results:
         return ChatResponse(
             answer="I don't know based on the provided documents.",
@@ -86,3 +101,10 @@ def chat(request: ChatRequest) -> ChatResponse:
         answer=answer,
         citations=citations,
     )

 """Chat routes for QA and summarization."""
 from fastapi import APIRouter
+from backend.app.core.llm import llm_chat
+from backend.app.core.prompts import build_rag_prompt, build_summary_prompt
+from backend.app.memory.conversation import conversation_memory
+from backend.app.memory.query_rewriter import rewrite_query
+from backend.app.models.api import ChatRequest, ChatResponse
+from backend.app.retrieval.chunk_registry import get_chunks
+from backend.app.retrieval.citation_filter import filter_citations
+from backend.app.retrieval.retrieve import hybrid_graph_search
 router = APIRouter()
                 citations=[],
             )
+        # Filter chunks by selected doc_ids if provided
+        if request.doc_ids:
+            chunks = [chunk for chunk in chunks if chunk.doc_id in request.doc_ids]
+            if not chunks:
+                return ChatResponse(
+                    answer="No content found for the selected documents.",
+                    citations=[],
+                )
         context = "\n\n".join(chunk.text for chunk in chunks)
         messages = build_summary_prompt(context)
     # 3. Retrieve documents
     results = hybrid_graph_search(rewritten_query, request.top_k)
+    # Filter results by selected doc_ids if provided
+    if request.doc_ids:
+        results = [r for r in results if r.chunk.doc_id in request.doc_ids]
     if not results:
         return ChatResponse(
             answer="I don't know based on the provided documents.",
         answer=answer,
         citations=citations,
     )
+@router.post("/clear")
+def clear_conversation(session_id: str = "default") -> dict:
+    """Clear conversation history for a session."""
+    conversation_memory.clear(session_id)
+    return {"status": "success", "message": "Conversation cleared"}

backend/app/api/routes_chat_langchain.py CHANGED Viewed

@@ -1,14 +1,15 @@
 """Chat routes using LangChain retriever."""
-from app.config import settings
-from app.models.api import ChatRequest, ChatResponse
-from app.models.retrieval import ScoredChunk
-from app.retrieval.citation_filter import filter_citations
-from app.retrieval.langchain_retriever import AtlasGraphRetriever
 from fastapi import APIRouter
 from langchain.chains import RetrievalQA
 from langchain_groq import ChatGroq
 router = APIRouter()

 """Chat routes using LangChain retriever."""
 from fastapi import APIRouter
 from langchain.chains import RetrievalQA
 from langchain_groq import ChatGroq
+from backend.app.config import settings
+from backend.app.models.api import ChatRequest, ChatResponse
+from backend.app.models.retrieval import ScoredChunk
+from backend.app.retrieval.citation_filter import filter_citations
+from backend.app.retrieval.langchain_retriever import AtlasGraphRetriever
 router = APIRouter()

backend/app/api/routes_docs.py CHANGED Viewed

@@ -4,10 +4,12 @@ import uuid
 from pathlib import Path
 from typing import Dict, List
-from app.ingestion.pipeline import ingest_pdf
-from app.models.ingestion import Chunk
 from fastapi import APIRouter, File, HTTPException, UploadFile
 router = APIRouter()
 DOC_STORAGE = Path("backend/storage/docs")
@@ -44,3 +46,62 @@ def upload_documents(
         results[doc_id] = chunks
     return results

 from pathlib import Path
 from typing import Dict, List
 from fastapi import APIRouter, File, HTTPException, UploadFile
+from backend.app.ingestion.pipeline import ingest_pdf
+from backend.app.models.ingestion import Chunk
+from backend.app.retrieval.chunk_registry import get_chunks
 router = APIRouter()
 DOC_STORAGE = Path("backend/storage/docs")
         results[doc_id] = chunks
     return results
+@router.delete("/remove/{doc_id}")
+def remove_document(doc_id: str) -> dict:
+    """Remove a document and its chunks from the system.
+    Args:
+        doc_id: Document ID to remove
+    Returns:
+        Status message
+    """
+    from backend.app.ingestion.indexing import COLLECTION_NAME, get_qdrant_client
+    from backend.app.retrieval.chunk_registry import _CHUNKS
+    # Remove chunks from registry
+    chunks_to_remove = [cid for cid, chunk in _CHUNKS.items() if chunk.doc_id == doc_id]
+    for chunk_id in chunks_to_remove:
+        _CHUNKS.pop(chunk_id, None)
+    # Remove from Qdrant
+    if chunks_to_remove:
+        try:
+            client = get_qdrant_client()
+            if client.collection_exists(COLLECTION_NAME):
+                client.delete(
+                    collection_name=COLLECTION_NAME,
+                    points_selector=chunks_to_remove,
+                )
+        except Exception as e:
+            print(f"Error removing from Qdrant: {e}")
+    # Remove PDF file
+    pdf_path = DOC_STORAGE / f"{doc_id}.pdf"
+    if pdf_path.exists():
+        pdf_path.unlink()
+    return {
+        "status": "success",
+        "message": f"Removed document {doc_id}",
+        "chunks_removed": len(chunks_to_remove),
+    }
+@router.get("/list")
+def list_documents() -> dict:
+    """List all currently loaded documents.
+    Returns:
+        Dictionary with document information
+    """
+    chunks = get_chunks()
+    doc_ids = list(set(chunk.doc_id for chunk in chunks))
+    return {
+        "total_documents": len(doc_ids),
+        "total_chunks": len(chunks),
+        "doc_ids": doc_ids,
+    }

backend/app/config.py CHANGED Viewed

@@ -8,7 +8,7 @@ class Settings(BaseSettings):
     groq_api_key: str = ""
     default_model: str = "openai/gpt-oss-120b"
-    qdrant_path: str = "./backend/storage/qdrant"
     class Config:
         """Pydantic Settings configuration."""

     groq_api_key: str = ""
     default_model: str = "openai/gpt-oss-120b"
+    qdrant_path: str = "/data/qdrant"
     class Config:
         """Pydantic Settings configuration."""

backend/app/core/llm.py CHANGED Viewed

@@ -2,9 +2,10 @@
 from typing import Dict, List
-from app.config import settings
 from groq import Groq
 def _get_groq_client() -> Groq:
     """Return a Groq API client instance."""

 from typing import Dict, List
 from groq import Groq
+from backend.app.config import settings
 def _get_groq_client() -> Groq:
     """Return a Groq API client instance."""

backend/app/evaluation/ablation.py CHANGED Viewed

@@ -1,10 +1,10 @@
 """Ablation study for AtlasRAG retrieval."""
-from app.evaluation.metrics import coverage, diversity, recall_at_k
-from app.evaluation.test_queries import TEST_QUERIES
-from app.evaluation.utils import extract_pages
-from app.retrieval.retrieve import hybrid_graph_search
-from app.retrieval.vector_store import vector_search
 def run_ablation() -> None:

 """Ablation study for AtlasRAG retrieval."""
+from backend.app.evaluation.metrics import coverage, diversity, recall_at_k
+from backend.app.evaluation.test_queries import TEST_QUERIES
+from backend.app.evaluation.utils import extract_pages
+from backend.app.retrieval.retrieve import hybrid_graph_search
+from backend.app.retrieval.vector_store import vector_search
 def run_ablation() -> None:

backend/app/evaluation/compare_baseline.py CHANGED Viewed

@@ -1,10 +1,10 @@
 """Compare Vector Search vs Hybrid Graph-RAG."""
-from app.evaluation.metrics import coverage, diversity, recall_at_k
-from app.evaluation.test_queries import TEST_QUERIES
-from app.evaluation.utils import extract_pages
-from app.retrieval.retrieve import hybrid_graph_search
-from app.retrieval.vector_store import vector_search
 def _print_block(

 """Compare Vector Search vs Hybrid Graph-RAG."""
+from backend.app.evaluation.metrics import coverage, diversity, recall_at_k
+from backend.app.evaluation.test_queries import TEST_QUERIES
+from backend.app.evaluation.utils import extract_pages
+from backend.app.retrieval.retrieve import hybrid_graph_search
+from backend.app.retrieval.vector_store import vector_search
 def _print_block(

backend/app/evaluation/retrievers.py CHANGED Viewed

@@ -2,8 +2,8 @@
 from typing import List
-from app.models.retrieval import ScoredChunk
-from app.retrieval.vector_store import vector_search
 def vector_only_search(query: str, top_k: int) -> List[ScoredChunk]:

 from typing import List
+from backend.app.models.retrieval import ScoredChunk
+from backend.app.retrieval.vector_store import vector_search
 def vector_only_search(query: str, top_k: int) -> List[ScoredChunk]:

backend/app/evaluation/utils.py CHANGED Viewed

@@ -2,7 +2,7 @@
 from typing import Iterable
-from app.models.retrieval import ScoredChunk
 def extract_pages(results: Iterable[ScoredChunk]) -> list[int]:

 from typing import Iterable
+from backend.app.models.retrieval import ScoredChunk
 def extract_pages(results: Iterable[ScoredChunk]) -> list[int]:

backend/app/ingestion/chunking.py CHANGED Viewed

@@ -3,7 +3,7 @@
 import uuid
 from typing import List
-from app.models.ingestion import Chunk, RawSegment
 MAX_CHARS = 1500
 OVERLAP_CHARS = 200

 import uuid
 from typing import List
+from backend.app.models.ingestion import Chunk, RawSegment
 MAX_CHARS = 1500
 OVERLAP_CHARS = 200

backend/app/ingestion/indexing.py CHANGED Viewed

@@ -2,12 +2,13 @@
 from typing import List
-from app.config import settings
-from app.core.embeddings import embed_texts
-from app.models.ingestion import Chunk
 from qdrant_client import QdrantClient
 from qdrant_client.models import Distance, PointStruct, VectorParams
 COLLECTION_NAME = "atlasrag_chunks"

 from typing import List
 from qdrant_client import QdrantClient
 from qdrant_client.models import Distance, PointStruct, VectorParams
+from backend.app.config import settings
+from backend.app.core.embeddings import embed_texts
+from backend.app.models.ingestion import Chunk
 COLLECTION_NAME = "atlasrag_chunks"

backend/app/ingestion/pdf_loader.py CHANGED Viewed

@@ -5,7 +5,8 @@ from pathlib import Path
 from typing import List
 import fitz  # PyMuPDF
-from app.models.ingestion import RawSegment
 HEADING_REGEX = re.compile(r"^\d+\.\s+[A-Z].+")

 from typing import List
 import fitz  # PyMuPDF
+from backend.app.models.ingestion import RawSegment
 HEADING_REGEX = re.compile(r"^\d+\.\s+[A-Z].+")

backend/app/ingestion/pipeline.py CHANGED Viewed

@@ -3,15 +3,15 @@
 from pathlib import Path
 from typing import List
-from app.ingestion.chunking import chunk_segments
-from app.ingestion.cleaning import clean_text
-from app.ingestion.entities import extract_entities
-from app.ingestion.indexing import index_chunks
-from app.ingestion.pdf_loader import extract_pages
-from app.models.ingestion import Chunk, RawSegment
-from app.retrieval.chunk_registry import register_chunks
-from app.retrieval.graph_utils import index_entities
-from app.retrieval.keyword_index import build_bm25_index
 def ingest_pdf(file_path: Path, doc_id: str) -> List[Chunk]:

 from pathlib import Path
 from typing import List
+from backend.app.ingestion.chunking import chunk_segments
+from backend.app.ingestion.cleaning import clean_text
+from backend.app.ingestion.entities import extract_entities
+from backend.app.ingestion.indexing import index_chunks
+from backend.app.ingestion.pdf_loader import extract_pages
+from backend.app.models.ingestion import Chunk, RawSegment
+from backend.app.retrieval.chunk_registry import register_chunks
+from backend.app.retrieval.graph_utils import index_entities
+from backend.app.retrieval.keyword_index import build_bm25_index
 def ingest_pdf(file_path: Path, doc_id: str) -> List[Chunk]:

backend/app/main.py CHANGED Viewed

@@ -1,11 +1,12 @@
 """Main FastAPI application for AtlasRAG backend."""
-from app.api.routes_chat import router as chat_router
-from app.api.routes_chat_langchain import router as chat_langchain_router
-from app.api.routes_docs import router as docs_router
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 app = FastAPI(
     title="AtlasRAG Backend",
     version="0.0.0",

 """Main FastAPI application for AtlasRAG backend."""
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
+from backend.app.api.routes_chat import router as chat_router
+from backend.app.api.routes_chat_langchain import router as chat_langchain_router
+from backend.app.api.routes_docs import router as docs_router
 app = FastAPI(
     title="AtlasRAG Backend",
     version="0.0.0",

backend/app/memory/query_rewriter.py CHANGED Viewed

@@ -2,7 +2,7 @@
 from typing import List, Tuple
-from app.core.llm import llm_chat
 Message = Tuple[str, str]

 from typing import List, Tuple
+from backend.app.core.llm import llm_chat
 Message = Tuple[str, str]

backend/app/models/api.py CHANGED Viewed

@@ -1,6 +1,6 @@
 """Pydantic models for API request and response bodies."""
-from typing import Literal
 from pydantic import BaseModel
@@ -12,6 +12,7 @@ class ChatRequest(BaseModel):
     top_k: int = 5
     mode: Literal["qa", "summarize"] = "qa"
     session_id: str = "default"
 class Citation(BaseModel):

 """Pydantic models for API request and response bodies."""
+from typing import List, Literal, Optional
 from pydantic import BaseModel
     top_k: int = 5
     mode: Literal["qa", "summarize"] = "qa"
     session_id: str = "default"
+    doc_ids: Optional[List[str]]
 class Citation(BaseModel):

backend/app/models/retrieval.py CHANGED Viewed

@@ -1,8 +1,9 @@
 """Pydantic models for API request and response bodies."""
-from app.models.ingestion import Chunk
 from pydantic import BaseModel
 class KeywordSearchRequest(BaseModel):
     """Schema for BM25 search request body."""

 """Pydantic models for API request and response bodies."""
 from pydantic import BaseModel
+from backend.app.models.ingestion import Chunk
 class KeywordSearchRequest(BaseModel):
     """Schema for BM25 search request body."""

backend/app/retrieval/chunk_registry.py CHANGED Viewed

@@ -10,7 +10,7 @@ Note:
 from typing import Dict, List
-from app.models.ingestion import Chunk
 _CHUNKS: Dict[str, Chunk] = {}

 from typing import Dict, List
+from backend.app.models.ingestion import Chunk
 _CHUNKS: Dict[str, Chunk] = {}

backend/app/retrieval/citation_filter.py CHANGED Viewed

@@ -7,10 +7,11 @@ directly support the generated answer.
 import re
 from typing import List
-from app.models.api import Citation
-from app.models.retrieval import ScoredChunk
 from sentence_transformers import SentenceTransformer, util
 # Lightweight sentence embedder
 _SENTENCE_MODEL = SentenceTransformer("all-MiniLM-L6-v2")

 import re
 from typing import List
 from sentence_transformers import SentenceTransformer, util
+from backend.app.models.api import Citation
+from backend.app.models.retrieval import ScoredChunk
 # Lightweight sentence embedder
 _SENTENCE_MODEL = SentenceTransformer("all-MiniLM-L6-v2")

backend/app/retrieval/graph_utils.py CHANGED Viewed

@@ -4,7 +4,8 @@ from collections import defaultdict
 from typing import Dict, Iterable, List, Set
 import networkx as nx
-from app.models.ingestion import Chunk
 _ENTITY_TO_CHUNKS: Dict[str, Set[str]] = defaultdict(set)

 from typing import Dict, Iterable, List, Set
 import networkx as nx
+from backend.app.models.ingestion import Chunk
 _ENTITY_TO_CHUNKS: Dict[str, Set[str]] = defaultdict(set)

backend/app/retrieval/keyword_index.py CHANGED Viewed

@@ -2,10 +2,11 @@
 from typing import List
-from app.models.ingestion import Chunk
-from app.models.retrieval import ScoredChunk
 from rank_bm25 import BM25Okapi
 _bm25: BM25Okapi | None = None
 _chunks: List[Chunk] = []

 from typing import List
 from rank_bm25 import BM25Okapi
+from backend.app.models.ingestion import Chunk
+from backend.app.models.retrieval import ScoredChunk
 _bm25: BM25Okapi | None = None
 _chunks: List[Chunk] = []

backend/app/retrieval/langchain_retriever.py CHANGED Viewed

@@ -2,10 +2,11 @@
 from typing import List
-from app.retrieval.retrieve import hybrid_graph_search
 from langchain_core.documents import Document
 from langchain_core.retrievers import BaseRetriever
 class AtlasGraphRetriever(BaseRetriever):
     """LangChain-compatible retriever wrapping hybrid Graph-RAG."""

 from typing import List
 from langchain_core.documents import Document
 from langchain_core.retrievers import BaseRetriever
+from backend.app.retrieval.retrieve import hybrid_graph_search
 class AtlasGraphRetriever(BaseRetriever):
     """LangChain-compatible retriever wrapping hybrid Graph-RAG."""

backend/app/retrieval/reranker.py CHANGED Viewed

@@ -2,9 +2,10 @@
 from typing import List
-from app.models.retrieval import ScoredChunk
 from sentence_transformers import CrossEncoder
 class CrossEncoderReranker:
     """Cross-encoder reranker for precise relevance scoring.

 from typing import List
 from sentence_transformers import CrossEncoder
+from backend.app.models.retrieval import ScoredChunk
 class CrossEncoderReranker:
     """Cross-encoder reranker for precise relevance scoring.

backend/app/retrieval/retrieve.py CHANGED Viewed

@@ -2,19 +2,19 @@
 from typing import Dict, List, Set
-from app.ingestion.entities import NLP
-from app.models.retrieval import ScoredChunk
-from app.retrieval.chunk_registry import get_chunks
-from app.retrieval.graph_utils import (
     adaptive_hops,
     build_graph,
     chunks_from_entities,
     expand_entities,
     extract_query_entities,
 )
-from app.retrieval.keyword_index import bm25_search
-from app.retrieval.reranker import CrossEncoderReranker
-from app.retrieval.vector_store import vector_search
 # Keywords that indicate comparison-style queries
 _COMPARISON_KEYWORDS = {

 from typing import Dict, List, Set
+from backend.app.ingestion.entities import NLP
+from backend.app.models.retrieval import ScoredChunk
+from backend.app.retrieval.chunk_registry import get_chunks
+from backend.app.retrieval.graph_utils import (
     adaptive_hops,
     build_graph,
     chunks_from_entities,
     expand_entities,
     extract_query_entities,
 )
+from backend.app.retrieval.keyword_index import bm25_search
+from backend.app.retrieval.reranker import CrossEncoderReranker
+from backend.app.retrieval.vector_store import vector_search
 # Keywords that indicate comparison-style queries
 _COMPARISON_KEYWORDS = {

backend/app/retrieval/vector_store.py CHANGED Viewed

@@ -2,12 +2,13 @@
 from typing import List
-from app.core.embeddings import embed_texts
-from app.ingestion.indexing import COLLECTION_NAME, get_qdrant_client
-from app.models.ingestion import Chunk
-from app.models.retrieval import ScoredChunk
 from qdrant_client.models import ScoredPoint
 def vector_search(query: str, top_k: int = 5) -> List[ScoredChunk]:
     """Search for semantically similar chunks."""

 from typing import List
 from qdrant_client.models import ScoredPoint
+from backend.app.core.embeddings import embed_texts
+from backend.app.ingestion.indexing import COLLECTION_NAME, get_qdrant_client
+from backend.app.models.ingestion import Chunk
+from backend.app.models.retrieval import ScoredChunk
 def vector_search(query: str, top_k: int = 5) -> List[ScoredChunk]:
     """Search for semantically similar chunks."""

requirements.txt CHANGED Viewed

@@ -50,6 +50,4 @@ pre-commit==4.5.0
 black==24.4.2
 dotenv==0.9.9
 ruff==0.4.10
-isort==5.13.2
--e .

 black==24.4.2
 dotenv==0.9.9
 ruff==0.4.10
+isort==5.13.2