Spaces:

SanskarModi
/

atlasrag-backend

Sleeping

SanskarModi commited on Dec 20, 2025

Commit

bb17e33

1 Parent(s): 0451125

added document summarizer using langchain

Files changed (7) hide show

backend/app/api/routes_chat_langchain.py DELETED Viewed

@@ -1,53 +0,0 @@
-"""Chat routes using LangChain retriever."""
-from app.config import settings
-from app.models.api import ChatRequest, ChatResponse
-from app.models.retrieval import ScoredChunk
-from app.retrieval.citation_filter import filter_citations
-from app.retrieval.langchain_retriever import AtlasGraphRetriever
-from fastapi import APIRouter
-from langchain.chains import RetrievalQA
-from langchain_groq import ChatGroq
-router = APIRouter()
-@router.post("/ask/langchain", response_model=ChatResponse)
-def chat_langchain(request: ChatRequest) -> ChatResponse:
-    """LangChain-powered RAG endpoint with citation filtering."""
-    retriever = AtlasGraphRetriever(top_k=request.top_k)
-    llm = ChatGroq(
-        api_key=settings.groq_api_key,
-        model=settings.default_model,
-    )
-    qa_chain = RetrievalQA.from_chain_type(
-        llm=llm,
-        retriever=retriever,
-        return_source_documents=True,
-    )
-    result = qa_chain.invoke({"query": request.query})
-    answer = result["result"]
-    source_docs = result.get("source_documents", [])
-    # Convert LangChain docs → ScoredChunk
-    scored_chunks = [
-        ScoredChunk(
-            chunk=doc.metadata["chunk"],
-            score=doc.metadata["score"],
-        )
-        for doc in source_docs
-    ]
-    citations = filter_citations(
-        answer=answer,
-        chunks=scored_chunks,
-    )
-    return ChatResponse(
-        answer=answer,
-        citations=citations,
-    )

backend/app/api/routes_summarize.py ADDED Viewed

+"""Document summarization route (LangChain-based)."""
+from app.models.api import ChatResponse
+from app.retrieval.chunk_registry import get_chunks
+from app.summarization.langchain_summarizer import DocumentSummarizer
+from fastapi import APIRouter, HTTPException
+router = APIRouter()
+summarizer = DocumentSummarizer()
+@router.post("/langchain", response_model=ChatResponse)
+def summarize_document() -> ChatResponse:
+    """Summarize all ingested documents.
+    Note:
+    - This is recall-heavy by design
+    - No citations (summary ≠ factual QA)
+    """
+    chunks = get_chunks()
+    if not chunks:
+        raise HTTPException(
+            status_code=400,
+            detail="No documents available for summarization.",
+        )
+    summary = summarizer.summarize(chunks)
+    return ChatResponse(
+        answer=summary,
+        citations=[],
+    )

backend/app/main.py CHANGED Viewed

@@ -1,8 +1,8 @@
 """Main FastAPI application for AtlasRAG backend."""
 from app.api.routes_chat import router as chat_router
-from app.api.routes_chat_langchain import router as chat_langchain_router
 from app.api.routes_docs import router as docs_router
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
@@ -12,7 +12,7 @@ app = FastAPI(
     description="Backend API for AtlasRAG multi-document research assistant.",
 )
-# CORS enabled for all origins (safe during development)
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
@@ -24,4 +24,4 @@ app.add_middleware(
 # Include routers
 app.include_router(chat_router, prefix="/chat")
 app.include_router(docs_router, prefix="/docs")
-app.include_router(chat_langchain_router, prefix="/chat")

 """Main FastAPI application for AtlasRAG backend."""
 from app.api.routes_chat import router as chat_router
 from app.api.routes_docs import router as docs_router
+from app.api.routes_summarize import router as summarize_langchain_router
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
     description="Backend API for AtlasRAG multi-document research assistant.",
 )
+# CORS enabled for all origins
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
 # Include routers
 app.include_router(chat_router, prefix="/chat")
 app.include_router(docs_router, prefix="/docs")
+app.include_router(summarize_langchain_router, prefix="/summarize")

backend/app/retrieval/langchain_retriever.py DELETED Viewed

@@ -1,35 +0,0 @@
-"""LangChain retriever wrapper for AtlasRAG."""
-from typing import List
-from app.retrieval.retrieve import hybrid_graph_search
-from langchain_core.documents import Document
-from langchain_core.retrievers import BaseRetriever
-class AtlasGraphRetriever(BaseRetriever):
-    """LangChain-compatible retriever wrapping hybrid Graph-RAG."""
-    top_k: int = 5
-    def _get_relevant_documents(self, query: str) -> List[Document]:
-        """Retrieve documents for LangChain."""
-        results = hybrid_graph_search(query, self.top_k)
-        documents: List[Document] = []
-        for sc in results:
-            documents.append(
-                Document(
-                    page_content=sc.chunk.text,
-                    metadata={
-                        "doc_id": sc.chunk.doc_id,
-                        "page_start": sc.chunk.page_start,
-                        "page_end": sc.chunk.page_end,
-                        "chunk": sc.chunk,
-                        "score": sc.score,
-                    },
-                )
-            )
-        return documents

backend/app/summarization/__init__.py ADDED Viewed

File without changes

backend/app/summarization/langchain_summarizer.py ADDED Viewed

+"""LangChain-based document summarization using a local HF model."""
+from typing import List
+from app.models.ingestion import Chunk
+from langchain.chains.summarize import load_summarize_chain
+from langchain.docstore.document import Document
+from langchain.llms import HuggingFacePipeline
+from transformers import pipeline
+class DocumentSummarizer:
+    """Document summarizer using LangChain + local HF model."""
+    def __init__(self) -> None:
+        """Initialize HF Pipeline."""
+        summarizer = pipeline(
+            "summarization",
+            model="facebook/bart-large-cnn",
+            device=-1,
+        )
+        self.llm = HuggingFacePipeline(pipeline=summarizer)
+        self.chain = load_summarize_chain(
+            llm=self.llm,
+            chain_type="map_reduce",
+            verbose=False,
+        )
+    def summarize(self, chunks: List[Chunk]) -> str:
+        """Summarize document chunks."""
+        if not chunks:
+            return "No content available to summarize."
+        documents = [
+            Document(
+                page_content=chunk.text,
+                metadata={
+                    "doc_id": chunk.doc_id,
+                    "page_start": chunk.page_start,
+                    "page_end": chunk.page_end,
+                },
+            )
+            for chunk in chunks
+        ]
+        return self.chain.run(documents)

requirements.txt CHANGED Viewed

@@ -22,6 +22,7 @@ pymupdf==1.24.7
 spacy==3.7.4
 https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl
 sentence-transformers==2.6.1
 rank-bm25==0.2.2
 whoosh==2.7.4

 spacy==3.7.4
 https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl
 sentence-transformers==2.6.1
+accelerate==1.12.0
 rank-bm25==0.2.2
 whoosh==2.7.4