Spaces:

LightRT
/

pdf_rag

Sleeping

App Files Files Community

LightRT commited on 4 days ago

Commit

bb05158

1 Parent(s): b0980a0

Final Formatting

Browse files

Files changed (6) hide show

main.py +0 -6
src/embedding.py +39 -152
src/fix_db.py +0 -25
src/graph.py +1 -2
src/main.py +79 -37
src/retrieval.py +44 -97

main.py DELETED Viewed

@@ -1,6 +0,0 @@
-def main():
-    print("Hello from pdf-qa-chatbot!")
-if __name__ == "__main__":
-    main()

src/embedding.py CHANGED Viewed

@@ -1,192 +1,79 @@
 from src.ingestion import ingestion_and_chunking
 from qdrant_client import QdrantClient
 from qdrant_client.models import Distance, VectorParams, SparseVectorParams, PointStruct
 from fastembed import TextEmbedding, SparseTextEmbedding
 import uuid
 from dotenv import load_dotenv
 import os
 load_dotenv()
 qdrant_api_key = os.getenv("QDRANT_API_KEY")
 qdrant_url = os.getenv("QDRANT_URL")
 def upload_file(file_path: str, user_id: str, collection_name="pdf_rag"):
     client = QdrantClient(url=qdrant_url, api_key=qdrant_api_key)
     dense_model = TextEmbedding(model_name="sentence-transformers/all-MiniLM-L6-v2")
     sparse_model = SparseTextEmbedding(model_name="Qdrant/bm25")
-    # 1. ONLY the database creation should be inside this IF block
     if not client.collection_exists(collection_name):
         client.create_collection(
             collection_name=collection_name,
             vectors_config={
                 "dense": VectorParams(size=384, distance=Distance.COSINE)
             },
             sparse_vectors_config={
                 "sparse": SparseVectorParams()
             }
         )
-    # 2. EVERYTHING ELSE MUST BE UN-INDENTED SO IT RUNS EVERY TIME
-    try:
-        docs = ingestion_and_chunking(file_path)
-        texts = [doc.page_content for doc in docs]
-        dense_vectors = list(dense_model.embed(texts))
-        sparse_vectors = list(sparse_model.embed(texts))
-        points = []
-        file_id = str(uuid.uuid4())
-        for i, doc in enumerate(docs):
-            # 1. Convert numpy array to standard Python list
-            dense_vec = dense_vectors[i].tolist()
-            # 2. Extract indices and values from FastEmbed's custom object
-            sparse_emb = sparse_vectors[i]
-            sparse_vec = {
-                "indices": sparse_emb.indices.tolist(),
-                "values": sparse_emb.values.tolist()
             }
-            chunk_id = str(uuid.uuid4())
-            point = PointStruct(
-                id=chunk_id, # Reusing the same file_id so all chunks tie back to one file
-                vector={
-                    'dense': dense_vec,
-                    'sparse': sparse_vec
-                },
-                payload={
-                    'user_id': user_id,
-                    'file_id': file_id,
-                    'text': doc.page_content,
-                    "source": doc.metadata.get("source"),
-                    "pages": doc.metadata.get("pages"),
-                    "section": doc.metadata.get("section")
-                }
-            )
-            points.append(point)
-        # (Optional but safe) Tell Qdrant to index it just in case
-        try:
-            client.create_payload_index(
-                collection_name=collection_name,
-                field_name="user_id",
-                field_schema="keyword"
-            )
-        except Exception:
-            pass
-        # Send to database
-        client.upsert(collection_name=collection_name, points=points)
-        # 3. THE LOUD TERMINAL ANNOUNCEMENT
-        print("\n" + "="*60, flush=True)
-        print(f"✅ SUCCESS: PDF FULLY PROCESSED FOR USER {user_id}", flush=True)
-        print("✅ YOU CAN NOW ASK QUESTIONS IN STREAMLIT!", flush=True)
-        print("="*60 + "\n", flush=True)
-    except Exception as e:
-        # 4. IF IT CRASHES, SCREAM THE ERROR TO THE TERMINAL
-        print("\n" + "!"*60, flush=True)
-        print(f"❌ UPLOAD FAILED SILENTLY IN BACKGROUND:", flush=True)
-        print(f"{str(e)}", flush=True)
-        print("!"*60 + "\n", flush=True)

 from src.ingestion import ingestion_and_chunking
 from qdrant_client import QdrantClient
 from qdrant_client.models import Distance, VectorParams, SparseVectorParams, PointStruct
 from fastembed import TextEmbedding, SparseTextEmbedding
 import uuid
 from dotenv import load_dotenv
 import os
 load_dotenv()
 qdrant_api_key = os.getenv("QDRANT_API_KEY")
 qdrant_url = os.getenv("QDRANT_URL")
 def upload_file(file_path: str, user_id: str, collection_name="pdf_rag"):
     client = QdrantClient(url=qdrant_url, api_key=qdrant_api_key)
     dense_model = TextEmbedding(model_name="sentence-transformers/all-MiniLM-L6-v2")
     sparse_model = SparseTextEmbedding(model_name="Qdrant/bm25")
     if not client.collection_exists(collection_name):
         client.create_collection(
             collection_name=collection_name,
             vectors_config={
                 "dense": VectorParams(size=384, distance=Distance.COSINE)
             },
             sparse_vectors_config={
                 "sparse": SparseVectorParams()
             }
         )
+    docs = ingestion_and_chunking(file_path)
+    texts = [doc.page_content for doc in docs]
+    dense_vectors = list(dense_model.embed(texts))
+    sparse_vectors = list(sparse_model.embed(texts))
+    points = []
+    file_id = str(uuid.uuid4())
+    for i, doc in enumerate(docs):
+        dense_vec = dense_vectors[i].tolist()
+        sparse_emb = sparse_vectors[i]
+        sparse_vec = {
+            "indices": sparse_emb.indices.tolist(),
+            "values": sparse_emb.values.tolist()
+        }
+        chunk_id = str(uuid.uuid4())
+        point = PointStruct(
+            id=chunk_id,
+            vector={
+                "dense": dense_vec,
+                "sparse": sparse_vec
+            },
+            payload={
+                "user_id": user_id,
+                "file_id": file_id,
+                "text": doc.page_content,
+                "source": doc.metadata.get("source"),
+                "pages": doc.metadata.get("pages"),
+                "section": doc.metadata.get("section")
             }
+        )
+        points.append(point)
+    try:
+        client.create_payload_index(
+            collection_name=collection_name,
+            field_name="user_id",
+            field_schema="keyword"
+        )
+    except Exception:
+        pass
+    client.upsert(collection_name=collection_name, points=points)

src/fix_db.py DELETED Viewed

@@ -1,25 +0,0 @@
-import os
-from qdrant_client import QdrantClient
-from dotenv import load_dotenv
-load_dotenv()
-client = QdrantClient(
-    url=os.getenv("QDRANT_URL"),
-    api_key=os.getenv("QDRANT_API_KEY")
-)
-# LOOK AT YOUR retrieval.py FILE AND COPY THE EXACT COLLECTION NAME HERE
-COLLECTION_NAME = "pdf_rag"
-print(f"Attempting to build index for '{COLLECTION_NAME}'...")
-try:
-    client.create_payload_index(
-        collection_name=COLLECTION_NAME,
-        field_name="user_id",
-        field_schema="keyword"
-    )
-    print("✅ Index built successfully! Qdrant is ready.")
-except Exception as e:
-    print(f"❌ FAILED: {e}")

src/graph.py CHANGED Viewed

@@ -189,5 +189,4 @@ workflow.add_conditional_edges(
     routing,
     {"web_search_node": "web_search_node",
     "END": END})
-workflow.add_edge("web_search_node" , "answer_node")

     routing,
     {"web_search_node": "web_search_node",
     "END": END})
+workflow.add_edge("web_search_node" , "answer_node")

src/main.py CHANGED Viewed

@@ -1,12 +1,11 @@
-from fastapi import FastAPI , HTTPException , UploadFile, File, BackgroundTasks , Form
-from pydantic import BaseModel , Field
 import os
 from dotenv import load_dotenv
 from src.graph import workflow
 from src.embedding import upload_file
 import shutil
 from langgraph.checkpoint.postgres import PostgresSaver
-from psycopg_pool import ConnectionPool
 load_dotenv()
@@ -16,40 +15,60 @@ app = FastAPI(
     version="1.0.0"
 )
 class ChatRequest(BaseModel):
-    message: str = Field(..., description="The raw message string from the user.")
-    user_id: str = Field(..., description="The unique identifier for the tenant context.")
-    thread_id: str = Field(..., description="The unique session ID tracking the short-term chat history.")
-@app.post("/chat", summary="Return an answer using the RAG backend to the user query.")
 async def chat_endpoint(request: ChatRequest):
     try:
-        config = {'configurable': {'thread_id': request.thread_id}}
         initial_state = {
             "messages": [("user", request.message)],
             "user_id": request.user_id
         }
-        # 1. Grab the database URL
         db_uri = os.getenv("DATABASE_URI")
-        # 2. Open a fresh, guaranteed-alive connection to Postgres
         with PostgresSaver.from_conn_string(db_uri) as checkpointer:
-            # (Optional) Ensure tables exist
             checkpointer.setup()
-            # 3. Compile the LangGraph blueprint with our fresh memory connection
-            agent = workflow.compile(checkpointer=checkpointer)
-            # 4. Run the AI pipeline
-            result = agent.invoke(initial_state, config=config)
-        # 5. Extract the AI's final answer
         output_messages = result.get("messages", [])
         if not output_messages:
-            raise ValueError("No messages returned from the graph.")
         ai_response = output_messages[-1].content
         return {
@@ -57,28 +76,51 @@ async def chat_endpoint(request: ChatRequest):
             "thread_id": request.thread_id,
             "response": ai_response
         }
     except Exception as e:
-        print(f"Backend Error: {str(e)}")
-        raise HTTPException(status_code=500, detail=f"Agent Processing Error: {str(e)}")
 UPLOAD_DIR = "data/uploads"
 os.makedirs(UPLOAD_DIR, exist_ok=True)
-@app.post("/upload", summary="Upload a PDF and process its embeddings in the background")
 async def upload_pdf(
-    background_tasks: BackgroundTasks,
     file: UploadFile = File(...),
-    user_id : str = Form(...)
 ):
-    local_file_path = os.path.join(UPLOAD_DIR, file.filename)
     with open(local_file_path, "wb") as buffer:
-        shutil.copyfileobj(file.file, buffer)
-    background_tasks.add_task(upload_file, local_file_path, user_id)
     return {
         "status": "success",
-        "message": f"'{file.filename}' received successfully. Ingestion pipeline started in the background."
     }

+from fastapi import FastAPI, HTTPException, UploadFile, File, BackgroundTasks, Form
+from pydantic import BaseModel, Field
 import os
 from dotenv import load_dotenv
 from src.graph import workflow
 from src.embedding import upload_file
 import shutil
 from langgraph.checkpoint.postgres import PostgresSaver
 load_dotenv()
     version="1.0.0"
 )
 class ChatRequest(BaseModel):
+    message: str = Field(
+        ...,
+        description="The raw message string from the user."
+    )
+    user_id: str = Field(
+        ...,
+        description="The unique identifier for the tenant context."
+    )
+    thread_id: str = Field(
+        ...,
+        description="The unique session ID tracking the short-term chat history."
+    )
+@app.post(
+    "/chat",
+    summary="Return an answer using the RAG backend to the user query."
+)
 async def chat_endpoint(request: ChatRequest):
     try:
+        config = {
+            "configurable": {
+                "thread_id": request.thread_id
+            }
+        }
         initial_state = {
             "messages": [("user", request.message)],
             "user_id": request.user_id
         }
         db_uri = os.getenv("DATABASE_URI")
         with PostgresSaver.from_conn_string(db_uri) as checkpointer:
             checkpointer.setup()
+            agent = workflow.compile(
+                checkpointer=checkpointer
+            )
+            result = agent.invoke(
+                initial_state,
+                config=config
+            )
         output_messages = result.get("messages", [])
         if not output_messages:
+            raise ValueError(
+                "No messages returned from the graph."
+            )
         ai_response = output_messages[-1].content
         return {
             "thread_id": request.thread_id,
             "response": ai_response
         }
     except Exception as e:
+        print(f"Backend Error: {str(e)}")
+        raise HTTPException(
+            status_code=500,
+            detail=f"Agent Processing Error: {str(e)}"
+        )
 UPLOAD_DIR = "data/uploads"
 os.makedirs(UPLOAD_DIR, exist_ok=True)
+@app.post(
+    "/upload",
+    summary="Upload a PDF and process its embeddings in the background"
+)
 async def upload_pdf(
+    background_tasks: BackgroundTasks,
     file: UploadFile = File(...),
+    user_id: str = Form(...)
 ):
+    local_file_path = os.path.join(
+        UPLOAD_DIR,
+        file.filename
+    )
     with open(local_file_path, "wb") as buffer:
+        shutil.copyfileobj(
+            file.file,
+            buffer
+        )
+    background_tasks.add_task(
+        upload_file,
+        local_file_path,
+        user_id
+    )
     return {
         "status": "success",
+        "message": (
+            f"'{file.filename}' received successfully. "
+            "Ingestion pipeline started in the background."
+        )
     }

src/retrieval.py CHANGED Viewed

@@ -1,138 +1,85 @@
 import os
 from dotenv import load_dotenv
 from qdrant_client import QdrantClient
 from qdrant_client import models
 from fastembed import TextEmbedding, SparseTextEmbedding
 from fastembed.rerank.cross_encoder import TextCrossEncoder
 load_dotenv()
 qdrant_api_key = os.getenv("QDRANT_API_KEY")
 qdrant_url = os.getenv("QDRANT_URL")
-class Retriever() :
-    def __init__(self , collection_name = 'pdf_rag') :
         self.collection_name = collection_name
-        self.client = QdrantClient(url=qdrant_url , api_key=qdrant_api_key)
         self.dense_model = TextEmbedding(model_name="sentence-transformers/all-MiniLM-L6-v2")
         self.sparse_model = SparseTextEmbedding(model_name="Qdrant/bm25")
         self.reranker = TextCrossEncoder(model_name="Xenova/ms-marco-MiniLM-L-6-v2")
-    def retrieve(self , query : str , user_id : str) :
         dense_query_vector = list(self.dense_model.embed([query]))[0]
         sparse_query = list(self.sparse_model.embed([query]))[0]
-        sparse_query_vector = models.SparseVector(indices=sparse_query.indices,
-                                                  values=sparse_query.values)
-        user_filter = models.Filter(must=[models.FieldCondition(key="user_id" , match=models.MatchValue(value=user_id))])
-        results = self.client.query_points(collection_name=self.collection_name,
-                                           prefetch=[models.Prefetch(
-                                               query=dense_query_vector,
-                                               limit=20,
-                                               using='dense',
-                                               filter=user_filter
-                                           ),
-                                           models.Prefetch(
-                                               query=sparse_query_vector,
-                                               using='sparse',
-                                               limit=20,
-                                               filter=user_filter
-                                           )],
-                                           query=models.FusionQuery(fusion=models.Fusion.RRF),
-                                           limit=20)
-        texts = [point.payload.get('text' , '') for point in results.points]
         rerank_scores = list(self.reranker.rerank(query, texts))
         reranked_results = []
         for point, score in zip(results.points, rerank_scores):
             reranked_results.append({
                 "text": point.payload.get("text"),
                 "source": point.payload.get("source"),
                 "pages": point.payload.get("pages"),
                 "section": point.payload.get("section"),
                 "original_qdrant_score": point.score,
                 "rerank_score": float(score)
             })
-        reranked_results.sort(key=lambda x: x["rerank_score"], reverse=True)
         final_top_results = reranked_results[:5]
-        return final_top_results

 import os
 from dotenv import load_dotenv
 from qdrant_client import QdrantClient
 from qdrant_client import models
 from fastembed import TextEmbedding, SparseTextEmbedding
 from fastembed.rerank.cross_encoder import TextCrossEncoder
 load_dotenv()
 qdrant_api_key = os.getenv("QDRANT_API_KEY")
 qdrant_url = os.getenv("QDRANT_URL")
+class Retriever:
+    def __init__(self, collection_name="pdf_rag"):
         self.collection_name = collection_name
+        self.client = QdrantClient(url=qdrant_url, api_key=qdrant_api_key)
         self.dense_model = TextEmbedding(model_name="sentence-transformers/all-MiniLM-L6-v2")
         self.sparse_model = SparseTextEmbedding(model_name="Qdrant/bm25")
         self.reranker = TextCrossEncoder(model_name="Xenova/ms-marco-MiniLM-L-6-v2")
+    def retrieve(self, query: str, user_id: str):
         dense_query_vector = list(self.dense_model.embed([query]))[0]
         sparse_query = list(self.sparse_model.embed([query]))[0]
+        sparse_query_vector = models.SparseVector(
+            indices=sparse_query.indices,
+            values=sparse_query.values
+        )
+        user_filter = models.Filter(
+            must=[
+                models.FieldCondition(
+                    key="user_id",
+                    match=models.MatchValue(value=user_id)
+                )
+            ]
+        )
+        results = self.client.query_points(
+            collection_name=self.collection_name,
+            prefetch=[
+                models.Prefetch(
+                    query=dense_query_vector,
+                    limit=20,
+                    using="dense",
+                    filter=user_filter
+                ),
+                models.Prefetch(
+                    query=sparse_query_vector,
+                    using="sparse",
+                    limit=20,
+                    filter=user_filter
+                )
+            ],
+            query=models.FusionQuery(fusion=models.Fusion.RRF),
+            limit=20
+        )
+        texts = [
+            point.payload.get("text", "")
+            for point in results.points
+        ]
         rerank_scores = list(self.reranker.rerank(query, texts))
         reranked_results = []
         for point, score in zip(results.points, rerank_scores):
             reranked_results.append({
                 "text": point.payload.get("text"),
                 "source": point.payload.get("source"),
                 "pages": point.payload.get("pages"),
                 "section": point.payload.get("section"),
                 "original_qdrant_score": point.score,
                 "rerank_score": float(score)
             })
+        reranked_results.sort(key=lambda x: x["rerank_score"],reverse=True)
         final_top_results = reranked_results[:5]
+        return final_top_results