Spaces:

BinKhoaLe1812
/

QuerySearcher

Sleeping

App Files Files Community

LiamKhoaLe commited on Jun 18, 2025

Commit

963b15c

1 Parent(s): 77ff318

Upd cache and transformer path.

Browse files

Files changed (5) hide show

Dockerfile +48 -4
app/config.py +4 -0
app/main.py +3 -2
app/routers/ws_progress.py +28 -0
app/services/ingest.py +1 -1

Dockerfile CHANGED Viewed

@@ -1,12 +1,56 @@
 FROM python:3.12-slim
 WORKDIR /app
-COPY . .
-# Install system dependencies for PyMuPDF
-RUN apt-get update && apt-get install -y libgl1 libglib2.0-0 && \
     pip install --no-cache-dir -r requirements.txt
-RUN python -c "from sentence_transformers import SentenceTransformer; SentenceTransformer('all-MiniLM-L6-v2')"
 CMD ["gunicorn", "app.main:app", "-k", "uvicorn.workers.UvicornWorker", "--bind", "0.0.0.0:7860"]

 FROM python:3.12-slim
+# ───────────────────────────────
+# ENVIRONMENT VARIABLES
+# ───────────────────────────────
+ENV PYTHONDONTWRITEBYTECODE=1 \
+    PYTHONUNBUFFERED=1 \
+    TRANSFORMERS_CACHE=/app/model_cache \
+    HF_HOME=/app/.cache/huggingface \
+    SENTENCE_TRANSFORMERS_HOME=/app/.cache/huggingface/sentence-transformers
+# HF_TOKEN is optional (e.g. for gated models)
+ARG HF_TOKEN
+ENV HF_TOKEN=${HF_TOKEN}
+# ───────────────────────────────
+# WORKDIR
+# ───────────────────────────────
 WORKDIR /app
+# ───────────────────────────────
+# SYSTEM DEPENDENCIES
+# ───────────────────────────────
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    libgl1 libglib2.0-0 git curl && \
+    rm -rf /var/lib/apt/lists/*
+# ───────────────────────────────
+# PYTHON DEPENDENCIES
+# ───────────────────────────────
+COPY requirements.txt .
+RUN pip install --upgrade pip && \
     pip install --no-cache-dir -r requirements.txt
+# ───────────────────────────────
+# CREATE CACHE DIRS & MODEL WARM-UP
+# ───────────────────────────────
+RUN mkdir -p /app/model_cache /app/.cache/huggingface/sentence-transformers && \
+    python -c "from sentence_transformers import SentenceTransformer; SentenceTransformer('all-MiniLM-L6-v2')"
+# ───────────────────────────────
+# CREATE NON-ROOT USER
+# ───────────────────────────────
+RUN useradd -m -u 1000 user && \
+    chown -R user:user /app
+USER user
+# ───────────────────────────────
+# COPY PROJECT FILES
+# ───────────────────────────────
+COPY . .
+# ───────────────────────────────
+# RUN SERVER
+# ───────────────────────────────
 CMD ["gunicorn", "app.main:app", "-k", "uvicorn.workers.UvicornWorker", "--bind", "0.0.0.0:7860"]

app/config.py ADDED Viewed

	@@ -0,0 +1,4 @@

+import os
+os.environ["TRANSFORMERS_CACHE"] = "/app/model_cache"
+os.environ["HF_HOME"] = "/app/.cache/huggingface"
+os.environ["SENTENCE_TRANSFORMERS_HOME"] = "/app/.cache/huggingface/sentence-transformers"

app/main.py CHANGED Viewed

@@ -5,6 +5,7 @@
 # │   ├── routers/
 # │   │   ├── search.py
 # │   │   └── import_doc.py
 # │   ├── services/
 # │   │   ├── google_books.py
 # │   │   ├── open_library.py
@@ -21,6 +22,7 @@
 from fastapi import FastAPI, WebSocket
 from app.routers import search, import_doc
 from app.health import check_status
 # Debugger
 import logging
@@ -36,7 +38,6 @@ for noisy_module in ["pymongo", "pymongo.server_selection", "pymongo.topology",
     logging.getLogger(noisy_module).setLevel(logging.WARNING)
 logger.info("🚀 Starting Tutor Book Querier...")
 app = FastAPI()
 app.include_router(search.router, prefix="/search")
@@ -46,5 +47,5 @@ app.include_router(check_status.router, prefix="/health")
 @app.websocket("/ws/documents/{document_id}")
 async def websocket_endpoint(websocket: WebSocket, document_id: str):
     await websocket.accept()
-    from app.services.ws_progress import forward_progress
     await forward_progress(websocket, document_id)

 # │   ├── routers/
 # │   │   ├── search.py
 # │   │   └── import_doc.py
+# │   │   └── ws_progress.py
 # │   ├── services/
 # │   │   ├── google_books.py
 # │   │   ├── open_library.py
 from fastapi import FastAPI, WebSocket
 from app.routers import search, import_doc
 from app.health import check_status
+import app.config
 # Debugger
 import logging
     logging.getLogger(noisy_module).setLevel(logging.WARNING)
 logger.info("🚀 Starting Tutor Book Querier...")
 app = FastAPI()
 app.include_router(search.router, prefix="/search")
 @app.websocket("/ws/documents/{document_id}")
 async def websocket_endpoint(websocket: WebSocket, document_id: str):
     await websocket.accept()
+    from app.routers.ws_progress import forward_progress
     await forward_progress(websocket, document_id)

app/routers/ws_progress.py ADDED Viewed

	@@ -0,0 +1,28 @@

+import asyncio
+import logging
+from fastapi import WebSocket
+from app.db import get_db
+logger = logging.getLogger("book-query")
+async def forward_progress(websocket: WebSocket, document_id: str):
+    db = get_db()
+    try:
+        while True:
+            doc = await db.documents.find_one({"_id": document_id})
+            if not doc:
+                await websocket.send_json({"status": "NOT_FOUND"})
+                await asyncio.sleep(2)
+                continue
+            status = doc.get("status", "UNKNOWN")
+            await websocket.send_json({"status": status})
+            if status in {"READY", "FAILED"}:
+                break
+            await asyncio.sleep(2)
+    except Exception as e:
+        logger.exception(f"📡 WebSocket failed for doc {document_id}: {e}")
+        await websocket.send_json({"status": "ERROR"})
+    finally:
+        await websocket.close()

app/services/ingest.py CHANGED Viewed

@@ -3,6 +3,7 @@ import os
 import fitz  # PyMuPDF - convert PDF to plaintext for semantic embedding
 import io
 from app.db import get_db, get_gridfs
 from sentence_transformers import SentenceTransformer
 async def parse_and_index(document_id: str):
@@ -45,5 +46,4 @@ async def parse_and_index(document_id: str):
     # Exception
     except Exception as e:
         print(f"[ERROR] Ingestion failed for {document_id}: {e}")
-        db = get_db()
         await db.documents.update_one({"_id": document_id}, {"$set": {"status": "FAILED"}})

 import fitz  # PyMuPDF - convert PDF to plaintext for semantic embedding
 import io
 from app.db import get_db, get_gridfs
+import app.config
 from sentence_transformers import SentenceTransformer
 async def parse_and_index(document_id: str):
     # Exception
     except Exception as e:
         print(f"[ERROR] Ingestion failed for {document_id}: {e}")
         await db.documents.update_one({"_id": document_id}, {"$set": {"status": "FAILED"}})