Spaces:

VcRlAgent
/

workwise-backend-gpu

Sleeping

VcRlAgent commited on Nov 11, 2025

Commit

e91b1d8

1 Parent(s): 1a4bc8e

trivial change

Files changed (4) hide show

app/main.py CHANGED Viewed

@@ -29,7 +29,7 @@ app.include_router(ask_routes.router, prefix="/api", tags=["Query"])
 app.include_router(metrics_routes.router, prefix="/api", tags=["Metrics"])
 #app.include_router(debug_routes.router, prefix="/api", tags=["Debug"])
-logger.info("✅ Routers initialized:")
 for route in app.routes:
     logger.info(f" - {route.path}")

 app.include_router(metrics_routes.router, prefix="/api", tags=["Metrics"])
 #app.include_router(debug_routes.router, prefix="/api", tags=["Debug"])
+logger.info("✅ Routers initialized ::")
 for route in app.routes:
     logger.info(f" - {route.path}")

docker-runpod/Dockerfile ADDED Viewed

+FROM runpod/pytorch:2.1.0-py3.10-cuda11.8.0-runtime
+WORKDIR /app
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# Pre-download model (faster cold starts)
+RUN python -c "from sentence_transformers import SentenceTransformer; SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')"
+COPY . .
+CMD ["python", "handler.py"]

handler.py ADDED Viewed

+import runpod
+from sentence_transformers import SentenceTransformer
+import faiss
+import torch
+import json
+# Load model once (stays in memory between calls)
+model = None
+index = None
+def load_models():
+    global model, index
+    if model is None:
+        print("Loading model...")
+        model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
+        device = 'cuda' if torch.cuda.is_available() else 'cpu'
+        model = model.to(device)
+        # Initialize FAISS
+        dimension = 384
+        index = faiss.IndexFlatL2(dimension)
+        print("Models loaded!")
+def handler(event):
+    """RunPod serverless handler"""
+    load_models()
+    input_data = event["input"]
+    query = input_data.get("query", "")
+    # Your RAG logic
+    embedding = model.encode([query])
+    # FAISS search (add your logic)
+    # distances, indices = index.search(embedding, k=5)
+    return {
+        "embedding": embedding[0].tolist(),
+        "status": "success"
+    }
+if __name__ == "__main__":
+    runpod.serverless.start({"handler": handler})

requirements.txt.runpod ADDED Viewed

+runpod
+fastapi==0.109.0
+sentence-transformers
+faiss-cpu
+torch
+transformers
+python-multipart==0.0.6    # if you accept file uploads