Spaces:

newtechdevng
/

Indian_Legal_AI_Assistant

Sleeping

App Files Files Community

newtechdevng commited on 16 days ago

Commit

e483b5a

verified ·

1 Parent(s): c89f044

Upload 3 files

Browse files

Files changed (3) hide show

Dockerfile +22 -0
app (1).py +132 -0
requirements (1).txt +5 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,22 @@

+FROM python:3.10-slim
+WORKDIR /app
+# Install system dependencies
+RUN apt-get update && apt-get install -y \
+    build-essential \
+    cmake \
+    git \
+    && rm -rf /var/lib/apt/lists/*
+# Install Python dependencies
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# Copy app
+COPY app.py .
+# HF Spaces requires port 7860
+EXPOSE 7860
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app (1).py ADDED Viewed

	@@ -0,0 +1,132 @@

+from fastapi import FastAPI, HTTPException
+from fastapi.responses import StreamingResponse
+from pydantic import BaseModel
+from typing import Optional
+from llama_cpp import Llama
+import os
+# ── Model loading ──────────────────────────────────────────────────────────────
+MODEL_REPO = "dipangshu22/Ambuj-Tripathi-Indian-Legal-Llama-GGUF"  # ← change to your repo
+MODEL_FILE = "llama-3.2-1b-instruct.Q4_K_M.gguf"
+SYSTEM_PROMPT = (
+    "You are Ambuj, an expert AI assistant specialised in Indian law. "
+    "You provide accurate, well-structured legal information based on Indian statutes, "
+    "case law, and legal procedures. Always clarify that your responses are for "
+    "informational purposes only and not a substitute for professional legal advice."
+)
+print("Loading model …")
+llm = Llama.from_pretrained(
+    repo_id=MODEL_REPO,
+    filename=MODEL_FILE,
+    n_ctx=4096,
+    n_threads=os.cpu_count() or 4,
+    verbose=False,
+)
+print("Model ready ✓")
+# ── FastAPI app ────────────────────────────────────────────────────────────────
+app = FastAPI(
+    title="Indian Legal AI API",
+    description="API for the Ambuj-Tripathi Indian Legal Llama model",
+    version="1.0.0",
+)
+# ── Request / Response schemas ─────────────────────────────────────────────────
+class Message(BaseModel):
+    role: str        # "user" | "assistant" | "system"
+    content: str
+class ChatRequest(BaseModel):
+    messages: list[Message]
+    max_tokens: Optional[int] = 512
+    temperature: Optional[float] = 0.7
+    stream: Optional[bool] = False
+class ChatResponse(BaseModel):
+    role: str = "assistant"
+    content: str
+# ── Routes ─────────────────────────────────────────────────────────────────────
+@app.get("/")
+def root():
+    return {
+        "name": "Indian Legal AI API",
+        "model": MODEL_FILE,
+        "endpoints": {
+            "POST /chat":   "Send messages, get a response",
+            "POST /ask":    "Simple single-question shortcut",
+            "GET  /health": "Health check",
+            "GET  /docs":   "Swagger UI",
+        }
+    }
+@app.get("/health")
+def health():
+    return {"status": "ok", "model_loaded": llm is not None}
+@app.post("/chat")
+def chat(request: ChatRequest):
+    """
+    Full chat endpoint — pass a list of messages with roles.
+    Optionally stream the response.
+    """
+    messages = [{"role": "system", "content": SYSTEM_PROMPT}]
+    for m in request.messages:
+        if m.role not in ("user", "assistant", "system"):
+            raise HTTPException(status_code=400, detail=f"Invalid role: {m.role}")
+        messages.append({"role": m.role, "content": m.content})
+    if request.stream:
+        def generate():
+            for chunk in llm.create_chat_completion(
+                messages=messages,
+                max_tokens=request.max_tokens,
+                temperature=request.temperature,
+                stream=True,
+            ):
+                delta = chunk["choices"][0]["delta"].get("content", "")
+                if delta:
+                    yield delta
+        return StreamingResponse(generate(), media_type="text/plain")
+    response = llm.create_chat_completion(
+        messages=messages,
+        max_tokens=request.max_tokens,
+        temperature=request.temperature,
+        stream=False,
+    )
+    content = response["choices"][0]["message"]["content"]
+    return ChatResponse(content=content)
+class AskRequest(BaseModel):
+    question: str
+    max_tokens: Optional[int] = 512
+    temperature: Optional[float] = 0.7
+@app.post("/ask")
+def ask(request: AskRequest):
+    """
+    Simple single-question shortcut — no need to format messages manually.
+    """
+    messages = [
+        {"role": "system", "content": SYSTEM_PROMPT},
+        {"role": "user",   "content": request.question},
+    ]
+    response = llm.create_chat_completion(
+        messages=messages,
+        max_tokens=request.max_tokens,
+        temperature=request.temperature,
+        stream=False,
+    )
+    content = response["choices"][0]["message"]["content"]
+    return {"question": request.question, "answer": content}

requirements (1).txt ADDED Viewed

	@@ -0,0 +1,5 @@

+llama-cpp-python==0.3.4
+fastapi>=0.115.0
+uvicorn>=0.30.0
+pydantic>=2.0.0
+PyMuPDF>=1.24.0