Spaces:

digitaldev2024
/

allma

Sleeping

pakito312 commited on Jan 15

Commit

1805c7e

1 Parent(s): 27d8bb7

update

Files changed (2) hide show

Dockerfile CHANGED Viewed

@@ -1,6 +1,7 @@
 FROM python:3.10-slim
 ENV PYTHONUNBUFFERED=1
 ENV LLAMA_CPP_VERBOSE=0
 WORKDIR /app
@@ -8,18 +9,13 @@ WORKDIR /app
 RUN apt-get update && apt-get install -y \
     build-essential \
     curl \
     && rm -rf /var/lib/apt/lists/*
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
-# Télécharger le modèle GGUF (cache HF)
-RUN mkdir -p /models && \
-    curl -L -o /models/phi-3.gguf \
-    https://huggingface.co/microsoft/Phi-3-mini-4k-instruct-gguf/resolve/main/Phi-3-mini-4k-instruct.Q4_K_M.gguf
 COPY api.py .
 EXPOSE 7860
 CMD ["uvicorn", "api:app", "--host", "0.0.0.0", "--port", "7860"]

 FROM python:3.10-slim
 ENV PYTHONUNBUFFERED=1
+ENV HF_HOME=/data
 ENV LLAMA_CPP_VERBOSE=0
 WORKDIR /app
 RUN apt-get update && apt-get install -y \
     build-essential \
     curl \
+    libstdc++6 \
     && rm -rf /var/lib/apt/lists/*
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
 COPY api.py .
 EXPOSE 7860
 CMD ["uvicorn", "api:app", "--host", "0.0.0.0", "--port", "7860"]

api.py CHANGED Viewed

@@ -1,14 +1,32 @@
 from fastapi import FastAPI
 from pydantic import BaseModel
 from llama_cpp import Llama
 app = FastAPI(title="llama.cpp Code API")
 llm = Llama(
-    model_path="/models/phi-3.gguf",
     n_ctx=4096,
-    n_threads=4,
-    n_batch=512,
     n_gpu_layers=0,
     verbose=False,
 )
@@ -30,10 +48,7 @@ def generate(req: GenerateRequest):
         temperature=req.temperature,
         stop=["<|user|>"]
     )
-    return {
-        "response": output["choices"][0]["text"].strip()
-    }
 if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)

 from fastapi import FastAPI
 from pydantic import BaseModel
 from llama_cpp import Llama
+import os
+import subprocess
+MODEL_PATH = "/data/phi-3.gguf"
+MODEL_URL = (
+    "https://huggingface.co/TheBloke/"
+    "Phi-3-mini-4k-instruct-GGUF/resolve/main/"
+    "phi-3-mini-4k-instruct.Q4_K_M.gguf"
+)
 app = FastAPI(title="llama.cpp Code API")
+def download_model():
+    if not os.path.exists(MODEL_PATH):
+        os.makedirs("/data", exist_ok=True)
+        subprocess.run([
+            "curl", "-L", "-o", MODEL_PATH, MODEL_URL
+        ], check=True)
+download_model()
 llm = Llama(
+    model_path=MODEL_PATH,
     n_ctx=4096,
+    n_threads=2,        # HF CPU safe
+    n_batch=256,
     n_gpu_layers=0,
     verbose=False,
 )
         temperature=req.temperature,
         stop=["<|user|>"]
     )
+    return {"response": output["choices"][0]["text"].strip()}
 if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)