Spaces:

digitaldev2024
/

allma

Sleeping

pakito312 commited on Jan 15

Commit

27d8bb7

1 Parent(s): e031762

update

Files changed (3) hide show

Dockerfile CHANGED Viewed

@@ -1,27 +1,25 @@
 FROM python:3.10-slim
-# Variables d'environnement (HF + perf)
-ENV PYTHONDONTWRITEBYTECODE=1
 ENV PYTHONUNBUFFERED=1
-ENV TRANSFORMERS_CACHE=/data/hf_cache
-ENV HF_HOME=/data/hf_cache
 WORKDIR /app
-# Dépendances système minimales
 RUN apt-get update && apt-get install -y \
-    git \
     && rm -rf /var/lib/apt/lists/*
-# Installer les dépendances Python
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
-# Copier l'application
 COPY api.py .
-# Exposer le port HF Space
 EXPOSE 7860
-# Lancer FastAPI
 CMD ["uvicorn", "api:app", "--host", "0.0.0.0", "--port", "7860"]

 FROM python:3.10-slim
 ENV PYTHONUNBUFFERED=1
+ENV LLAMA_CPP_VERBOSE=0
 WORKDIR /app
 RUN apt-get update && apt-get install -y \
+    build-essential \
+    curl \
     && rm -rf /var/lib/apt/lists/*
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
+# Télécharger le modèle GGUF (cache HF)
+RUN mkdir -p /models && \
+    curl -L -o /models/phi-3.gguf \
+    https://huggingface.co/microsoft/Phi-3-mini-4k-instruct-gguf/resolve/main/Phi-3-mini-4k-instruct.Q4_K_M.gguf
 COPY api.py .
 EXPOSE 7860
 CMD ["uvicorn", "api:app", "--host", "0.0.0.0", "--port", "7860"]

api.py CHANGED Viewed

@@ -1,59 +1,38 @@
 from fastapi import FastAPI
 from pydantic import BaseModel
-import torch
-from transformers import AutoTokenizer, AutoModelForCausalLM
-app = FastAPI(title="Phi-3 Code API")
-MODEL_ID = "microsoft/phi-3-mini-4k-instruct"
-# Chargement du tokenizer et du modèle
-tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
-model = AutoModelForCausalLM.from_pretrained(
-    MODEL_ID,
-    device_map="auto",
-    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
-    low_cpu_mem_usage=True
 )
 class GenerateRequest(BaseModel):
     prompt: str
     max_tokens: int = 512
-    temperature: float = 0.2
 @app.get("/")
 def root():
-    return {"message": "Phi-3-mini Code API is running"}
 @app.post("/generate")
 def generate(req: GenerateRequest):
-    prompt = req.prompt.strip()
-    inputs = tokenizer(
-        prompt,
-        return_tensors="pt",
-        truncation=True,
-        max_length=4096
-    ).to(model.device)
-    with torch.no_grad():
-        output = model.generate(
-            **inputs,
-            max_new_tokens=req.max_tokens,
-            temperature=req.temperature,
-            do_sample=False,
-            pad_token_id=tokenizer.eos_token_id
-        )
-    result = tokenizer.decode(
-        output[0],
-        skip_special_tokens=True
     )
     return {
-        "model": MODEL_ID,
-        "response": result
     }
 if __name__ == "__main__":
     import uvicorn

 from fastapi import FastAPI
 from pydantic import BaseModel
+from llama_cpp import Llama
+app = FastAPI(title="llama.cpp Code API")
+llm = Llama(
+    model_path="/models/phi-3.gguf",
+    n_ctx=4096,
+    n_threads=4,
+    n_batch=512,
+    n_gpu_layers=0,
+    verbose=False,
 )
 class GenerateRequest(BaseModel):
     prompt: str
     max_tokens: int = 512
+    temperature: float = 0.1
 @app.get("/")
 def root():
+    return {"message": "llama.cpp Phi-3 API ready"}
 @app.post("/generate")
 def generate(req: GenerateRequest):
+    output = llm(
+        f"<|user|>\n{req.prompt}\n<|assistant|>",
+        max_tokens=req.max_tokens,
+        temperature=req.temperature,
+        stop=["<|user|>"]
     )
     return {
+        "response": output["choices"][0]["text"].strip()
     }
 if __name__ == "__main__":
     import uvicorn

requirements.txt CHANGED Viewed

@@ -1,7 +1,4 @@
-fastapi==0.110.0
-uvicorn==0.27.1
-torch>=2.1.0
-transformers>=4.39.0
-accelerate>=0.27.0
-sentencepiece
 pydantic

+fastapi
+uvicorn
+llama-cpp-python==0.2.77
 pydantic