Spaces:

digitaldev2024
/

allma

Sleeping

pakito312 commited on Jan 15

Commit

e031762

1 Parent(s): 850166a

update

Files changed (3) hide show

Dockerfile CHANGED Viewed

@@ -1,18 +1,27 @@
 FROM python:3.10-slim
-# Installer curl et zstd pour Ollama
-RUN apt-get update && apt-get install -y curl zstd && rm -rf /var/lib/apt/lists/*
-# Installer Ollama
-RUN curl -fsSL https://ollama.ai/install.sh | sh
-# Copier l'API
-COPY api.py .
-# Installer seulement FastAPI et requests
-RUN pip install fastapi uvicorn requests
 EXPOSE 7860
-# Démarrer
-CMD ["sh", "-c", "ollama serve & sleep 40 && ollama pull deepseek-coder:1.3b && uvicorn api:app --host 0.0.0.0 --port 7860"]

 FROM python:3.10-slim
+# Variables d'environnement (HF + perf)
+ENV PYTHONDONTWRITEBYTECODE=1
+ENV PYTHONUNBUFFERED=1
+ENV TRANSFORMERS_CACHE=/data/hf_cache
+ENV HF_HOME=/data/hf_cache
+WORKDIR /app
+# Dépendances système minimales
+RUN apt-get update && apt-get install -y \
+    git \
+    && rm -rf /var/lib/apt/lists/*
+# Installer les dépendances Python
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# Copier l'application
+COPY api.py .
+# Exposer le port HF Space
 EXPOSE 7860
+# Lancer FastAPI
+CMD ["uvicorn", "api:app", "--host", "0.0.0.0", "--port", "7860"]

api.py CHANGED Viewed

@@ -1,23 +1,60 @@
 from fastapi import FastAPI
-import requests
-import time
-app = FastAPI()
-OLLAMA_URL = "http://localhost:11434"
 @app.get("/")
 def root():
-    return {"message": "DeepSeek-Coder API"}
 @app.post("/generate")
-def generate(prompt: str):
-    response = requests.post(f"{OLLAMA_URL}/api/generate", json={
-        "model": "deepseek-coder:1.3b",
-        "prompt": prompt,
-        "stream": False
-    })
-    return response.json()
 if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)

 from fastapi import FastAPI
+from pydantic import BaseModel
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+app = FastAPI(title="Phi-3 Code API")
+MODEL_ID = "microsoft/phi-3-mini-4k-instruct"
+# Chargement du tokenizer et du modèle
+tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_ID,
+    device_map="auto",
+    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+    low_cpu_mem_usage=True
+)
+class GenerateRequest(BaseModel):
+    prompt: str
+    max_tokens: int = 512
+    temperature: float = 0.2
 @app.get("/")
 def root():
+    return {"message": "Phi-3-mini Code API is running"}
 @app.post("/generate")
+def generate(req: GenerateRequest):
+    prompt = req.prompt.strip()
+    inputs = tokenizer(
+        prompt,
+        return_tensors="pt",
+        truncation=True,
+        max_length=4096
+    ).to(model.device)
+    with torch.no_grad():
+        output = model.generate(
+            **inputs,
+            max_new_tokens=req.max_tokens,
+            temperature=req.temperature,
+            do_sample=False,
+            pad_token_id=tokenizer.eos_token_id
+        )
+    result = tokenizer.decode(
+        output[0],
+        skip_special_tokens=True
+    )
+    return {
+        "model": MODEL_ID,
+        "response": result
+    }
 if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)

requirements.txt CHANGED Viewed

@@ -1,5 +1,7 @@
-fastapi==0.104.1
-uvicorn[standard]==0.24.0
-pydantic==2.5.0
-aiohttp==3.13.3
-requests==2.31.0

+fastapi==0.110.0
+uvicorn==0.27.1
+torch>=2.1.0
+transformers>=4.39.0
+accelerate>=0.27.0
+sentencepiece
+pydantic