Spaces:

digitaldev2024
/

allma

Sleeping

App Files Files Community

pakito312 commited on Jan 15

Commit

5143de5

1 Parent(s): ca1c16e

update

Browse files

Files changed (4) hide show

Dockerfile +5 -12
api.py +23 -11
download_model.py +13 -3
requirements.txt +3 -2

Dockerfile CHANGED Viewed

@@ -8,14 +8,10 @@ RUN apt-get update && apt-get install -y \
     curl \
     && rm -rf /var/lib/apt/lists/*
-# Installer llama-cpp-python avec support CUDA (si disponible)
-RUN pip install --no-cache-dir \
-    llama-cpp-python[server] \
-    fastapi \
-    uvicorn \
-    pydantic \
-    requests \
-    huggingface-hub
 # Créer un utilisateur non-root
 RUN useradd -m -u 1000 user
@@ -26,10 +22,7 @@ WORKDIR /home/user
 COPY --chown=user:user api.py .
 COPY --chown=user:user download_model.py .
-# Télécharger le modèle GGUF au build (optionnel)
-# RUN python download_model.py
 EXPOSE 7860
 # Démarrer
-CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

     curl \
     && rm -rf /var/lib/apt/lists/*
+# Installer les dépendances Python
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+RUN pip install --no-cache-dir huggingface-hub
 # Créer un utilisateur non-root
 RUN useradd -m -u 1000 user
 COPY --chown=user:user api.py .
 COPY --chown=user:user download_model.py .
 EXPOSE 7860
 # Démarrer
+CMD ["uvicorn", "api:app", "--host", "0.0.0.0", "--port", "7860"]

api.py CHANGED Viewed

@@ -11,17 +11,23 @@ from contextlib import asynccontextmanager
 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel, Field
-from huggingface_hub import hf_hub_download
 # Import llama_cpp
 try:
     from llama_cpp import Llama
-    from llama_cpp.server.app import create_app, Settings
 except ImportError:
     # Fallback si llama_cpp_python n'est pas installé
     Llama = None
 # ========== CONFIGURATION ==========
 MODEL_REPO = "bartowski/DeepSeek-Coder-1.3B-Instruct-GGUF"
 MODEL_FILES = [
     "DeepSeek-Coder-1.3B-Instruct-Q4_K_M.gguf",      # 900MB - Bon compromis
@@ -42,7 +48,7 @@ class GenerateRequest(BaseModel):
     stream: bool = False
 class ChatMessage(BaseModel):
-    role: str = Field(..., regex="^(user|assistant|system)$")
     content: str
 class ChatRequest(BaseModel):
@@ -60,6 +66,9 @@ class ModelManager:
     def find_or_download_model(self):
         """Trouver ou télécharger le modèle GGUF"""
         # Vérifier si un modèle existe déjà
         for model_file in MODEL_FILES:
             local_path = os.path.join(MODEL_DIR, model_file)
@@ -91,6 +100,9 @@ class ModelManager:
         """Charger le modèle avec llama_cpp"""
         if self.llm is not None:
             return self.llm
         print("🔧 Chargement du modèle...")
         self.loading = True
@@ -100,9 +112,9 @@ class ModelManager:
             self.model_path = self.find_or_download_model()
             # Configurer le modèle (optimisé pour Hugging Face 16GB RAM)
-            n_gpu_layers = -1  # Utiliser GPU si disponible
-            n_threads = 4      # 4 threads CPU
-            n_ctx = 2048       # Contexte limité pour économiser la RAM
             print(f"🔄 Chargement depuis: {self.model_path}")
             print(f"⚙️  Configuration: GPU layers={n_gpu_layers}, Threads={n_threads}, Context={n_ctx}")
@@ -215,7 +227,7 @@ app = FastAPI(
     description="API ultra-rapide avec llama_cpp_python",
     version="2.0.0",
     docs_url="/docs",
-    redoc_url="/redoc",
     lifespan=lifespan
 )
@@ -310,11 +322,11 @@ async def chat(request: ChatRequest):
 async def list_models():
     """Lister les modèles disponibles"""
     models = []
-    if model_manager.model_path:
         models.append({
             "name": "deepseek-coder-1.3b",
             "path": model_manager.model_path,
-            "size_mb": os.path.getsize(model_manager.model_path) / 1024 / 1024 if os.path.exists(model_manager.model_path) else 0,
             "loaded": model_manager.llm is not None
         })
@@ -326,11 +338,11 @@ async def demo():
     examples = [
         {
             "endpoint": "POST /generate",
-            "curl": 'curl -X POST https://your-api.space/generate -H "Content-Type: application/json" -d \'{"prompt": "def fibonacci(n):", "temperature": 0.2}\''
         },
         {
             "endpoint": "POST /chat",
-            "curl": 'curl -X POST https://your-api.space/chat -H "Content-Type: application/json" -d \'{"messages": [{"role": "user", "content": "Write Python code for binary search"}], "temperature": 0.2}\''
         }
     ]
     return {"examples": examples}

 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel, Field
 # Import llama_cpp
 try:
     from llama_cpp import Llama
 except ImportError:
     # Fallback si llama_cpp_python n'est pas installé
     Llama = None
 # ========== CONFIGURATION ==========
+# IMPORTANT: huggingface_hub doit être importé APRÈS les vérifications
+# car il peut causer des conflits d'import
+try:
+    from huggingface_hub import hf_hub_download
+    HF_AVAILABLE = True
+except ImportError:
+    HF_AVAILABLE = False
 MODEL_REPO = "bartowski/DeepSeek-Coder-1.3B-Instruct-GGUF"
 MODEL_FILES = [
     "DeepSeek-Coder-1.3B-Instruct-Q4_K_M.gguf",      # 900MB - Bon compromis
     stream: bool = False
 class ChatMessage(BaseModel):
+    role: str = Field(..., pattern="^(user|assistant|system)$")
     content: str
 class ChatRequest(BaseModel):
     def find_or_download_model(self):
         """Trouver ou télécharger le modèle GGUF"""
+        if not HF_AVAILABLE:
+            raise Exception("huggingface-hub n'est pas installé")
         # Vérifier si un modèle existe déjà
         for model_file in MODEL_FILES:
             local_path = os.path.join(MODEL_DIR, model_file)
         """Charger le modèle avec llama_cpp"""
         if self.llm is not None:
             return self.llm
+        if Llama is None:
+            raise Exception("llama_cpp n'est pas installé")
         print("🔧 Chargement du modèle...")
         self.loading = True
             self.model_path = self.find_or_download_model()
             # Configurer le modèle (optimisé pour Hugging Face 16GB RAM)
+            n_gpu_layers = 0  # Pas de GPU sur Hugging Face Spaces gratuit
+            n_threads = 2     # 2 threads CPU (conservateur)
+            n_ctx = 1024      # Contexte limité pour économiser la RAM
             print(f"🔄 Chargement depuis: {self.model_path}")
             print(f"⚙️  Configuration: GPU layers={n_gpu_layers}, Threads={n_threads}, Context={n_ctx}")
     description="API ultra-rapide avec llama_cpp_python",
     version="2.0.0",
     docs_url="/docs",
+    redoc_url=None,
     lifespan=lifespan
 )
 async def list_models():
     """Lister les modèles disponibles"""
     models = []
+    if model_manager.model_path and os.path.exists(model_manager.model_path):
         models.append({
             "name": "deepseek-coder-1.3b",
             "path": model_manager.model_path,
+            "size_mb": round(os.path.getsize(model_manager.model_path) / 1024 / 1024, 2),
             "loaded": model_manager.llm is not None
         })
     examples = [
         {
             "endpoint": "POST /generate",
+            "curl": 'curl -X POST https://digitaldev2024-allma.hf.space/generate -H "Content-Type: application/json" -d \'{"prompt": "def fibonacci(n):", "temperature": 0.2}\''
         },
         {
             "endpoint": "POST /chat",
+            "curl": 'curl -X POST https://digitaldev2024-allma.hf.space/chat -H "Content-Type: application/json" -d \'{"messages": [{"role": "user", "content": "Write Python code for binary search"}], "temperature": 0.2}\''
         }
     ]
     return {"examples": examples}

download_model.py CHANGED Viewed

@@ -1,9 +1,15 @@
 """
 Télécharger le modèle DeepSeek-Coder au format GGUF
 """
-from huggingface_hub import hf_hub_download
 import os
 # Configuration
 MODEL_REPO = "bartowski/DeepSeek-Coder-1.3B-Instruct-GGUF"
 MODEL_FILE = "DeepSeek-Coder-1.3B-Instruct-Q4_K_M.gguf"
@@ -11,6 +17,10 @@ LOCAL_PATH = "./models"
 def download_model():
     """Télécharger le modèle GGUF"""
     os.makedirs(LOCAL_PATH, exist_ok=True)
     print(f"📥 Téléchargement de {MODEL_FILE}...")
@@ -43,8 +53,8 @@ def download_model():
             )
             print(f"✅ Modèle de secours téléchargé")
             return model_path
-        except:
-            print("❌ Impossible de télécharger aucun modèle")
             return None
 if __name__ == "__main__":

 """
 Télécharger le modèle DeepSeek-Coder au format GGUF
 """
 import os
+try:
+    from huggingface_hub import hf_hub_download
+    HF_AVAILABLE = True
+except ImportError:
+    HF_AVAILABLE = False
+    print("❌ huggingface-hub n'est pas installé")
 # Configuration
 MODEL_REPO = "bartowski/DeepSeek-Coder-1.3B-Instruct-GGUF"
 MODEL_FILE = "DeepSeek-Coder-1.3B-Instruct-Q4_K_M.gguf"
 def download_model():
     """Télécharger le modèle GGUF"""
+    if not HF_AVAILABLE:
+        print("❌ Impossible de télécharger: huggingface-hub non disponible")
+        return None
     os.makedirs(LOCAL_PATH, exist_ok=True)
     print(f"📥 Téléchargement de {MODEL_FILE}...")
             )
             print(f"✅ Modèle de secours téléchargé")
             return model_path
+        except Exception as e2:
+            print(f"❌ Impossible de télécharger aucun modèle: {e2}")
             return None
 if __name__ == "__main__":

requirements.txt CHANGED Viewed

@@ -1,4 +1,5 @@
 fastapi
-uvicorn
 llama-cpp-python==0.2.77
-pydantic

 fastapi
+uvicorn[standard]==0.24.0
 llama-cpp-python==0.2.77
+pydantic==2.5.0
+huggingface-hub==0.20.3