# Utilise une image légère avec Python FROM python:3.10-slim # Installe les dépendances système nécessaires à la compilation de certaines lib RUN apt-get update && apt-get install -y \ git \ build-essential \ && rm -rf /var/lib/apt/lists/* # Crée un dossier de travail WORKDIR /app # Installe les bibliothèques nécessaires incluant quanto # On ajoute aussi 'sentencepiece' souvent requis pour les tokenizers récents RUN pip install --no-cache-dir \ flask \ transformers \ accelerate \ optimum-quanto \ sentencepiece # Commande pour pré-télécharger le modèle et le tokenizer # Cela évite de le faire à chaque lancement du container RUN python -c "from transformers import AutoModelForCausalLM, AutoTokenizer; \ model_id = 'CygnisAI/Cygnis-Alpha-1.7B-v0.1-Instruct'; \ AutoTokenizer.from_pretrained(model_id); \ AutoModelForCausalLM.from_pretrained(model_id, low_cpu_mem_usage=True)" # Copie ton script serveur app.py (et assure-toi qu'il utilise quanto pour le chargement) COPY app.py . # Expose le port standard pour Hugging Face Spaces EXPOSE 7860 # Lance le serveur CMD ["python", "app.py"]