# Utilise une image légère avec Python
FROM python:3.10-slim

# Installe les dépendances système nécessaires à la compilation de certaines lib
RUN apt-get update && apt-get install -y \
    git \
    build-essential \
    && rm -rf /var/lib/apt/lists/*

# Crée un dossier de travail
WORKDIR /app

# Installe les bibliothèques nécessaires incluant quanto
# On ajoute aussi 'sentencepiece' souvent requis pour les tokenizers récents
RUN pip install --no-cache-dir \
    flask \
    transformers \
    accelerate \
    optimum-quanto \
    sentencepiece

# Commande pour pré-télécharger le modèle et le tokenizer
# Cela évite de le faire à chaque lancement du container
RUN python -c "from transformers import AutoModelForCausalLM, AutoTokenizer; \
    model_id = 'CygnisAI/Cygnis-Alpha-1.7B-v0.1-Instruct'; \
    AutoTokenizer.from_pretrained(model_id); \
    AutoModelForCausalLM.from_pretrained(model_id, low_cpu_mem_usage=True)"

# Copie ton script serveur app.py (et assure-toi qu'il utilise quanto pour le chargement)
COPY app.py .

# Expose le port standard pour Hugging Face Spaces
EXPOSE 7860

# Lance le serveur
CMD ["python", "app.py"]