FROM nvidia/cuda:12.2.0-cudnn8-runtime-ubuntu22.04

# Instale Python e outras dependências necessárias
RUN apt-get update && apt-get install -y \
    python3 \
    python3-pip \
    curl \
    git

# Instale o Ollama manualmente (exemplo para Linux)
RUN curl -fsSL https://ollama.com/install.sh | sh

# Exponha a porta padrão do Hugging Face Space
EXPOSE 7860

# (Opcional) Baixe o modelo já na build - lembrando que GPU só estará disponível no runtime
RUN ollama pull gemma3:27b

# CMD para rodar o Ollama ouvindo na porta 7860
CMD ["ollama", "serve", "--host", "0.0.0.0", "--port", "7860"]