# 使用官方 llama.cpp server 镜像（基于 Ubuntu）
FROM ghcr.io/ggml-org/llama.cpp:server

# 设置工作目录
WORKDIR /app

# 更新包列表并安装 curl（用于下载模型）
RUN apt-get update && apt-get install -y curl && rm -rf /var/lib/apt/lists/*

# 创建模型存放目录
RUN mkdir -p /models

# 使用 curl 下载 Qwen3.5-4B 的 GGUF 模型文件（约 3.4 GB）
RUN curl -L -o /models/Qwen3.5-9B-Q4_K_M.gguf \
    https://huggingface.co/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF/resolve/main/Qwen3.5-9B.Q4_K_M.gguf


# 暴露端口（Hugging Face Space 默认使用 7860）
EXPOSE 7860

# 🔥 关键修正：不再清空 ENTRYPOINT，直接传递参数
# 镜像的默认 ENTRYPOINT 已经是 /app/llama-server
# 只需要通过 CMD 传递参数即可[citation:3][citation:4]
CMD ["-m", "/models/Qwen3.5-9B-Q4_K_M.gguf", "--host", "0.0.0.0", "--port", "7860"]