| # 使用官方 llama.cpp server 镜像(基于 Ubuntu) | |
| FROM ghcr.io/ggml-org/llama.cpp:server | |
| # 设置工作目录 | |
| WORKDIR /app | |
| # 更新包列表并安装 curl(用于下载模型) | |
| RUN apt-get update && apt-get install -y curl && rm -rf /var/lib/apt/lists/* | |
| # 创建模型存放目录 | |
| RUN mkdir -p /models | |
| # 使用 curl 下载 Qwen3.5-4B 的 GGUF 模型文件(约 3.4 GB) | |
| RUN curl -L -o /models/Qwen3.5-2B-Q4_K_M.gguf \ | |
| https://huggingface.co/Jackrong/Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled-GGUF/resolve/main/Qwen3.5-2B.Q4_K_M.gguf | |
| # 暴露端口(Hugging Face Space 默认使用 7860) | |
| EXPOSE 7860 | |
| # 🔥 关键修正:不再清空 ENTRYPOINT,直接传递参数 | |
| # 镜像的默认 ENTRYPOINT 已经是 /app/llama-server | |
| # 只需要通过 CMD 传递参数即可[citation:3][citation:4] | |
| CMD ["-m", "/models/Qwen3.5-2B-Q4_K_M.gguf", "--host", "0.0.0.0", "--port", "7860"] |