# 使用官方 llama.cpp server 镜像(基于 Ubuntu) FROM ghcr.io/ggml-org/llama.cpp:server # 设置工作目录 WORKDIR /app # 更新包列表并安装 curl(用于下载模型) RUN apt-get update && apt-get install -y curl && rm -rf /var/lib/apt/lists/* # 创建模型存放目录 RUN mkdir -p /models # 使用 curl 下载 Qwen3.5-4B 的 GGUF 模型文件(约 3.4 GB) RUN curl -L -o /models/Qwen3.5-9B-Q4_K_M.gguf \ https://huggingface.co/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF/resolve/main/Qwen3.5-9B.Q4_K_M.gguf # 暴露端口(Hugging Face Space 默认使用 7860) EXPOSE 7860 # 🔥 关键修正:不再清空 ENTRYPOINT,直接传递参数 # 镜像的默认 ENTRYPOINT 已经是 /app/llama-server # 只需要通过 CMD 传递参数即可[citation:3][citation:4] CMD ["-m", "/models/Qwen3.5-9B-Q4_K_M.gguf", "--host", "0.0.0.0", "--port", "7860"]