Spaces:

Amethyst-Labs
/

fst_api

Build error

StarrySkyWorld commited on Mar 3

Commit

ac100ab

verified ·

1 Parent(s): 4c12b60

Update Dockerfile

Files changed (1) hide show

Dockerfile CHANGED Viewed

@@ -1,28 +1,37 @@
-# 使用专门针对推理优化的基础镜像 (如果使用 CPU 环境，请告知，我会替换为 llama-cpp 方案)
-FROM vllm/vllm-openai:latest
 # 设置工作目录
 WORKDIR /app
-# 设置环境变量
-# HF_HOME 用于存放模型缓存
-ENV HF_HOME=/data \
-    VLLM_CACHE=/data \
-    PORT=7860
-# 暴露端口 (HF Spaces 默认 7860)
-EXPOSE 7860
-# 极致速度优化参数说明：
-# --model: 模型路径
-# --max-model-len: 限制长度以节省显存/提升速度
-# --device: 指定设备 (auto/cpu/cuda)
-# --enforce-eager: 对于极小模型，强制 eager 模式有时比图捕获更快
-# --disable-log-requests: 减少日志 IO 开销
-ENTRYPOINT python3 -m vllm.entrypoints.openai.api_server \
-    --model HuggingFaceTB/SmolLM2-135M \
-    --max-model-len 2048 \
-    --port 7860 \
-    --host 0.0.0.0 \
-    --tensor-parallel-size 1 \
-    --disable-log-requests

+# 使用 Python 官方镜像
+FROM python:3.11-slim
+# 安装构建 llama-cpp 所需的系统依赖
+RUN apt-get update && apt-get install -y \
+    build-essential \
+    python3-dev \
+    wget \
+    && rm -rf /var/lib/apt/lists/*
 # 设置工作目录
 WORKDIR /app
+# 安装 llama-cpp-python (带 OpenAI 服务器支持)
+# 注意：我们这里安装的是纯 CPU 版本，针对通用 CPU 指令集进行了优化
+RUN pip install --no-cache-dir "llama-cpp-python[server]"
+# 在构建阶段下载 GGUF 模型文件，避免启动时下载导致超时
+# 这里下载 Q8_0 (8-bit) 量化版本，在 CPU 上速度与精度的平衡点最好
+RUN wget -q https://huggingface.co/HuggingFaceTB/SmolLM2-135M-Instruct-GGUF/resolve/main/smollm2-135m-instruct-q8_0.gguf
+# 设置环境变量
+ENV HOST=0.0.0.0
+ENV PORT=7860
+ENV MODEL=/app/smollm2-135m-instruct-q8_0.gguf
+# 极致速度参数说明：
+# --n_threads: 线程数。HF 免费层通常提供 2-8 核，设置为 2 或空(自动检测)即可
+# --n_ctx: 上下文长度，设为 2048 足够 SmolLM2 使用
+# --interrupt_requests: 允许中断请求
+ENTRYPOINT python3 -m llama_cpp.server \
+    --model $MODEL \
+    --host $HOST \
+    --port $PORT \
+    --n_threads 2 \
+    --n_ctx 2048 \
+    --chat_format chatml