Spaces:
Build error
Build error
Create Dockerfile
Browse files- Dockerfile +28 -0
Dockerfile
ADDED
|
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
# 使用专门针对推理优化的基础镜像 (如果使用 CPU 环境,请告知,我会替换为 llama-cpp 方案)
|
| 2 |
+
FROM vllm/vllm-openai:latest
|
| 3 |
+
|
| 4 |
+
# 设置工作目录
|
| 5 |
+
WORKDIR /app
|
| 6 |
+
|
| 7 |
+
# 设置环境变量
|
| 8 |
+
# HF_HOME 用于存放模型缓存
|
| 9 |
+
ENV HF_HOME=/data \
|
| 10 |
+
VLLM_CACHE=/data \
|
| 11 |
+
PORT=7860
|
| 12 |
+
|
| 13 |
+
# 暴露端口 (HF Spaces 默认 7860)
|
| 14 |
+
EXPOSE 7860
|
| 15 |
+
|
| 16 |
+
# 极致速度优化参数说明:
|
| 17 |
+
# --model: 模型路径
|
| 18 |
+
# --max-model-len: 限制长度以节省显存/提升速度
|
| 19 |
+
# --device: 指定设备 (auto/cpu/cuda)
|
| 20 |
+
# --enforce-eager: 对于极小模型,强制 eager 模式有时比图捕获更快
|
| 21 |
+
# --disable-log-requests: 减少日志 IO 开销
|
| 22 |
+
ENTRYPOINT python3 -m vllm.entrypoints.openai.api_server \
|
| 23 |
+
--model HuggingFaceTB/SmolLM2-135M \
|
| 24 |
+
--max-model-len 2048 \
|
| 25 |
+
--port 7860 \
|
| 26 |
+
--host 0.0.0.0 \
|
| 27 |
+
--tensor-parallel-size 1 \
|
| 28 |
+
--disable-log-requests
|