StarrySkyWorld commited on
Commit
4c12b60
·
verified ·
1 Parent(s): 0a694c3

Create Dockerfile

Browse files
Files changed (1) hide show
  1. Dockerfile +28 -0
Dockerfile ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # 使用专门针对推理优化的基础镜像 (如果使用 CPU 环境,请告知,我会替换为 llama-cpp 方案)
2
+ FROM vllm/vllm-openai:latest
3
+
4
+ # 设置工作目录
5
+ WORKDIR /app
6
+
7
+ # 设置环境变量
8
+ # HF_HOME 用于存放模型缓存
9
+ ENV HF_HOME=/data \
10
+ VLLM_CACHE=/data \
11
+ PORT=7860
12
+
13
+ # 暴露端口 (HF Spaces 默认 7860)
14
+ EXPOSE 7860
15
+
16
+ # 极致速度优化参数说明:
17
+ # --model: 模型路径
18
+ # --max-model-len: 限制长度以节省显存/提升速度
19
+ # --device: 指定设备 (auto/cpu/cuda)
20
+ # --enforce-eager: 对于极小模型,强制 eager 模式有时比图捕获更快
21
+ # --disable-log-requests: 减少日志 IO 开销
22
+ ENTRYPOINT python3 -m vllm.entrypoints.openai.api_server \
23
+ --model HuggingFaceTB/SmolLM2-135M \
24
+ --max-model-len 2048 \
25
+ --port 7860 \
26
+ --host 0.0.0.0 \
27
+ --tensor-parallel-size 1 \
28
+ --disable-log-requests