Spaces:

yusufs
/

sailor2-3b-chat

Paused

yusufs commited on Aug 6

Commit

cdf13a3

verified ·

1 Parent(s): ed90f80

Update Dockerfile

Files changed (1) hide show

Dockerfile CHANGED Viewed

@@ -6,24 +6,7 @@ FROM vllm/vllm-openai:v0.10.0
 # NOTE: Make sure the version of vLLM matches the base image!
 RUN uv pip install --system vllm[audio]==0.10.0
-ENTRYPOINT ["/bin/bash",  "-c"]
-CMD vllm serve "meta-llama/Llama-3.2-3B-Instruct" \
-  --task generate \
-  --revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
-  --code-revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
-  --tokenizer-revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
-  --seed 42 \
-  --host 0.0.0.0 \
-  --port 7860 \
-  --max-num-batched-tokens 32768 \
-  --max-model-len 32768 \
-  --dtype float16 \
-  --enforce-eager \
-  --gpu-memory-utilization 0.9 \
-  --enable-prefix-caching \
-  --disable-log-requests \
-  --trust-remote-code
 # # FROM nvidia/cuda:12.1.0-cudnn8-runtime-ubuntu22.04
 # FROM nvidia/cuda:12.9.1-cudnn-runtime-ubuntu24.04

 # NOTE: Make sure the version of vLLM matches the base image!
 RUN uv pip install --system vllm[audio]==0.10.0
+ENTRYPOINT ["/bin/bash",  "-c", "vllm serve meta-llama/Llama-3.2-3B-Instruct --task generate --revision 0cb88a4f764b7a12671c53f0838cd831a0843b95 --code-revision 0cb88a4f764b7a12671c53f0838cd831a0843b95 --tokenizer-revision 0cb88a4f764b7a12671c53f0838cd831a0843b95 --seed 42 --host 0.0.0.0 --port 7860 --max-num-batched-tokens 32768 --max-model-len 32768 --dtype float16 --enforce-eager --gpu-memory-utilization 0.9 --enable-prefix-caching --disable-log-requests --trust-remote-code"]
 # # FROM nvidia/cuda:12.1.0-cudnn8-runtime-ubuntu22.04
 # FROM nvidia/cuda:12.9.1-cudnn-runtime-ubuntu24.04