Spaces:

yusufs
/

llama32-3b-instruct

Paused

yusufs commited on Aug 6

Commit

b2bcd0b

verified ·

1 Parent(s): e1a45e0

Update Dockerfile

Files changed (1) hide show

Dockerfile CHANGED Viewed

@@ -5,23 +5,28 @@ FROM vllm/vllm-openai:v0.10.0
 # NOTE: Make sure the version of vLLM matches the base image!
 RUN uv pip install --system vllm[audio]==0.10.0
-ENTRYPOINT ["python3", "-m", "vllm.entrypoints.openai.api_server"]
-CMD "meta-llama/Llama-3.2-3B-Instruct" \
-  --task generate \
-  --revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
-  --code-revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
-  --tokenizer-revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
-  --seed 42 \
-  --host 0.0.0.0 \
-  --port 7860 \
-  --max-num-batched-tokens 32768 \
-  --max-model-len 32768 \
-  --dtype float16 \
-  --enforce-eager \
-  --gpu-memory-utilization 0.9 \
-  --enable-prefix-caching \
-  --disable-log-requests \
-  --trust-remote-code
 # # FROM nvidia/cuda:12.1.0-cudnn8-runtime-ubuntu22.04
 # FROM nvidia/cuda:12.9.1-cudnn-runtime-ubuntu24.04

 # NOTE: Make sure the version of vLLM matches the base image!
 RUN uv pip install --system vllm[audio]==0.10.0
+ENTRYPOINT [
+  "python3",
+  "-m",
+  "vllm.entrypoints.openai.api_server",
+  "meta-llama/Llama-3.2-3B-Instruct"
+]
+# CMD "meta-llama/Llama-3.2-3B-Instruct" \
+#   --task generate \
+#   --revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
+#   --code-revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
+#   --tokenizer-revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
+#   --seed 42 \
+#   --host 0.0.0.0 \
+#   --port 7860 \
+#   --max-num-batched-tokens 32768 \
+#   --max-model-len 32768 \
+#   --dtype float16 \
+#   --enforce-eager \
+#   --gpu-memory-utilization 0.9 \
+#   --enable-prefix-caching \
+#   --disable-log-requests \
+#   --trust-remote-code
 # # FROM nvidia/cuda:12.1.0-cudnn8-runtime-ubuntu22.04
 # FROM nvidia/cuda:12.9.1-cudnn-runtime-ubuntu24.04