Orion-zhen commited on
Commit
f181eb6
·
verified ·
1 Parent(s): 87d039f

Update Dockerfile

Browse files
Files changed (1) hide show
  1. Dockerfile +8 -7
Dockerfile CHANGED
@@ -3,11 +3,11 @@ FROM archlinux:latest
3
  ENV DEBIAN_FRONTEND=noninteractive
4
 
5
  # passed from space environment
6
- ARG MODEL_ID="unsloth/Qwen3-1.7B-GGUF"
7
- ARG QUANT="Q4_K_M"
8
  ARG SERVED_NAME="qwen-nano"
9
  ARG PARALLEL=4
10
- ARG CTX_SIZE=8192
11
  ARG EMBEDDING_ONLY=0
12
  ARG RERANK_ONLY=0
13
 
@@ -16,9 +16,9 @@ ENV LLAMA_ARG_HF_REPO="${MODEL_ID}:${QUANT}"
16
  ENV LLAMA_ARG_CTX_SIZE=${CTX_SIZE}
17
  ENV LLAMA_ARG_BATCH=512
18
  ENV LLAMA_ARG_N_PARALLEL=${PARALLEL}
19
- ENV LLAMA_ARG_FLASH_ATTN=1
20
- ENV LLAMA_ARG_CACHE_TYPE_K="q8_0"
21
- ENV LLAMA_ARG_CACHE_TYPE_V="q4_1"
22
  ENV LLAMA_ARG_MLOCK=1
23
  ENV LLAMA_ARG_N_GPU_LAYERS=0
24
  ENV LLAMA_ARG_HOST="0.0.0.0"
@@ -26,6 +26,7 @@ ENV LLAMA_ARG_PORT=7860
26
  ENV LLAMA_ARG_ALIAS="${SERVED_NAME}"
27
  ENV LLAMA_ARG_EMBEDDINGS=${EMBEDDING_ONLY}
28
  ENV LLAMA_ARG_RERANKING=${RERANK_ONLY}
 
29
 
30
  RUN pacman -Syu --noconfirm --overwrite '*'
31
  RUN pacman -S base-devel git git-lfs cmake curl openblas openblas64 blas64-openblas python gcc-libs glibc --noconfirm --overwrite '*'
@@ -57,4 +58,4 @@ WORKDIR /app
57
 
58
  EXPOSE 7860
59
 
60
- CMD ["/app/llama.cpp/build/bin/llama-server", "--verbose-prompt", "--swa-full"]
 
3
  ENV DEBIAN_FRONTEND=noninteractive
4
 
5
  # passed from space environment
6
+ ARG MODEL_ID="unsloth/Qwen3-0.6B-GGUF"
7
+ ARG QUANT="Q8_0"
8
  ARG SERVED_NAME="qwen-nano"
9
  ARG PARALLEL=4
10
+ ARG CTX_SIZE=4096
11
  ARG EMBEDDING_ONLY=0
12
  ARG RERANK_ONLY=0
13
 
 
16
  ENV LLAMA_ARG_CTX_SIZE=${CTX_SIZE}
17
  ENV LLAMA_ARG_BATCH=512
18
  ENV LLAMA_ARG_N_PARALLEL=${PARALLEL}
19
+ ENV LLAMA_ARG_FLASH_ATTN=on
20
+ # ENV LLAMA_ARG_CACHE_TYPE_K="q8_0"
21
+ # ENV LLAMA_ARG_CACHE_TYPE_V="q4_1"
22
  ENV LLAMA_ARG_MLOCK=1
23
  ENV LLAMA_ARG_N_GPU_LAYERS=0
24
  ENV LLAMA_ARG_HOST="0.0.0.0"
 
26
  ENV LLAMA_ARG_ALIAS="${SERVED_NAME}"
27
  ENV LLAMA_ARG_EMBEDDINGS=${EMBEDDING_ONLY}
28
  ENV LLAMA_ARG_RERANKING=${RERANK_ONLY}
29
+ ENV LLAMA_ARG_ENDPOINT_METRICS=1
30
 
31
  RUN pacman -Syu --noconfirm --overwrite '*'
32
  RUN pacman -S base-devel git git-lfs cmake curl openblas openblas64 blas64-openblas python gcc-libs glibc --noconfirm --overwrite '*'
 
58
 
59
  EXPOSE 7860
60
 
61
+ CMD ["/app/llama.cpp/build/bin/llama-server", "--verbose-prompt", "--prio", "3"]