Spaces:

Orion-zhen
/

gguf-api

Running

Orion-zhen commited on Oct 14, 2025

Commit

f181eb6

verified ·

1 Parent(s): 87d039f

Update Dockerfile

Files changed (1) hide show

Dockerfile CHANGED Viewed

@@ -3,11 +3,11 @@ FROM archlinux:latest
 ENV DEBIAN_FRONTEND=noninteractive
 # passed from space environment
-ARG MODEL_ID="unsloth/Qwen3-1.7B-GGUF"
-ARG QUANT="Q4_K_M"
 ARG SERVED_NAME="qwen-nano"
 ARG PARALLEL=4
-ARG CTX_SIZE=8192
 ARG EMBEDDING_ONLY=0
 ARG RERANK_ONLY=0
@@ -16,9 +16,9 @@ ENV LLAMA_ARG_HF_REPO="${MODEL_ID}:${QUANT}"
 ENV LLAMA_ARG_CTX_SIZE=${CTX_SIZE}
 ENV LLAMA_ARG_BATCH=512
 ENV LLAMA_ARG_N_PARALLEL=${PARALLEL}
-ENV LLAMA_ARG_FLASH_ATTN=1
-ENV LLAMA_ARG_CACHE_TYPE_K="q8_0"
-ENV LLAMA_ARG_CACHE_TYPE_V="q4_1"
 ENV LLAMA_ARG_MLOCK=1
 ENV LLAMA_ARG_N_GPU_LAYERS=0
 ENV LLAMA_ARG_HOST="0.0.0.0"
@@ -26,6 +26,7 @@ ENV LLAMA_ARG_PORT=7860
 ENV LLAMA_ARG_ALIAS="${SERVED_NAME}"
 ENV LLAMA_ARG_EMBEDDINGS=${EMBEDDING_ONLY}
 ENV LLAMA_ARG_RERANKING=${RERANK_ONLY}
 RUN pacman -Syu --noconfirm --overwrite '*'
 RUN pacman -S base-devel git git-lfs cmake curl openblas openblas64 blas64-openblas python gcc-libs glibc --noconfirm --overwrite '*'
@@ -57,4 +58,4 @@ WORKDIR /app
 EXPOSE 7860
-CMD ["/app/llama.cpp/build/bin/llama-server", "--verbose-prompt", "--swa-full"]

 ENV DEBIAN_FRONTEND=noninteractive
 # passed from space environment
+ARG MODEL_ID="unsloth/Qwen3-0.6B-GGUF"
+ARG QUANT="Q8_0"
 ARG SERVED_NAME="qwen-nano"
 ARG PARALLEL=4
+ARG CTX_SIZE=4096
 ARG EMBEDDING_ONLY=0
 ARG RERANK_ONLY=0
 ENV LLAMA_ARG_CTX_SIZE=${CTX_SIZE}
 ENV LLAMA_ARG_BATCH=512
 ENV LLAMA_ARG_N_PARALLEL=${PARALLEL}
+ENV LLAMA_ARG_FLASH_ATTN=on
+# ENV LLAMA_ARG_CACHE_TYPE_K="q8_0"
+# ENV LLAMA_ARG_CACHE_TYPE_V="q4_1"
 ENV LLAMA_ARG_MLOCK=1
 ENV LLAMA_ARG_N_GPU_LAYERS=0
 ENV LLAMA_ARG_HOST="0.0.0.0"
 ENV LLAMA_ARG_ALIAS="${SERVED_NAME}"
 ENV LLAMA_ARG_EMBEDDINGS=${EMBEDDING_ONLY}
 ENV LLAMA_ARG_RERANKING=${RERANK_ONLY}
+ENV LLAMA_ARG_ENDPOINT_METRICS=1
 RUN pacman -Syu --noconfirm --overwrite '*'
 RUN pacman -S base-devel git git-lfs cmake curl openblas openblas64 blas64-openblas python gcc-libs glibc --noconfirm --overwrite '*'
 EXPOSE 7860
+CMD ["/app/llama.cpp/build/bin/llama-server", "--verbose-prompt", "--prio", "3"]