Qwen3-coder

Sleeping

ubix commited on Feb 7

Commit

d6663c1

verified ·

1 Parent(s): 29887ab

Update Dockerfile

Files changed (1) hide show

Dockerfile CHANGED Viewed

@@ -2,6 +2,12 @@ FROM ghcr.io/ggml-org/llama.cpp:full
 RUN apt update && apt install wget -y
-RUN wget "https://huggingface.co/unsloth/gemma-3-1b-it-GGUF/resolve/main/gemma-3-1b-it-Q8_0.gguf" -O /gemma-3-1b-it-Q8_0.gguf
-CMD ["--server", "-m", "/gemma-3-1b-it-Q8_0.gguf", "--port", "7860", "--host", "0.0.0.0", "-n", "512"]

 RUN apt update && apt install wget -y
+# RECOMMENDED: Llama 3.1 8B Q4_K_M (~4.7GB)
+RUN wget "https://huggingface.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF/resolve/main/Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf" -O /model.gguf
+# Optimized for 2 vCPU, 16GB RAM
+# -c 4096: 4K context (safe for 16GB RAM)
+# -n 1024: Max 1K tokens generation
+# -t 2: Use 2 threads (matches your vCPU count)
+# --ctx-size 4096: Explicit context size
+CMD ["--server", "-m", "/model.gguf", "--port", "7860", "--host", "0.0.0.0", "-c", "4096", "-n", "1024", "-t", "2", "--chat-template", "llama3"]