Spaces:

AIencoder
/

Axon-Llama-GUI

Running

AIencoder commited on Feb 5

Commit

e00dc72

verified ·

1 Parent(s): c9ab7da

Update start.sh

Files changed (1) hide show

start.sh CHANGED Viewed

@@ -7,12 +7,9 @@ echo "================================================"
 echo ""
 echo "📋 Capabilities: Text | Images | Audio"
 echo "🔧 Quantization: Q8_0 (near-lossless)"
 echo ""
-echo "------------------------------------------------"
-echo "🛠️  Setting up Environment"
-echo "------------------------------------------------"
-# Create model directory structure
 mkdir -p /app/models/qwen2.5-omni-7b
 download_file () {
@@ -28,9 +25,7 @@ download_file () {
     echo "⬇️  Downloading $FILENAME ..."
     python3 -c "
 from huggingface_hub import hf_hub_download
-import shutil
-import sys
 try:
     path = hf_hub_download(
         repo_id='$REPO_ID',
@@ -45,11 +40,6 @@ except Exception as e:
 "
 }
-echo ""
-echo "📦 Downloading Qwen2.5-Omni-7B Q8_0..."
-echo ""
-# Download model and multimodal projector
 download_file "ggml-org/Qwen2.5-Omni-7B-GGUF" \
     "Qwen2.5-Omni-7B-Q8_0.gguf" \
     "/app/models/qwen2.5-omni-7b/Qwen2.5-Omni-7B-Q8_0.gguf"
@@ -59,10 +49,7 @@ download_file "ggml-org/Qwen2.5-Omni-7B-GGUF" \
     "/app/models/qwen2.5-omni-7b/mmproj-Qwen2.5-Omni-7B-Q8_0.gguf"
 echo ""
-echo "------------------------------------------------"
 echo "🚀 Starting llama.cpp Server"
-echo "------------------------------------------------"
-echo ""
 echo "🌐 Server will be available at http://0.0.0.0:7860"
 echo ""
@@ -71,4 +58,7 @@ exec /usr/local/bin/llama-server \
     --host 0.0.0.0 \
     --port 7860 \
     -c 8192 \
     --n-gpu-layers 0

 echo ""
 echo "📋 Capabilities: Text | Images | Audio"
 echo "🔧 Quantization: Q8_0 (near-lossless)"
+echo "⚡ Optimizations: Flash Attention, Continuous Batching"
 echo ""
 mkdir -p /app/models/qwen2.5-omni-7b
 download_file () {
     echo "⬇️  Downloading $FILENAME ..."
     python3 -c "
 from huggingface_hub import hf_hub_download
+import shutil, sys
 try:
     path = hf_hub_download(
         repo_id='$REPO_ID',
 "
 }
 download_file "ggml-org/Qwen2.5-Omni-7B-GGUF" \
     "Qwen2.5-Omni-7B-Q8_0.gguf" \
     "/app/models/qwen2.5-omni-7b/Qwen2.5-Omni-7B-Q8_0.gguf"
     "/app/models/qwen2.5-omni-7b/mmproj-Qwen2.5-Omni-7B-Q8_0.gguf"
 echo ""
 echo "🚀 Starting llama.cpp Server"
 echo "🌐 Server will be available at http://0.0.0.0:7860"
 echo ""
     --host 0.0.0.0 \
     --port 7860 \
     -c 8192 \
+    -t 4 \
+    --flash-attn \
+    --cont-batching \
     --n-gpu-layers 0