ubergarm
/

MiniMax-M2.5-GGUF

@@ -230,10 +230,27 @@ $ cmake -B build -DCMAKE_BUILD_TYPE=Release -DGGML_CUDA=ON
 $ cmake --build build --config Release -j $(nproc)
 # Hybrid CPU and Single GPU
-echo TODO or look at my Step-3.5-Flash for rough example for now
-# Hybrid CPU and Multi GPU
-echo TODO or look at my Step-3.5-Flash for rough example for now
 # CPU-Only
 numactl -N "$SOCKET" -m "$SOCKET" \

 $ cmake --build build --config Release -j $(nproc)
 # Hybrid CPU and Single GPU
+echo TODO or look at my Step-3.5-Flash for rough example for now using --cpu-moe or --n-cpu-moe XX etc
+# Hybrid CPU and Multi GPU 128k context full offload in 96GB VRAM
+model=MiniMax-M2.5-IQ2_KS-00001-of-00003.gguf
+_GLIBCXX_REGEX_STATE_LIMIT=1000000 \
+CUDA_VISIBLE_DEVICES="0,1" \
+./build/bin/llama-sweep-bench \
+    --model "$model" \
+    --alias ubergarm/MiniMax-M2.5 \
+    -khad -ctk q6_0 -ctv q8_0 \
+    -c 131072 \
+    -ger \
+    -sm graph \
+    -ngl 99 \
+    -ub 4096 -b 4096 \
+    -ts 47,48 \
+    --threads 1 \
+    --host 127.0.0.1 \
+    --port 8080 \
+    --no-mmap \
+    --jinja
 # CPU-Only
 numactl -N "$SOCKET" -m "$SOCKET" \