marksverdhei
/

MiniMax-M2.5-GGUF

@@ -29,10 +29,8 @@ GGUF quantizations of [MiniMaxAI/MiniMax-M2.5](https://huggingface.co/MiniMaxAI/
 | Quantization | Size | Description |
 |-------------|------|-------------|
-| Q8_0 | ~227 GB | 8-bit quantization, highest quality |
-| Q4_K_M | — | 4-bit K-quant (medium), good balance of quality and size |
-| IQ3_S | — | 3-bit importance quantization (small), compact |
-| Q2_K | — | 2-bit K-quant, smallest size |
 ## Usage
@@ -46,5 +44,5 @@ llama-cli -m MiniMax-M2.5-Q4_K_M.gguf -p "Hello" -n 128
 ## Notes
 - The source model uses FP8 (`float8_e4m3fn`) precision, so Q8_0 is effectively lossless relative to the source weights.
-- This is a large MoE model. Even the smallest quant (Q2_K) requires significant memory due to the number of experts.
 - Quantized from the official [MiniMaxAI/MiniMax-M2.5](https://huggingface.co/MiniMaxAI/MiniMax-M2.5) weights.

 | Quantization | Size | Description |
 |-------------|------|-------------|
+| Q8_0 | 227 GB | 8-bit quantization, highest quality |
+| Q4_K_M | 129 GB | 4-bit K-quant (medium), good balance of quality and size |
 ## Usage
 ## Notes
 - The source model uses FP8 (`float8_e4m3fn`) precision, so Q8_0 is effectively lossless relative to the source weights.
+- This is a large MoE model. Even Q4_K_M requires ~129GB due to the number of experts.
 - Quantized from the official [MiniMaxAI/MiniMax-M2.5](https://huggingface.co/MiniMaxAI/MiniMax-M2.5) weights.