daslab-testing
/

Kimi-K2.5-2bit-GSQ

compressed-tensors

Mixture of Experts

Model card Files Files and versions

soroushtabesh commited on Mar 24

Commit

7aaaf63

·

verified ·

1 Parent(s): 842da8d

Upload README.md with huggingface_hub

Files changed (1) hide show

README.md +10 -0

README.md CHANGED Viewed

@@ -75,6 +75,16 @@ Evaluated on a 128-sample held-out split during quantization, measured every 6 l
 The final 2-bit quantized model retains perplexity within 0.015 of the dense baseline (< 1% relative degradation).
 ## Usage
 This model requires **vLLM** for inference. Because Kimi-K2.5 uses a custom model architecture (`kimi_k25`), you must pass `--trust-remote-code`.

 The final 2-bit quantized model retains perplexity within 0.015 of the dense baseline (< 1% relative degradation).
+### Benchmark Results (lm-evaluation-harness)
+| Benchmark | Metric | Score |
+|---|---|---|
+| GSM8K | exact_match (strict) | **92.57** |
+| ARC-Challenge | acc_norm | **62.97** |
+| ARC-Easy | acc_norm | **85.10** |
+| PIQA | acc_norm | **82.37** |
+| WinoGrande | acc | **76.95** |
 ## Usage
 This model requires **vLLM** for inference. Because Kimi-K2.5 uses a custom model architecture (`kimi_k25`), you must pass `--trust-remote-code`.