Spaces:
Sleeping
Sleeping
Create Result.md
Browse files
Result.md
ADDED
|
@@ -0,0 +1,64 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
AVX512 LLAMA.CPP 推論速度分析報告 (純文本格式)
|
| 2 |
+
|
| 3 |
+
==========================================
|
| 4 |
+
|
| 5 |
+
一、 數據概覽
|
| 6 |
+
|
| 7 |
+
以下為使用 llama.cpp 搭配 AVX512 CPU 指令集測試的模型推論速度 (Tokens Per Second, TPS) 匯總。
|
| 8 |
+
|
| 9 |
+
| 模型 (Model) | 總參數/架構 | Active Params | 量化 (Quantization) | TPS | 備註
|
| 10 |
+
|------------------------|-------------|---------------|---------------------|------|-----------------------
|
| 11 |
+
| LFM2-8B-A1B | 8B | 1B (A1B) | Q2_K | 18.1 | LFM2 系列最快
|
| 12 |
+
| LFM2-8B-A1B-UD | 8B | 1B (A1B) | Q4_K_XL | 14.8 | 平衡速度與精度
|
| 13 |
+
| LFM2-8B-A1B | 8B | 1B (A1B) | Q4_K_M | 14.5 |
|
| 14 |
+
| LFM2-8B-A1B-UD | 8B | 1B (A1B) | Q8_K_XL | 10.2 |
|
| 15 |
+
| LFM2-8B-A1B | 8B | 1B (A1B) | Q8_0 | 9.6 | LFM2 系列最慢
|
| 16 |
+
| Qwen3-16B-A3B | 16B | 3B (A3B) | Q2_K | 8.2 |
|
| 17 |
+
| ERNIE-4.5-21B | 21B | 3B (A3B) | Q2_K | 7.6 |
|
| 18 |
+
| Qwen3-30B-A3B | 30B | 3B (A3B) | Q2_K | 6.8 |
|
| 19 |
+
| gpt-oss-20b | 20B | 3.6B | Q2_K | 5.5 | 效率較低
|
| 20 |
+
| Qwen3-30B-A3B | 30B | 3B (A3B) | TQ1_0 | 4.8 | 極低位元量化
|
| 21 |
+
|
| 22 |
+
==========================================
|
| 23 |
+
|
| 24 |
+
二、 核心實驗結論與分析
|
| 25 |
+
|
| 26 |
+
### 1. 量化等級對推論速度的影響
|
| 27 |
+
|
| 28 |
+
* 低位元量化提速明顯:
|
| 29 |
+
* LFM2-8B 模型中,Q2_K (18.1 tps) 對比 Q8_0 (9.6 tps),速度提升約 88%。
|
| 30 |
+
* 結論:推論速度主要受記憶體頻寬限制,量化位元越低,模型數據加載越快,TPS 提升越顯著。
|
| 31 |
+
|
| 32 |
+
* 極低位元量化的代價:
|
| 33 |
+
* Qwen3-30B 的 TQ1_0 (1-bit) 僅跑出 4.8 tps,比 Q2_K (6.8 tps) 更慢。
|
| 34 |
+
* 分析:極低位元量化的解壓縮計算開銷 (Compute bound) 可能抵銷了節省記憶體頻寬的優勢,導致速度不升反降。
|
| 35 |
+
|
| 36 |
+
### 2. MoE 架構:活躍參數與總參數的權衡
|
| 37 |
+
|
| 38 |
+
MoE (Mixture of Experts) 架構在 CPU 上的效率取決於活躍參數數量 (Active Params)。
|
| 39 |
+
|
| 40 |
+
* Active 1B 的絕對優勢:
|
| 41 |
+
* LFM2-8B-A1B(活躍 1B)達到 14.5-18.1 tps,提供接近小模型的速度,證明 MoE 在 CPU 推論上的高效率。
|
| 42 |
+
|
| 43 |
+
* 總參數仍是瓶頸:
|
| 44 |
+
* 對於活躍參數為 3B (A3B) 的模型,隨著總參數從 16B 增加到 30B,TPS 從 8.2 下降到 6.8。
|
| 45 |
+
* 分析:儘管每次計算量由活躍參數決定,但更大的總參數對記憶體頻寬仍構成壓力,導致推論速度下降。
|
| 46 |
+
|
| 47 |
+
### 3. 特定模型效能觀察
|
| 48 |
+
|
| 49 |
+
* LFM2 系列:在所有測試模型中,提供最佳的速度/效率。Q4_K_XL 版本 (14.8 tps) 在速度與精度之間取得最佳平衡。
|
| 50 |
+
|
| 51 |
+
* gpt-oss-20b:雖然 Active Params 為 3.6B,但速度 (5.5 tps) 明顯低於同級別的 ERNIE (7.6 tps) 和 Qwen3 (6.8 tps)。這可能與該模型在 llama.cpp 中的算子優化程度有關。
|
| 52 |
+
|
| 53 |
+
==========================================
|
| 54 |
+
|
| 55 |
+
三、 總結建議
|
| 56 |
+
|
| 57 |
+
1. 追求極致速度:應選擇 LFM2-8B-A1B-Q2_K,可提供 18.1 tps 的流暢度。
|
| 58 |
+
|
| 59 |
+
2. 平衡品質與速度:LFM2-8B-A1B-UD-Q4_K_XL 是最佳甜蜜點,速度流暢且保持較高精度 (14.8 tps)。
|
| 60 |
+
|
| 61 |
+
3. 大模型使用門檻:若使用 20B 或 30B 級別的模型,預期速度將降至 5-8 tps 範圍,可能會出現較明顯的生成延遲。
|
| 62 |
+
|
| 63 |
+
|
| 64 |
+
==========================================
|