LLAMACPP_WEBUI01

Sleeping

Create Result.md

c2df212 verified 3 months ago

3.52 kB

AVX512 LLAMA.CPP 推論速度分析報告 (純文本格式)

==========================================

一、數據概覽

以下為使用 llama.cpp 搭配 AVX512 CPU 指令集測試的模型推論速度 (Tokens Per Second, TPS) 匯總。

模型 (Model)	總參數/架構	Active Params	量化 (Quantization)	TPS	備註
LFM2-8B-A1B	8B	1B (A1B)	Q2_K	18.1	LFM2 系列最快
LFM2-8B-A1B-UD	8B	1B (A1B)	Q4_K_XL	14.8	平衡速度與精度
LFM2-8B-A1B	8B	1B (A1B)	Q4_K_M	14.5
LFM2-8B-A1B-UD	8B	1B (A1B)	Q8_K_XL	10.2
LFM2-8B-A1B	8B	1B (A1B)	Q8_0	9.6	LFM2 系列最慢
Qwen3-16B-A3B	16B	3B (A3B)	Q2_K	8.2
ERNIE-4.5-21B	21B	3B (A3B)	Q2_K	7.6
Qwen3-30B-A3B	30B	3B (A3B)	Q2_K	6.8
gpt-oss-20b	20B	3.6B	Q2_K	5.5	效率較低
Qwen3-30B-A3B	30B	3B (A3B)	TQ1_0	4.8	極低位元量化

==========================================

二、核心實驗結論與分析

低位元量化提速明顯：
- LFM2-8B 模型中，Q2_K (18.1 tps) 對比 Q8_0 (9.6 tps)，速度提升約 88%。
- 結論：推論速度主要受記憶體頻寬限制，量化位元越低，模型數據加載越快，TPS 提升越顯著。
極低位元量化的代價：
- Qwen3-30B 的 TQ1_0 (1-bit) 僅跑出 4.8 tps，比 Q2_K (6.8 tps) 更慢。
- 分析：極低位元量化的解壓縮計算開銷 (Compute bound) 可能抵銷了節省記憶體頻寬的優勢，導致速度不升反降。

MoE (Mixture of Experts) 架構在 CPU 上的效率取決於活躍參數數量 (Active Params)。

Active 1B 的絕對優勢：
- LFM2-8B-A1B（活躍 1B）達到 14.5-18.1 tps，提供接近小模型的速度，證明 MoE 在 CPU 推論上的高效率。
總參數仍是瓶頸：
- 對於活躍參數為 3B (A3B) 的模型，隨著總參數從 16B 增加到 30B，TPS 從 8.2 下降到 6.8。
- 分析：儘管每次計算量由活躍參數決定，但更大的總參數對記憶體頻寬仍構成壓力，導致推論速度下降。

LFM2 系列：在所有測試模型中，提供最佳的速度/效率。Q4_K_XL 版本 (14.8 tps) 在速度與精度之間取得最佳平衡。
gpt-oss-20b：雖然 Active Params 為 3.6B，但速度 (5.5 tps) 明顯低於同級別的 ERNIE (7.6 tps) 和 Qwen3 (6.8 tps)。這可能與該模型在 llama.cpp 中的算子優化程度有關。

==========================================

三、總結建議

==========================================