LLAMACPP_WEBUI01

Sleeping

App Files Files Community

hsuwill000 commited on Dec 11, 2025

Commit

c2df212

verified ·

1 Parent(s): 4cc22e3

Create Result.md

Browse files

Files changed (1) hide show

Result.md +64 -0

Result.md ADDED Viewed

	@@ -0,0 +1,64 @@

+AVX512 LLAMA.CPP 推論速度分析報告 (純文本格式)
+==========================================
+一、 數據概覽
+以下為使用 llama.cpp 搭配 AVX512 CPU 指令集測試的模型推論速度 (Tokens Per Second, TPS) 匯總。
+| 模型 (Model)           | 總參數/架構 | Active Params | 量化 (Quantization) | TPS  | 備註
+|------------------------|-------------|---------------|---------------------|------|-----------------------
+| LFM2-8B-A1B            | 8B          | 1B (A1B)      | Q2_K                | 18.1 | LFM2 系列最快
+| LFM2-8B-A1B-UD         | 8B          | 1B (A1B)      | Q4_K_XL             | 14.8 | 平衡速度與精度
+| LFM2-8B-A1B            | 8B          | 1B (A1B)      | Q4_K_M              | 14.5 |
+| LFM2-8B-A1B-UD         | 8B          | 1B (A1B)      | Q8_K_XL             | 10.2 |
+| LFM2-8B-A1B            | 8B          | 1B (A1B)      | Q8_0                | 9.6  | LFM2 系列最慢
+| Qwen3-16B-A3B          | 16B         | 3B (A3B)      | Q2_K                | 8.2  |
+| ERNIE-4.5-21B          | 21B         | 3B (A3B)      | Q2_K                | 7.6  |
+| Qwen3-30B-A3B          | 30B         | 3B (A3B)      | Q2_K                | 6.8  |
+| gpt-oss-20b            | 20B         | 3.6B          | Q2_K                | 5.5  | 效率較低
+| Qwen3-30B-A3B          | 30B         | 3B (A3B)      | TQ1_0               | 4.8  | 極低位元量化
+==========================================
+二、 核心實驗結論與分析
+### 1. 量化等級對推論速度的影響
+* 低位元量化提速明顯：
+    * LFM2-8B 模型中，Q2_K (18.1 tps) 對比 Q8_0 (9.6 tps)，速度提升約 88%。
+    * 結論：推論速度主要受記憶體頻寬限制，量化位元越低，模型數據加載越快，TPS 提升越顯著。
+* 極低位元量化的代價：
+    * Qwen3-30B 的 TQ1_0 (1-bit) 僅跑出 4.8 tps，比 Q2_K (6.8 tps) 更慢。
+    * 分析：極低位元量化的解壓縮計算開銷 (Compute bound) 可能抵銷了節省記憶體頻寬的優勢，導致速度不升反降。
+### 2. MoE 架構：活躍參數與總參數的權衡
+MoE (Mixture of Experts) 架構在 CPU 上的效率取決於活躍參數數量 (Active Params)。
+* Active 1B 的絕對優勢：
+    * LFM2-8B-A1B（活躍 1B）達到 14.5-18.1 tps，提供接近小模型的速度，證明 MoE 在 CPU 推論上的高效率。
+* 總參數仍是瓶頸：
+    * 對於活躍參數為 3B (A3B) 的模型，隨著總參數從 16B 增加到 30B，TPS 從 8.2 下降到 6.8。
+    * 分析：儘管每次計算量由活躍參數決定，但更大的總參數對記憶體頻寬仍構成壓力，導致推論速度下降。
+### 3. 特定模型效能觀察
+* LFM2 系列：在所有測試模型中，提供最佳的速度/效率。Q4_K_XL 版本 (14.8 tps) 在速度與精度之間取得最佳平衡。
+* gpt-oss-20b：雖然 Active Params 為 3.6B，但速度 (5.5 tps) 明顯低於同級別的 ERNIE (7.6 tps) 和 Qwen3 (6.8 tps)。這可能與該模型在 llama.cpp 中的算子優化程度有關。
+==========================================
+三、 總結建議
+1.  追求極致速度：應選擇 LFM2-8B-A1B-Q2_K，可提供 18.1 tps 的流暢度。
+2.  平衡品質與速度：LFM2-8B-A1B-UD-Q4_K_XL 是最佳甜蜜點，速度流暢且保持較高精度 (14.8 tps)。
+3.  大模型使用門檻：若使用 20B 或 30B 級別的模型，預期速度將降至 5-8 tps 範圍，可能會出現較明顯的生成延遲。
+==========================================