Upload Breeze-ASR-26-GGML.md

#1
by phate334 - opened
Files changed (1) hide show
  1. Breeze-ASR-26-GGML.md +83 -0
Breeze-ASR-26-GGML.md ADDED
@@ -0,0 +1,83 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: MediaTek-Research/Breeze-ASR-26
3
+ base_model_relation: quantized
4
+ language:
5
+ - nan
6
+ - zh
7
+ library_name: whisper.cpp
8
+ license: apache-2.0
9
+ metrics:
10
+ - cer
11
+ pipeline_tag: automatic-speech-recognition
12
+ tags:
13
+ - automatic-speech-recognition
14
+ - whisper
15
+ - taiwanese-hokkien
16
+ - taigi
17
+ - low-resource-language
18
+ - arxiv:2603.19259
19
+ - whisper.cpp
20
+ - whisper-cpp
21
+ - quantized
22
+ - q8_0
23
+ - q5_0
24
+ - q4_0
25
+ - q4_1
26
+ ---
27
+
28
+ # Breeze-ASR-26-GGML
29
+
30
+ 這是由 `MediaTek-Research/Breeze-ASR-26` 轉換而來的 `whisper.cpp` 量化版本;此 artifact 沒有額外訓練紀錄。
31
+
32
+ ## 來源模型
33
+
34
+ - 模型:[MediaTek-Research/Breeze-ASR-26](https://huggingface.co/MediaTek-Research/Breeze-ASR-26)
35
+ - Revision:`7b992682e7f5ceedd0a41ebec240f01ba469d19e`
36
+ - 授權:Apache-2.0,依來源模型卡宣告
37
+
38
+ ## 量化資訊
39
+
40
+ - Backend:`whisper.cpp`
41
+ - 量化:`q8_0`, `q5_0`, `q4_0`, `q4_1`
42
+
43
+ ## 評估摘要
44
+
45
+ 這次評估使用教育部臺灣台語常用詞辭典例句音檔:
46
+ [教育部臺灣台語常用詞辭典相關資源](https://sutian.moe.edu.tw/und-hani/siongkuantsuguan/).
47
+ 評估子集取例句音檔中 `hanzi` 長度最長的 100 筆樣本。
48
+
49
+ 以下 CER 使用原始 HF `float16` 推論結果作為 pseudo-reference,衡量不同轉換/量化版本相對於原始模型輸出的 drift。
50
+ 這不是對人工標註逐字稿計算的 ASR CER。計算時會先移除輸出文字中的所有空白,再計算字元級 Levenshtein distance。
51
+
52
+ 以這次結果來看,量化部署建議優先使用 `CT2 int8`:
53
+ 它完成全部 100 筆樣本,VRAM 約 `2097-2129 MiB`,相對 HF `float16` baseline 的 CER drift 為 `0.1263`,整體成本效益最好。
54
+
55
+ | 版本 | 推論結果 | 成功/總數 | VRAM MiB |
56
+ |---|---|---:|---:|
57
+ | [vLLM HF `float16`](https://huggingface.co/MediaTek-Research/Breeze-ASR-26) | `vllm-hf-float16.jsonl` | 100/100 | 21267-21267 |
58
+ | [CT2 `float16`](https://huggingface.co/phate334/Breeze-ASR-26-float16-CT2) | `ct2-float16.jsonl` | 100/100 | 3991-3991 |
59
+ | [CT2 `int8_float16`](https://huggingface.co/phate334/Breeze-ASR-26-int8_float16-CT2) | `ct2-int8_float16.jsonl` | 100/100 | 2103-2135 |
60
+ | [CT2 `int8`](https://huggingface.co/phate334/Breeze-ASR-26-int8-CT2) | `ct2-int8.jsonl` | 100/100 | 2097-2129 |
61
+ | [whisper.cpp / GGML `q4_0`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q4_0.jsonl` | 100/100 | 1843-1843 |
62
+ | [whisper.cpp / GGML `q4_1`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q4_1.jsonl` | 100/100 | 1935-1935 |
63
+ | [whisper.cpp / GGML `q5_0`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q5_0.jsonl` | 100/100 | 2027-2027 |
64
+ | [whisper.cpp / GGML `q8_0`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q8_0.jsonl` | 100/100 | 2575-2575 |
65
+
66
+ ### 相對 HF Baseline 的 CER
67
+
68
+ Baseline reference:`vllm-hf-float16.jsonl`。
69
+
70
+ | 比較版本 | CER | 字元錯誤/參考字元 | 完全一致 |
71
+ |---|---:|---:|---:|
72
+ | `ct2-int8_float16.jsonl` | 0.1157 | 633/5470 | 11 |
73
+ | `ct2-float16.jsonl` | 0.1176 | 643/5470 | 7 |
74
+ | `ct2-int8.jsonl` | 0.1263 | 691/5470 | 5 |
75
+ | `whisper-cpp-ggml-q5_0.jsonl` | 0.1803 | 986/5470 | 5 |
76
+ | `whisper-cpp-ggml-q8_0.jsonl` | 0.1879 | 1028/5470 | 6 |
77
+ | `whisper-cpp-ggml-q4_0.jsonl` | 0.1927 | 1054/5470 | 2 |
78
+ | `whisper-cpp-ggml-q4_1.jsonl` | 0.2558 | 1399/5470 | 2 |
79
+
80
+ ## 更多資訊
81
+
82
+ 評估程式、資料準備方式與完整結果報表請見 GitHub repository:
83
+ https://github.com/phate334/stt-eval