Files changed (2) hide show
  1. Breeze-ASR-26-GGML.md +0 -83
  2. README.md +52 -8
Breeze-ASR-26-GGML.md DELETED
@@ -1,83 +0,0 @@
1
- ---
2
- base_model: MediaTek-Research/Breeze-ASR-26
3
- base_model_relation: quantized
4
- language:
5
- - nan
6
- - zh
7
- library_name: whisper.cpp
8
- license: apache-2.0
9
- metrics:
10
- - cer
11
- pipeline_tag: automatic-speech-recognition
12
- tags:
13
- - automatic-speech-recognition
14
- - whisper
15
- - taiwanese-hokkien
16
- - taigi
17
- - low-resource-language
18
- - arxiv:2603.19259
19
- - whisper.cpp
20
- - whisper-cpp
21
- - quantized
22
- - q8_0
23
- - q5_0
24
- - q4_0
25
- - q4_1
26
- ---
27
-
28
- # Breeze-ASR-26-GGML
29
-
30
- 這是由 `MediaTek-Research/Breeze-ASR-26` 轉換而來的 `whisper.cpp` 量化版本;此 artifact 沒有額外訓練紀錄。
31
-
32
- ## 來源模型
33
-
34
- - 模型:[MediaTek-Research/Breeze-ASR-26](https://huggingface.co/MediaTek-Research/Breeze-ASR-26)
35
- - Revision:`7b992682e7f5ceedd0a41ebec240f01ba469d19e`
36
- - 授權:Apache-2.0,依來源模型卡宣告
37
-
38
- ## 量化資訊
39
-
40
- - Backend:`whisper.cpp`
41
- - 量化:`q8_0`, `q5_0`, `q4_0`, `q4_1`
42
-
43
- ## 評估摘要
44
-
45
- 這次評估使用教育部臺灣台語常用詞辭典例句音檔:
46
- [教育部臺灣台語常用詞辭典相關資源](https://sutian.moe.edu.tw/und-hani/siongkuantsuguan/).
47
- 評估子集取例句音檔中 `hanzi` 長度最長的 100 筆樣本。
48
-
49
- 以下 CER 使用原始 HF `float16` 推論結果作為 pseudo-reference,衡量不同轉換/量化版本相對於原始模型輸出的 drift。
50
- 這不是對人工標註逐字稿計算的 ASR CER。計算時會先移除輸出文字中的所有空白,再計算字元級 Levenshtein distance。
51
-
52
- 以這次結果來看,量化部署建議優先使用 `CT2 int8`:
53
- 它完成全部 100 筆樣本,VRAM 約 `2097-2129 MiB`,相對 HF `float16` baseline 的 CER drift 為 `0.1263`,整體成本效益最好。
54
-
55
- | 版本 | 推論結果 | 成功/總數 | VRAM MiB |
56
- |---|---|---:|---:|
57
- | [vLLM HF `float16`](https://huggingface.co/MediaTek-Research/Breeze-ASR-26) | `vllm-hf-float16.jsonl` | 100/100 | 21267-21267 |
58
- | [CT2 `float16`](https://huggingface.co/phate334/Breeze-ASR-26-float16-CT2) | `ct2-float16.jsonl` | 100/100 | 3991-3991 |
59
- | [CT2 `int8_float16`](https://huggingface.co/phate334/Breeze-ASR-26-int8_float16-CT2) | `ct2-int8_float16.jsonl` | 100/100 | 2103-2135 |
60
- | [CT2 `int8`](https://huggingface.co/phate334/Breeze-ASR-26-int8-CT2) | `ct2-int8.jsonl` | 100/100 | 2097-2129 |
61
- | [whisper.cpp / GGML `q4_0`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q4_0.jsonl` | 100/100 | 1843-1843 |
62
- | [whisper.cpp / GGML `q4_1`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q4_1.jsonl` | 100/100 | 1935-1935 |
63
- | [whisper.cpp / GGML `q5_0`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q5_0.jsonl` | 100/100 | 2027-2027 |
64
- | [whisper.cpp / GGML `q8_0`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q8_0.jsonl` | 100/100 | 2575-2575 |
65
-
66
- ### 相對 HF Baseline 的 CER
67
-
68
- Baseline reference:`vllm-hf-float16.jsonl`。
69
-
70
- | 比較版本 | CER | 字元錯誤/參考字元 | 完全一致 |
71
- |---|---:|---:|---:|
72
- | `ct2-int8_float16.jsonl` | 0.1157 | 633/5470 | 11 |
73
- | `ct2-float16.jsonl` | 0.1176 | 643/5470 | 7 |
74
- | `ct2-int8.jsonl` | 0.1263 | 691/5470 | 5 |
75
- | `whisper-cpp-ggml-q5_0.jsonl` | 0.1803 | 986/5470 | 5 |
76
- | `whisper-cpp-ggml-q8_0.jsonl` | 0.1879 | 1028/5470 | 6 |
77
- | `whisper-cpp-ggml-q4_0.jsonl` | 0.1927 | 1054/5470 | 2 |
78
- | `whisper-cpp-ggml-q4_1.jsonl` | 0.2558 | 1399/5470 | 2 |
79
-
80
- ## 更多資訊
81
-
82
- 評估程式、資料準備方式與完整結果報表請見 GitHub repository:
83
- https://github.com/phate334/stt-eval
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
README.md CHANGED
@@ -15,6 +15,8 @@ tags:
15
  - taiwanese-hokkien
16
  - taigi
17
  - low-resource-language
 
 
18
  - whisper-cpp
19
  - quantized
20
  - q8_0
@@ -25,15 +27,57 @@ tags:
25
 
26
  # Breeze-ASR-26-GGML
27
 
28
- This model is a quantized `whisper.cpp` version of `MediaTek-Research/Breeze-ASR-26`. No additional training is documented for this artifact.
29
 
30
- ## Source Model
31
 
32
- - Model: [MediaTek-Research/Breeze-ASR-26](https://huggingface.co/MediaTek-Research/Breeze-ASR-26)
33
- - Revision: `7b992682e7f5ceedd0a41ebec240f01ba469d19e`
34
- - License: Apache-2.0, as declared by the source model card
35
 
36
- ## Quantization
37
 
38
- - Backend: `whisper.cpp`
39
- - Quantization: `q8_0`, `q5_0`, `q4_0`, `q4_1`
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
15
  - taiwanese-hokkien
16
  - taigi
17
  - low-resource-language
18
+ - arxiv:2603.19259
19
+ - whisper.cpp
20
  - whisper-cpp
21
  - quantized
22
  - q8_0
 
27
 
28
  # Breeze-ASR-26-GGML
29
 
30
+ 這是由 `MediaTek-Research/Breeze-ASR-26` 轉換而來的 `whisper.cpp` 量化版本;此 artifact 沒有額外訓練紀錄。
31
 
32
+ ## 來源模型
33
 
34
+ - 模型:[MediaTek-Research/Breeze-ASR-26](https://huggingface.co/MediaTek-Research/Breeze-ASR-26)
35
+ - Revision`7b992682e7f5ceedd0a41ebec240f01ba469d19e`
36
+ - 授權:Apache-2.0,依來源模型卡宣告
37
 
38
+ ## 量化資訊
39
 
40
+ - Backend`whisper.cpp`
41
+ - 量化:`q8_0`, `q5_0`, `q4_0`, `q4_1`
42
+
43
+ ## 評估摘要
44
+
45
+ 這次評估使用教育部臺灣台語常用詞辭典例句音檔:
46
+ [教育部臺灣台語常用詞辭典相關資源](https://sutian.moe.edu.tw/und-hani/siongkuantsuguan/).
47
+ 評估子集取例句音檔中 `hanzi` 長度最長的 100 筆樣本。
48
+
49
+ 以下 CER 使用原始 HF `float16` 推論結果作為 pseudo-reference,衡量不同轉換/量化版本相對於原始模型輸出的 drift。
50
+ 這不是對人工標註逐字稿計算的 ASR CER。計算時會先移除輸出文字中的所有空白,再計算字元級 Levenshtein distance。
51
+
52
+ 以這次結果來看,量化部署建議優先使用 `CT2 int8`:
53
+ 它完成全部 100 筆樣本,VRAM 約 `2097-2129 MiB`,相對 HF `float16` baseline 的 CER drift 為 `0.1263`,整體成本效益最好。
54
+
55
+ | 版本 | 推論結果 | 成功/總數 | VRAM MiB |
56
+ |---|---|---:|---:|
57
+ | [vLLM HF `float16`](https://huggingface.co/MediaTek-Research/Breeze-ASR-26) | `vllm-hf-float16.jsonl` | 100/100 | 21267-21267 |
58
+ | [CT2 `float16`](https://huggingface.co/phate334/Breeze-ASR-26-float16-CT2) | `ct2-float16.jsonl` | 100/100 | 3991-3991 |
59
+ | [CT2 `int8_float16`](https://huggingface.co/phate334/Breeze-ASR-26-int8_float16-CT2) | `ct2-int8_float16.jsonl` | 100/100 | 2103-2135 |
60
+ | [CT2 `int8`](https://huggingface.co/phate334/Breeze-ASR-26-int8-CT2) | `ct2-int8.jsonl` | 100/100 | 2097-2129 |
61
+ | [whisper.cpp / GGML `q4_0`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q4_0.jsonl` | 100/100 | 1843-1843 |
62
+ | [whisper.cpp / GGML `q4_1`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q4_1.jsonl` | 100/100 | 1935-1935 |
63
+ | [whisper.cpp / GGML `q5_0`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q5_0.jsonl` | 100/100 | 2027-2027 |
64
+ | [whisper.cpp / GGML `q8_0`](https://huggingface.co/phate334/Breeze-ASR-26-GGML) | `whisper-cpp-ggml-q8_0.jsonl` | 100/100 | 2575-2575 |
65
+
66
+ ### 相對 HF Baseline 的 CER
67
+
68
+ Baseline reference:`vllm-hf-float16.jsonl`。
69
+
70
+ | 比較版本 | CER | 字元錯誤/參考字元 | 完全一致 |
71
+ |---|---:|---:|---:|
72
+ | `ct2-int8_float16.jsonl` | 0.1157 | 633/5470 | 11 |
73
+ | `ct2-float16.jsonl` | 0.1176 | 643/5470 | 7 |
74
+ | `ct2-int8.jsonl` | 0.1263 | 691/5470 | 5 |
75
+ | `whisper-cpp-ggml-q5_0.jsonl` | 0.1803 | 986/5470 | 5 |
76
+ | `whisper-cpp-ggml-q8_0.jsonl` | 0.1879 | 1028/5470 | 6 |
77
+ | `whisper-cpp-ggml-q4_0.jsonl` | 0.1927 | 1054/5470 | 2 |
78
+ | `whisper-cpp-ggml-q4_1.jsonl` | 0.2558 | 1399/5470 | 2 |
79
+
80
+ ## 更多資訊
81
+
82
+ 評估程式、資料準備方式與完整結果報表請見 GitHub repository:
83
+ https://github.com/phate334/stt-eval