Update README.md
Browse files
README.md
CHANGED
|
@@ -1,7 +1,7 @@
|
|
| 1 |
---
|
| 2 |
license: cc-by-nc-nd-4.0
|
| 3 |
---
|
| 4 |
-
# Vietnamese Speech-to-Text (ASR) — ZipFormer
|
| 5 |
|
| 6 |
## 🔍 Giới thiệu
|
| 7 |
Mô hình **Speech-to-Text cho tiếng Việt** được phát triển dựa trên kiến trúc **ZipFormer** (thuộc họ Conformer cải tiến), với **chỉ 30 triệu tham số** nhưng đạt **hiệu năng vượt trội** cả về tốc độ lẫn độ chính xác.
|
|
@@ -11,7 +11,7 @@ Trên CPU, mô hình có thể xử lý **1 audio dài 12 giây chỉ trong 0.4
|
|
| 11 |
|
| 12 |
## ⚙️ Cấu trúc mô hình
|
| 13 |
- **Kiến trúc:** ZipFormer
|
| 14 |
-
- **Số tham số:** ~30M
|
| 15 |
- **Ngôn ngữ:** Tiếng Việt
|
| 16 |
- **Loss Function**: RNN-Transducer Loss
|
| 17 |
- **Framework:** PyTorch + k2
|
|
@@ -32,7 +32,6 @@ Mô hình được huấn luyện với **~6000 giờ dữ liệu tiếng Việt
|
|
| 32 |
---
|
| 33 |
|
| 34 |
## 🧪 Kết quả đánh giá
|
| 35 |
-
Kết quả được đánh giá trên nhiều bộ test benchmark tiêu chuẩn tiếng Việt, so sánh với các mô hình Speech2Text hiện có.
|
| 36 |
|
| 37 |
| **Dataset** | **ZipFormer-30M-6000h** | **ChunkFormer-110M-3000h** | **PhoWhisper-Large-1.5B-800h** | **VietASR-ZipFormer-68M-70.000h** |
|
| 38 |
|--------------|---------------------|-----------------|----------------|----------------------------|
|
|
@@ -42,9 +41,6 @@ Kết quả được đánh giá trên nhiều bộ test benchmark tiêu chuẩn
|
|
| 42 |
| **VLSP2025-PublicTest** | **8.10** | 16.07 | 16.31 | 13.97 |
|
| 43 |
| **GigaSpeech2-Test** | 7.56 | 10.35 | 10.00 | **6.88** |
|
| 44 |
|
| 45 |
-
> 📉 Chỉ số thể hiện **Word Error Rate (WER, %)** — giá trị **thấp hơn là tốt hơn**.
|
| 46 |
-
> Mô hình **ZipFormer 30M** cho kết quả **ổn định và vượt trội** trên tất cả các bộ test.
|
| 47 |
-
|
| 48 |
---
|
| 49 |
|
| 50 |
### 🏆 Thành tích Nổi Bật
|
|
|
|
| 1 |
---
|
| 2 |
license: cc-by-nc-nd-4.0
|
| 3 |
---
|
| 4 |
+
# Vietnamese Speech-to-Text (ASR) — ZipFormer-30M-RNNT-6000h
|
| 5 |
|
| 6 |
## 🔍 Giới thiệu
|
| 7 |
Mô hình **Speech-to-Text cho tiếng Việt** được phát triển dựa trên kiến trúc **ZipFormer** (thuộc họ Conformer cải tiến), với **chỉ 30 triệu tham số** nhưng đạt **hiệu năng vượt trội** cả về tốc độ lẫn độ chính xác.
|
|
|
|
| 11 |
|
| 12 |
## ⚙️ Cấu trúc mô hình
|
| 13 |
- **Kiến trúc:** ZipFormer
|
| 14 |
+
- **Số lượng tham số:** ~30M
|
| 15 |
- **Ngôn ngữ:** Tiếng Việt
|
| 16 |
- **Loss Function**: RNN-Transducer Loss
|
| 17 |
- **Framework:** PyTorch + k2
|
|
|
|
| 32 |
---
|
| 33 |
|
| 34 |
## 🧪 Kết quả đánh giá
|
|
|
|
| 35 |
|
| 36 |
| **Dataset** | **ZipFormer-30M-6000h** | **ChunkFormer-110M-3000h** | **PhoWhisper-Large-1.5B-800h** | **VietASR-ZipFormer-68M-70.000h** |
|
| 37 |
|--------------|---------------------|-----------------|----------------|----------------------------|
|
|
|
|
| 41 |
| **VLSP2025-PublicTest** | **8.10** | 16.07 | 16.31 | 13.97 |
|
| 42 |
| **GigaSpeech2-Test** | 7.56 | 10.35 | 10.00 | **6.88** |
|
| 43 |
|
|
|
|
|
|
|
|
|
|
| 44 |
---
|
| 45 |
|
| 46 |
### 🏆 Thành tích Nổi Bật
|