Update README.md
Browse files
README.md
CHANGED
|
@@ -1,3 +1,69 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: cc-by-nc-nd-4.0
|
| 3 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: cc-by-nc-nd-4.0
|
| 3 |
+
---
|
| 4 |
+
# 🇻🇳 Vietnamese Speech-to-Text (ASR) — ZipFormer 30M
|
| 5 |
+
|
| 6 |
+
## 🔍 Giới thiệu
|
| 7 |
+
Mô hình **Speech-to-Text cho tiếng Việt** được phát triển dựa trên kiến trúc **ZipFormer** (thuộc họ Conformer cải tiến), với **chỉ 30 triệu tham số** nhưng đạt **hiệu năng vượt trội** cả về tốc độ lẫn độ chính xác.
|
| 8 |
+
Trên CPU, mô hình có thể xử lý **1 audio dài 12 giây chỉ trong 0.4 giây**, nhanh gấp nhiều lần các hệ thống STT truyền thống mà không cần GPU.
|
| 9 |
+
|
| 10 |
+
---
|
| 11 |
+
|
| 12 |
+
## ⚙️ Cấu trúc mô hình
|
| 13 |
+
- **Kiến trúc:** ZipFormer
|
| 14 |
+
- **Số tham số:** ~30M
|
| 15 |
+
- **Ngôn ngữ:** Tiếng Việt
|
| 16 |
+
- **Loss Function**: RNN-Transducer Loss
|
| 17 |
+
- **Framework:** PyTorch + k2
|
| 18 |
+
- **Tối ưu cho:** CPU inference tốc độ cao
|
| 19 |
+
|
| 20 |
+
---
|
| 21 |
+
|
| 22 |
+
## 🧠 Dữ liệu huấn luyện
|
| 23 |
+
Mô hình được huấn luyện với **~6000 giờ dữ liệu tiếng Việt** từ các nguồn công khai:
|
| 24 |
+
|
| 25 |
+
| Bộ dữ liệu |
|
| 26 |
+
|-------------|
|
| 27 |
+
| VIVOS |
|
| 28 |
+
| VLSP2020 |
|
| 29 |
+
| FPT |
|
| 30 |
+
| VIET_BUD500 |
|
| 31 |
+
| VietSpeech |
|
| 32 |
+
| FLEURS |
|
| 33 |
+
| VietMed_Labeled |
|
| 34 |
+
| Sub-GIGASPEECH2-VI |
|
| 35 |
+
| ViVoice |
|
| 36 |
+
|
| 37 |
+
---
|
| 38 |
+
|
| 39 |
+
## 🧪 Kết quả đánh giá
|
| 40 |
+
Kết quả được đánh giá trên nhiều bộ test benchmark tiêu chuẩn tiếng Việt, so sánh với các mô hình Speech2Text hiện có.
|
| 41 |
+
|
| 42 |
+
| **Dataset** | **ZipFormer (30M)** | **ChunkFormer** | **PhoWhisper** | **VietASR-ZipFormer-70k** |
|
| 43 |
+
|--------------|---------------------|-----------------|----------------|----------------------------|
|
| 44 |
+
| **VLSP2023-PB** | **10.40** | 16.15 | 16.83 | 14.70 |
|
| 45 |
+
| **VLSP2023-PR** | **11.10** | 17.12 | 17.10 | 15.07 |
|
| 46 |
+
| **VLSP2025-PR** | **7.97** | 15.55 | 16.14 | 13.55 |
|
| 47 |
+
| **VLSP2025-PB** | **8.10** | 16.07 | 16.31 | 13.97 |
|
| 48 |
+
| **GIGASPEECH-Test** | **7.56** | 10.35 | 10.00 | 6.88 |
|
| 49 |
+
|
| 50 |
+
> 📉 Chỉ số thể hiện **Word Error Rate (WER, %)** — giá trị **thấp hơn là tốt hơn**.
|
| 51 |
+
> Mô hình **ZipFormer 30M** cho kết quả **ổn định và vượt trội** trên tất cả các bộ test.
|
| 52 |
+
|
| 53 |
+
---
|
| 54 |
+
|
| 55 |
+
### 🏆 Thành tích VLSP 2025
|
| 56 |
+
Đặc biệt, kiến trúc này đã **giành giải Nhất** cuộc thi **Vietnamese Language Speech Processing (VLSP)** năm **2025**.
|
| 57 |
+
Chi tiết về **dữ liệu được sử dụng**, **phương pháp huấn luyện**, **tối ưu hóa mô hình**, và **kết quả đánh giá chi tiết** được trình bày trong bài báo:
|
| 58 |
+
|
| 59 |
+
👉 [Xem bài báo tại đây](<điền_link_bài_báo_tại_đây>)
|
| 60 |
+
|
| 61 |
+
---
|
| 62 |
+
|
| 63 |
+
## ⚡ Hiệu năng
|
| 64 |
+
| **Thiết bị** | **Độ dài Audio** | **Thời gian Infer** |
|
| 65 |
+
|---------------|------------------|----------------------|
|
| 66 |
+
| CPU (Basic Hugging Face) | 12 giây | **0.4 giây** |
|
| 67 |
+
| GPU (RTX 3090) | 12 giây | **<0.1 giây** |
|
| 68 |
+
|
| 69 |
+
---
|