hynt commited on
Commit
cecc50b
·
verified ·
1 Parent(s): 4be659a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +69 -3
README.md CHANGED
@@ -1,3 +1,69 @@
1
- ---
2
- license: cc-by-nc-nd-4.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: cc-by-nc-nd-4.0
3
+ ---
4
+ # 🇻🇳 Vietnamese Speech-to-Text (ASR) — ZipFormer 30M
5
+
6
+ ## 🔍 Giới thiệu
7
+ Mô hình **Speech-to-Text cho tiếng Việt** được phát triển dựa trên kiến trúc **ZipFormer** (thuộc họ Conformer cải tiến), với **chỉ 30 triệu tham số** nhưng đạt **hiệu năng vượt trội** cả về tốc độ lẫn độ chính xác.
8
+ Trên CPU, mô hình có thể xử lý **1 audio dài 12 giây chỉ trong 0.4 giây**, nhanh gấp nhiều lần các hệ thống STT truyền thống mà không cần GPU.
9
+
10
+ ---
11
+
12
+ ## ⚙️ Cấu trúc mô hình
13
+ - **Kiến trúc:** ZipFormer
14
+ - **Số tham số:** ~30M
15
+ - **Ngôn ngữ:** Tiếng Việt
16
+ - **Loss Function**: RNN-Transducer Loss
17
+ - **Framework:** PyTorch + k2
18
+ - **Tối ưu cho:** CPU inference tốc độ cao
19
+
20
+ ---
21
+
22
+ ## 🧠 Dữ liệu huấn luyện
23
+ Mô hình được huấn luyện với **~6000 giờ dữ liệu tiếng Việt** từ các nguồn công khai:
24
+
25
+ | Bộ dữ liệu |
26
+ |-------------|
27
+ | VIVOS |
28
+ | VLSP2020 |
29
+ | FPT |
30
+ | VIET_BUD500 |
31
+ | VietSpeech |
32
+ | FLEURS |
33
+ | VietMed_Labeled |
34
+ | Sub-GIGASPEECH2-VI |
35
+ | ViVoice |
36
+
37
+ ---
38
+
39
+ ## 🧪 Kết quả đánh giá
40
+ Kết quả được đánh giá trên nhiều bộ test benchmark tiêu chuẩn tiếng Việt, so sánh với các mô hình Speech2Text hiện có.
41
+
42
+ | **Dataset** | **ZipFormer (30M)** | **ChunkFormer** | **PhoWhisper** | **VietASR-ZipFormer-70k** |
43
+ |--------------|---------------------|-----------------|----------------|----------------------------|
44
+ | **VLSP2023-PB** | **10.40** | 16.15 | 16.83 | 14.70 |
45
+ | **VLSP2023-PR** | **11.10** | 17.12 | 17.10 | 15.07 |
46
+ | **VLSP2025-PR** | **7.97** | 15.55 | 16.14 | 13.55 |
47
+ | **VLSP2025-PB** | **8.10** | 16.07 | 16.31 | 13.97 |
48
+ | **GIGASPEECH-Test** | **7.56** | 10.35 | 10.00 | 6.88 |
49
+
50
+ > 📉 Chỉ số thể hiện **Word Error Rate (WER, %)** — giá trị **thấp hơn là tốt hơn**.
51
+ > Mô hình **ZipFormer 30M** cho kết quả **ổn định và vượt trội** trên tất cả các bộ test.
52
+
53
+ ---
54
+
55
+ ### 🏆 Thành tích VLSP 2025
56
+ Đặc biệt, kiến trúc này đã **giành giải Nhất** cuộc thi **Vietnamese Language Speech Processing (VLSP)** năm **2025**.
57
+ Chi tiết về **dữ liệu được sử dụng**, **phương pháp huấn luyện**, **tối ưu hóa mô hình**, và **kết quả đánh giá chi tiết** được trình bày trong bài báo:
58
+
59
+ 👉 [Xem bài báo tại đây](<điền_link_bài_báo_tại_đây>)
60
+
61
+ ---
62
+
63
+ ## ⚡ Hiệu năng
64
+ | **Thiết bị** | **Độ dài Audio** | **Thời gian Infer** |
65
+ |---------------|------------------|----------------------|
66
+ | CPU (Basic Hugging Face) | 12 giây | **0.4 giây** |
67
+ | GPU (RTX 3090) | 12 giây | **<0.1 giây** |
68
+
69
+ ---