hynt commited on
Commit
a6322b7
·
verified ·
1 Parent(s): 0819ba9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +39 -30
README.md CHANGED
@@ -1,29 +1,29 @@
1
  ---
2
  license: cc-by-nc-nd-4.0
3
  ---
4
- # Vietnamese Speech-to-Text (ASR) — ZipFormer-30M-RNNT-6000h
5
 
6
- ## 🔍 Giới thiệu
7
- hình **Speech-to-Text cho tiếng Việt** được phát triển dựa trên kiến trúc **ZipFormer** (thuộc họ Conformer cải tiến), với **chỉ 30 triệu tham số** nhưng đạt **hiệu năng vượt trội** cả về tốc độ lẫn độ chính xác.
8
- Trên CPU, hình thể xử **1 audio dài 12 giây chỉ trong 0.4 giây**, nhanh gấp nhiều lần các hệ thống STT truyền thống mà không cần GPU.
9
 
10
  ---
11
 
12
- ## ⚙️ Cấu trúc mô hình
13
- - **Kiến trúc:** ZipFormer
14
- - **Số lượng tham số:** ~30M
15
- - **Ngôn ngữ:** Tiếng Việt
16
- - **Loss Function**: RNN-Transducer Loss
17
  - **Framework:** PyTorch + k2
18
- - **Tối ưu cho:** CPU inference tốc độ cao
19
 
20
  ---
21
 
22
- ## 🧠 Dữ liệu huấn luyện
23
- hình được huấn luyện với **~6000 giờ dữ liệu tiếng Việt** từ các nguồn công khai:
24
 
25
- | Bộ dữ liệu | | |
26
- |-------------|-------------|-------------|
27
  | VLSP2020 | VLSP2021 | VLSP2022 |
28
  | VLSP2023 | FPT | VIET_BUD500 |
29
  | VietSpeech | FLEURS | VietMed_Labeled |
@@ -31,30 +31,39 @@ Mô hình được huấn luyện với **~6000 giờ dữ liệu tiếng Việt
31
 
32
  ---
33
 
34
- ## 🧪 Kết quả đánh giá
35
 
36
- | **Dataset** | **ZipFormer-30M-6000h** | **ChunkFormer-110M-3000h** | **PhoWhisper-Large-1.5B-800h** | **VietASR-ZipFormer-68M-70.000h** |
37
- |--------------|---------------------|-----------------|----------------|----------------------------|
38
- | **VLSP2023-PublicTest** | **10.40** | 16.15 | 16.83 | 14.70 |
39
- | **VLSP2023-PublicTest** | **11.10** | 17.12 | 17.10 | 15.07 |
40
- | **VLSP2025-PublicTest** | **7.97** | 15.55 | 16.14 | 13.55 |
41
- | **VLSP2025-PublicTest** | **8.10** | 16.07 | 16.31 | 13.97 |
42
  | **GigaSpeech2-Test** | 7.56 | 10.35 | 10.00 | **6.88** |
43
 
 
 
 
 
 
 
 
 
 
 
44
  ---
45
 
46
- ### 🏆 Thành tích Nổi Bật
47
- Đặc biệt, kiến trúc này đã **giành giải Nhất** cuộc thi **Vietnamese Language Speech Processing (VLSP)** năm **2025**.
48
- Chi tiết về **dữ liệu được sử dụng**, **phương pháp huấn luyện**, **tối ưu hóa mô hình**, và **kết quả đánh giá chi tiết** được trình bày trong bài báo:
49
 
50
- 👉 https://www.overleaf.com/read/wjntrgchhbgv#48aa25
 
 
 
51
 
52
  ---
53
 
54
- ## Hiệu năng
55
- | **Thiết bị** | **Độ dài Audio** | **Thời gian Infer** |
56
- |---------------|------------------|----------------------|
57
- | CPU (Basic Hugging Face) | 12 giây | **0.4 giây** |
58
- | GPU (RTX 3090) | 12 giây | **<0.1 giây** |
59
 
60
  ---
 
1
  ---
2
  license: cc-by-nc-nd-4.0
3
  ---
4
+ # 🇻🇳 Vietnamese Speech-to-Text (ASR) — ZipFormer-30M-RNNT-6000h
5
 
6
+ ## 🔍 Overview
7
+ The **Vietnamese Speech-to-Text (ASR)** model is built on the **ZipFormer architecture** an improved variant of the Conformer featuring only **30 million parameters** yet achieving **exceptional performance** in both speed and accuracy.
8
+ On CPU, the model can transcribe a **12-second audio clip in just 0.4 seconds**, significantly faster than most traditional ASR systems without requiring a GPU.
9
 
10
  ---
11
 
12
+ ## ⚙️ Model Architecture
13
+ - **Architecture:** ZipFormer
14
+ - **Parameters:** ~30M
15
+ - **Language:** Vietnamese
16
+ - **Loss Function:** RNN-Transducer (RNNT Loss)
17
  - **Framework:** PyTorch + k2
18
+ - **Optimized for:** High-speed CPU inference
19
 
20
  ---
21
 
22
+ ## 🧠 Training Data
23
+ The model was trained on approximately **6000 hours of high-quality Vietnamese speech** collected from various public datasets:
24
 
25
+ | Dataset | | |
26
+ |----------|----------|----------|
27
  | VLSP2020 | VLSP2021 | VLSP2022 |
28
  | VLSP2023 | FPT | VIET_BUD500 |
29
  | VietSpeech | FLEURS | VietMed_Labeled |
 
31
 
32
  ---
33
 
34
+ ## 🧪 Evaluation Results
35
 
36
+ | **Dataset** | **ZipFormer-30M-6000h** | **ChunkFormer-110M-3000h** | **PhoWhisper-Large-1.5B-800h** | **VietASR-ZipFormer-68M-70k h** |
37
+ |--------------|--------------------------|-----------------------------|--------------------------------|---------------------------------|
38
+ | **VLSP2023-PublicTest (Set 1)** | **10.40** | 16.15 | 16.83 | 14.70 |
39
+ | **VLSP2023-PublicTest (Set 2)** | **11.10** | 17.12 | 17.10 | 15.07 |
40
+ | **VLSP2025-PublicTest (Set 1)** | **7.97** | 15.55 | 16.14 | 13.55 |
41
+ | **VLSP2025-PublicTest (Set 2)** | **8.10** | 16.07 | 16.31 | 13.97 |
42
  | **GigaSpeech2-Test** | 7.56 | 10.35 | 10.00 | **6.88** |
43
 
44
+ > Lower is better (WER %)
45
+
46
+ ---
47
+
48
+ ## 🏆 Achievements
49
+ This model architecture **won First Place** in the **Vietnamese Language Speech Processing (VLSP)** competition **2025**.
50
+ Comprehensive details about **training data**, **optimization strategies**, **architecture improvements**, and **evaluation methodologies** are available in the paper below:
51
+
52
+ 👉 [Read the full paper on Overleaf](https://www.overleaf.com/read/wjntrgchhbgv#48aa25)
53
+
54
  ---
55
 
56
+ ## Inference Speed
 
 
57
 
58
+ | **Device** | **Audio Length** | **Inference Time** |
59
+ |-------------|------------------|--------------------|
60
+ | CPU (Hugging Face Basic) | 12 seconds | **0.4 s** |
61
+ | GPU (RTX 3090) | 12 seconds | **< 0.1 s** |
62
 
63
  ---
64
 
65
+ ## 💬 Summary
66
+ The **ZipFormer-30M-RNNT-6000h** model demonstrates that a lightweight architecture can still achieve state-of-the-art accuracy for Vietnamese ASR.
67
+ It is designed for **fast deployment on CPU-based systems**, making it ideal for **real-time speech recognition**, **callbots**, and **embedded speech interfaces**.
 
 
68
 
69
  ---