hynt
/

Zipformer-30M-RNNT-6000h

Model card Files Files and versions

hynt commited on Oct 17, 2025

Commit

cecc50b

·

verified ·

1 Parent(s): 4be659a

Update README.md

Files changed (1) hide show

README.md +69 -3

README.md CHANGED Viewed

@@ -1,3 +1,69 @@
----
-license: cc-by-nc-nd-4.0
----

+---
+license: cc-by-nc-nd-4.0
+---
+# 🇻🇳 Vietnamese Speech-to-Text (ASR) — ZipFormer 30M
+## 🔍 Giới thiệu
+Mô hình **Speech-to-Text cho tiếng Việt** được phát triển dựa trên kiến trúc **ZipFormer** (thuộc họ Conformer cải tiến), với **chỉ 30 triệu tham số** nhưng đạt **hiệu năng vượt trội** cả về tốc độ lẫn độ chính xác.
+Trên CPU, mô hình có thể xử lý **1 audio dài 12 giây chỉ trong 0.4 giây**, nhanh gấp nhiều lần các hệ thống STT truyền thống mà không cần GPU.
+---
+## ⚙️ Cấu trúc mô hình
+- **Kiến trúc:** ZipFormer
+- **Số tham số:** ~30M
+- **Ngôn ngữ:** Tiếng Việt
+- **Loss Function**: RNN-Transducer Loss
+- **Framework:** PyTorch + k2
+- **Tối ưu cho:** CPU inference tốc độ cao
+---
+## 🧠 Dữ liệu huấn luyện
+Mô hình được huấn luyện với **~6000 giờ dữ liệu tiếng Việt** từ các nguồn công khai:
+| Bộ dữ liệu |
+|-------------|
+| VIVOS |
+| VLSP2020 |
+| FPT |
+| VIET_BUD500 |
+| VietSpeech |
+| FLEURS |
+| VietMed_Labeled |
+| Sub-GIGASPEECH2-VI |
+| ViVoice |
+---
+## 🧪 Kết quả đánh giá
+Kết quả được đánh giá trên nhiều bộ test benchmark tiêu chuẩn tiếng Việt, so sánh với các mô hình Speech2Text hiện có.
+| **Dataset** | **ZipFormer (30M)** | **ChunkFormer** | **PhoWhisper** | **VietASR-ZipFormer-70k** |
+|--------------|---------------------|-----------------|----------------|----------------------------|
+| **VLSP2023-PB** | **10.40** | 16.15 | 16.83 | 14.70 |
+| **VLSP2023-PR** | **11.10** | 17.12 | 17.10 | 15.07 |
+| **VLSP2025-PR** | **7.97** | 15.55 | 16.14 | 13.55 |
+| **VLSP2025-PB** | **8.10** | 16.07 | 16.31 | 13.97 |
+| **GIGASPEECH-Test** | **7.56** | 10.35 | 10.00 | 6.88 |
+> 📉 Chỉ số thể hiện **Word Error Rate (WER, %)** — giá trị **thấp hơn là tốt hơn**.
+> Mô hình **ZipFormer 30M** cho kết quả **ổn định và vượt trội** trên tất cả các bộ test.
+---
+### 🏆 Thành tích VLSP 2025
+Đặc biệt, kiến trúc này đã **giành giải Nhất** cuộc thi **Vietnamese Language Speech Processing (VLSP)** năm **2025**.
+Chi tiết về **dữ liệu được sử dụng**, **phương pháp huấn luyện**, **tối ưu hóa mô hình**, và **kết quả đánh giá chi tiết** được trình bày trong bài báo:
+👉 [Xem bài báo tại đây](<điền_link_bài_báo_tại_đây>)
+---
+## ⚡ Hiệu năng
+| **Thiết bị** | **Độ dài Audio** | **Thời gian Infer** |
+|---------------|------------------|----------------------|
+| CPU (Basic Hugging Face) | 12 giây | **0.4 giây** |
+| GPU (RTX 3090) | 12 giây | **<0.1 giây** |
+---