GigaAM: семейство акустических моделей для обработки звучащей речи
Содержание
GigaAM
GigaAM (Giga Acoustic Model) — фундаментальная акустическая модель, основанная на Conformer энкодере (около 240M параметров). Мы предобучали GigaAM в wav2vec2 режиме на 50 тысячах часов разнообразных русскоязычных данных.
Материалы
GigaAM для распознавания речи
Мы дообучали GigaAM энкодер для задачи распознавания речи с двумя разными декодерами:
- GigaAM-CTC была дообучена с CTC функцией потерь и посимвольной токенизацией.
- GigaAM-RNNT была дообучена с RNN-T функцией потерь и subword-токенизацией.
Для обучения обеих моделей использовался фреймворк NeMo и следующие открытые данные:
| dataset | size, hours | weight |
|---|---|---|
| Golos | 1227 | 0.6 |
| SOVA | 369 | 0.2 |
| Russian Common Voice | 207 | 0.1 |
| Russian LibriSpeech | 93 | 0.1 |
Материалы:
В таблице ниже приведены оценки Word Error Rate различных моделей на открытых русскоязычных наборах данных:
| model | parameters | Golos Crowd | Golos Farfield | OpenSTT Youtube | OpenSTT Phone calls | OpenSTT Audiobooks | Mozilla Common Voice | Russian LibriSpeech |
|---|---|---|---|---|---|---|---|---|
| Whisper-large-v3 | 1.5B | 17.4 | 14.5 | 21.1 | 31.2 | 17.0 | 5.3 | 9.0 |
| NVIDIA Ru-FastConformer-RNNT | 115M | 2.6 | 6.6 | 23.8 | 32.9 | 16.4 | 2.7 | 11.6 |
| GigaAM-CTC | 242M | 3.1 | 5.7 | 18.4 | 25.6 | 15.1 | 1.7 | 8.1 |
| GigaAM-RNNT | 243M | 2.3 | 4.4 | 16.7 | 22.9 | 13.9 | 0.9 | 7.4 |
GigaAM-Emo
GigaAM-Emo — акустическая модель для определения эмоций. Мы доучивали GigaAM на датасете Dusha.
Материалы:
В таблице ниже приведены метрики качества открытых моделей на датасете Dusha:
| Crowd | Podcast | |||||
|---|---|---|---|---|---|---|
| Unweighted Accuracy | Weighted Accuracy | Macro F1-score | Unweighted Accuracy | Weighted Accuracy | Macro F1-score | |
| DUSHA baseline (MobileNetV2 + Self-Attention) |
0.83 | 0.76 | 0.77 | 0.89 | 0.53 | 0.54 |
| АБК (TIM-Net) | 0.84 | 0.77 | 0.78 | 0.90 | 0.50 | 0.55 |
| GigaAM-Emo | 0.90 | 0.87 | 0.84 | 0.90 | 0.76 | 0.67 |