GigaAM / README_ru.md
niobures's picture
GigaAM
74e8c79 verified

GigaAM: семейство акустических моделей для обработки звучащей речи

plot

Содержание

GigaAM

GigaAM (Giga Acoustic Model) — фундаментальная акустическая модель, основанная на Conformer энкодере (около 240M параметров). Мы предобучали GigaAM в wav2vec2 режиме на 50 тысячах часов разнообразных русскоязычных данных.

Материалы

GigaAM для распознавания речи

Мы дообучали GigaAM энкодер для задачи распознавания речи с двумя разными декодерами:

  • GigaAM-CTC была дообучена с CTC функцией потерь и посимвольной токенизацией.
  • GigaAM-RNNT была дообучена с RNN-T функцией потерь и subword-токенизацией.

Для обучения обеих моделей использовался фреймворк NeMo и следующие открытые данные:

dataset size, hours weight
Golos 1227 0.6
SOVA 369 0.2
Russian Common Voice 207 0.1
Russian LibriSpeech 93 0.1

Материалы:

В таблице ниже приведены оценки Word Error Rate различных моделей на открытых русскоязычных наборах данных:

model parameters Golos Crowd Golos Farfield OpenSTT Youtube OpenSTT Phone calls OpenSTT Audiobooks Mozilla Common Voice Russian LibriSpeech
Whisper-large-v3 1.5B 17.4 14.5 21.1 31.2 17.0 5.3 9.0
NVIDIA Ru-FastConformer-RNNT 115M 2.6 6.6 23.8 32.9 16.4 2.7 11.6
GigaAM-CTC 242M 3.1 5.7 18.4 25.6 15.1 1.7 8.1
GigaAM-RNNT 243M 2.3 4.4 16.7 22.9 13.9 0.9 7.4

GigaAM-Emo

GigaAM-Emo — акустическая модель для определения эмоций. Мы доучивали GigaAM на датасете Dusha.

Материалы:

В таблице ниже приведены метрики качества открытых моделей на датасете Dusha:

Crowd Podcast
Unweighted Accuracy Weighted Accuracy Macro F1-score Unweighted Accuracy Weighted Accuracy Macro F1-score
DUSHA baseline
(MobileNetV2 + Self-Attention)
0.83 0.76 0.77 0.89 0.53 0.54
АБК (TIM-Net) 0.84 0.77 0.78 0.90 0.50 0.55
GigaAM-Emo 0.90 0.87 0.84 0.90 0.76 0.67

Ссылки