GigaAM: семейство акустических моделей для обработки звучащей речи

Содержание

GigaAM
GigaAM для распознавания речи
- GigaAM-CTC
- GigaAM-RNNT
GigaAM-Emo
Ссылки

GigaAM

GigaAM (Giga Acoustic Model) — фундаментальная акустическая модель, основанная на Conformer энкодере (около 240M параметров). Мы предобучали GigaAM в wav2vec2 режиме на 50 тысячах часов разнообразных русскоязычных данных.

Материалы

GigaAM для распознавания речи

Мы дообучали GigaAM энкодер для задачи распознавания речи с двумя разными декодерами:

GigaAM-CTC была дообучена с CTC функцией потерь и посимвольной токенизацией.
GigaAM-RNNT была дообучена с RNN-T функцией потерь и subword-токенизацией.

Для обучения обеих моделей использовался фреймворк NeMo и следующие открытые данные:

dataset	size, hours	weight
Golos	1227	0.6
SOVA	369	0.2
Russian Common Voice	207	0.1
Russian LibriSpeech	93	0.1

Материалы:

В таблице ниже приведены оценки Word Error Rate различных моделей на открытых русскоязычных наборах данных:

model	parameters	Golos Crowd	Golos Farfield	OpenSTT Youtube	OpenSTT Phone calls	OpenSTT Audiobooks	Mozilla Common Voice	Russian LibriSpeech
Whisper-large-v3	1.5B	17.4	14.5	21.1	31.2	17.0	5.3	9.0
NVIDIA Ru-FastConformer-RNNT	115M	2.6	6.6	23.8	32.9	16.4	2.7	11.6
GigaAM-CTC	242M	3.1	5.7	18.4	25.6	15.1	1.7	8.1
GigaAM-RNNT	243M	2.3	4.4	16.7	22.9	13.9	0.9	7.4

GigaAM-Emo

GigaAM-Emo — акустическая модель для определения эмоций. Мы доучивали GigaAM на датасете Dusha.

Материалы:

В таблице ниже приведены метрики качества открытых моделей на датасете Dusha:

		Crowd			Podcast
	Unweighted Accuracy	Weighted Accuracy	Macro F1-score	Unweighted Accuracy	Weighted Accuracy	Macro F1-score
DUSHA baseline (MobileNetV2 + Self-Attention)	0.83	0.76	0.77	0.89	0.53	0.54
АБК (TIM-Net)	0.84	0.77	0.78	0.90	0.50	0.55
GigaAM-Emo	0.90	0.87	0.84	0.90	0.76	0.67

niobures
/

GigaAM

GigaAM: семейство акустических моделей для обработки звучащей речи

Содержание

GigaAM

GigaAM для распознавания речи

GigaAM-CTC:

GigaAM-RNNT:

GigaAM-Emo

Ссылки