SSLZip / models /DESCRIPTION.txt

Upload DESCRIPTION.txt

fbb49d6 verified about 2 months ago

6.89 kB

	[GENERAL]

	SSLZip представляет собой пост-процессор для признаков self-supervised speech моделей (в даннном случае, HuBERT Base). Он берёт последовательность скрытых состояний HuBERT размерности 768 и прогоняет через простой автоэнкодер, выдавая более компактный латентный код (16 или 256 каналов). Цель: сжать признаки и одновременно выкинуть из них информацию о спикере, оставив в основном фонемно-контентную и часть просодической информации.
	SSLZip работает только с признаками, уже извлечёнными upstream-моделью.

	[PAPER]

	По статье авторов, логика такая:
	> Автоэнкодер обучают восстанавливать исходные SSL-признаки; узкое "бутылочное горлышко" вынуждает латенту хранить только важное (контент), а менее важное (speaker id) теряется;
	> Опционально добавляют CLUB-лосс (Contrastive Log-ratio Upper Bound) - это взаимная информация между латентой и меткой спикера, которую во время обучения минимизируют через дискриминатор спикеров, это дополнительно "выдавливает" спикера из латенты.

	[USE CASES]

	1. Универсальная "контент-лента" для инфилинга

	В процедуре инфилинга речи, если использовать HuBERT/WavLM-признаки напрямую (768-d), в них заметно сидит идентичность спикера. Это мешает, когда требуется вырезать/вставить слова, а затем синтезировать их в другом голосе: генератору нужно "разучиться" слышать оригинального спикера в контент-коде. SSLZip как раз создан для снижения speaker leakage.

	2. Снижение размерности = меньше вычислений и памяти

	768->16 или 768->256 уменьшает нагрузку на всё после энкодера: хранение промежуточных представлений, скорость обучения/инференса downstream моделей (VC/TTS/patch-генераторы). Это особенно важно, если требуется делать многодорожечные монтажи и хранить кэши латент.

	3. Более стабильная работа на "сборных" аудио речи

	Если downstream модель видит более инвариантный контент-код, ей проще обобщать на разные голоса и стили, а значит меньше артефактов при склейках между спикерами. Это основной мотив статьи.

	4. Потенциальная просодическая полезность (ограниченно)

	256-мерная латента обычно сохраняет больше нюансов (интонации/темпа), чем 16-мерная. Но это палка о двух концах: часть этих нюансов может оказаться tied к спикеру. В таких кейсах, где "голос" обычно задаётся отдельно, например в композиции речи из фрагментов речей разных спикеров, лишняя просодика в контенте может вредить.

	[ONNX MODELS]

	Характеристики:
	> SSLZip-16-CLUB: вход [B, T, 768], выход [B, T, 16]
	> SSLZip-256: выход [B, T, 256]
	> SSLZip-256-CLUB: выход [B, T, 256], но обучено с CLUB-лоссом

	В статье авторы прямо показывают компромисс:
	> 16-мерный вариант даёт почти ту же натуральность речи, что и более тяжёлые варианты, и даже лучший DMOS, потому что спикер "естественно" вылетает через узкую латенту.
	> CLUB-обучение улучшает именно случаи, где нужно сильнее убрать спикера (например cross-gender VC), но в среднем не всегда превосходит базовый SSLZip по натуральности.

	Выбор под задачу:
	> Если нужен максимально "контент only" код для патчинга/VC и склеек (а голос, стиль, эмоция задаётся другими каналами/эмбедами), то следует использовать SSLZip-16-CLUB.
	Минимальный размер, максимальная инвариантность к спикеру, по статье 16-d достаточно для качественной генерации и даёт лучший баланс в сложных случаях.
	> Если downstream-генератор опирается на сам контент-код ещё и для части просодики/стиля (например, когда нет отдельного style-encoder или требуется меньше "плоской" речи), то логичнее использовать SSLZip-256-CLUB
	Это компромисс: больше информации + попытка подавить спикера. Согласно статье авторов, CLUB помогает именно там, где обычный 256 чуть "тащит" голос.
	> SSLZip-256 без CLUB имеет смысл только если вы сознательно хотите сохранить больше исходной информации HuBERT и готовы мириться с большей долей speaker leakage. Для реализации композиции речи из фрагментов речей разных спикеров это выглядит хуже двух вариантов выше.

	------------------------------
	ИСТОЧНИК: https://www.isca-archive.org/ssw_2025/yoshimura25_ssw.pdf (SSLZip: Simple Autoencoding for Enhancing Self-Supervised Speech Representations in Speech Generation)