| [GENERAL] | |
| SSLZip представляет собой пост-процессор для признаков self-supervised speech моделей (в даннном случае, HuBERT Base). Он берёт последовательность скрытых состояний HuBERT размерности 768 и прогоняет через простой автоэнкодер, выдавая более компактный латентный код (16 или 256 каналов). Цель: сжать признаки и одновременно выкинуть из них информацию о спикере, оставив в основном фонемно-контентную и часть просодической информации. | |
| SSLZip работает только с признаками, уже извлечёнными upstream-моделью. | |
| [PAPER] | |
| По статье авторов, логика такая: | |
| > Автоэнкодер обучают восстанавливать исходные SSL-признаки; узкое "бутылочное горлышко" вынуждает латенту хранить только важное (контент), а менее важное (speaker id) теряется; | |
| > Опционально добавляют CLUB-лосс (Contrastive Log-ratio Upper Bound) - это взаимная информация между латентой и меткой спикера, которую во время обучения минимизируют через дискриминатор спикеров, это дополнительно "выдавливает" спикера из латенты. | |
| [USE CASES] | |
| 1. Универсальная "контент-лента" для инфилинга | |
| В процедуре инфилинга речи, если использовать HuBERT/WavLM-признаки напрямую (768-d), в них заметно сидит идентичность спикера. Это мешает, когда требуется вырезать/вставить слова, а затем синтезировать их в другом голосе: генератору нужно "разучиться" слышать оригинального спикера в контент-коде. SSLZip как раз создан для снижения speaker leakage. | |
| 2. Снижение размерности = меньше вычислений и памяти | |
| 768->16 или 768->256 уменьшает нагрузку на всё после энкодера: хранение промежуточных представлений, скорость обучения/инференса downstream моделей (VC/TTS/patch-генераторы). Это особенно важно, если требуется делать многодорожечные монтажи и хранить кэши латент. | |
| 3. Более стабильная работа на "сборных" аудио речи | |
| Если downstream модель видит более инвариантный контент-код, ей проще обобщать на разные голоса и стили, а значит меньше артефактов при склейках между спикерами. Это основной мотив статьи. | |
| 4. Потенциальная просодическая полезность (ограниченно) | |
| 256-мерная латента обычно сохраняет больше нюансов (интонации/темпа), чем 16-мерная. Но это палка о двух концах: часть этих нюансов может оказаться tied к спикеру. В таких кейсах, где "голос" обычно задаётся отдельно, например в композиции речи из фрагментов речей разных спикеров, лишняя просодика в контенте может вредить. | |
| [ONNX MODELS] | |
| Характеристики: | |
| > SSLZip-16-CLUB: вход [B, T, 768], выход [B, T, 16] | |
| > SSLZip-256: выход [B, T, 256] | |
| > SSLZip-256-CLUB: выход [B, T, 256], но обучено с CLUB-лоссом | |
| В статье авторы прямо показывают компромисс: | |
| > 16-мерный вариант даёт почти ту же натуральность речи, что и более тяжёлые варианты, и даже лучший DMOS, потому что спикер "естественно" вылетает через узкую латенту. | |
| > CLUB-обучение улучшает именно случаи, где нужно сильнее убрать спикера (например cross-gender VC), но в среднем не всегда превосходит базовый SSLZip по натуральности. | |
| Выбор под задачу: | |
| > Если нужен максимально "контент only" код для патчинга/VC и склеек (а голос, стиль, эмоция задаётся другими каналами/эмбедами), то следует использовать SSLZip-16-CLUB. | |
| Минимальный размер, максимальная инвариантность к спикеру, по статье 16-d достаточно для качественной генерации и даёт лучший баланс в сложных случаях. | |
| > Если downstream-генератор опирается на сам контент-код ещё и для части просодики/стиля (например, когда нет отдельного style-encoder или требуется меньше "плоской" речи), то логичнее использовать SSLZip-256-CLUB | |
| Это компромисс: больше информации + попытка подавить спикера. Согласно статье авторов, CLUB помогает именно там, где обычный 256 чуть "тащит" голос. | |
| > SSLZip-256 без CLUB имеет смысл только если вы сознательно хотите сохранить больше исходной информации HuBERT и готовы мириться с большей долей speaker leakage. Для реализации композиции речи из фрагментов речей разных спикеров это выглядит хуже двух вариантов выше. | |
| ------------------------------ | |
| ИСТОЧНИК: https://www.isca-archive.org/ssw_2025/yoshimura25_ssw.pdf (SSLZip: Simple Autoencoding for Enhancing Self-Supervised Speech Representations in Speech Generation) | |