--- language: - ru - en library_name: so-vits-svc tags: - singing - voice-conversion - sovits - whisper - reflow - ddsp - diff-svc - audio-processing --- # 🎙️ Diff_Ai05: Коллекция SVC-моделей ### 🚀 Попробовать и создать: | Что | Модель | Ссылка | | :--- | :--- | :--- | | 🎧 **Послушать голос автора / Сделать кавер** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) | | 🧠 **Обучение / Продолжение / Каверы** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) | | 🐟 **Обучение / Продолжение / Каверы** | Diff-SVC V2 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1hhJLpLShaK-RJxN7JjQFSP9MJARgEbCo?usp=sharing) | | 🎵 **Обучение / Продолжение / Каверы** | DDSP-SVC 6.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1IKPMVV5oPPfyZWG5kUflrjurVu70bzDv?usp=sharing) | --- ## 📄 О моделях (для всех) ### 🎤 SO-VITS-SVC 4.1 (Whisper PPG Large V2) **Что это?** Одна из самых продвинутых моделей для замены голоса в пении. Она берёт эталонный голос и перекрашивает его в ваш тембр, сохраняя интонации, дыхание и эмоции. **Почему Whisper PPG Large V2?** В основе лежит нейросеть OpenAI **Whisper Large V2** — она обучена на **680 000 часов** речи со всего мира (98 языков). Обычно Whisper расшифровывает аудио, но в SVC мы берём его *внутреннее представление звука* (PPG — phonetic posteriorgram). Оно очень детальное: **1280 измерений** (против типичных 256–768). Результат: голос звучит живо, не склеивается в «пластик» и не копирует чужих певцов — только ваш характер. **Для кого?** Для тех, кто ценит реализм и готов дать модели побольше вычислительных ресурсов. Идеально для песен с эмоциональными нюансами. ### 🐟 Diff-SVC V2 (Fish Diffusion) **Что это?** Диффузионная модель — она работает как художник-реставратор: начинает с шума и постепенно «проявляет» чистый голос. Под капотом **Fish Diffusion**, специально заточенный под вокал. **Плюсы:** - Очень детальный, «дышащий» тембр - Справляется даже с плохо вырезанными акапеллами - Меньше артефактов на высоких нотах ### 🎵 DDSP-SVC 6.1 (Rectified Flow) **Что это?** Самый лёгкий и шустрый вариант. Комбинация **DDSP** (разлагает звук на синтезируемые компоненты) и **Rectified Flow** (новый умный способ учиться). **Плюсы:** - Работает даже на слабых видеокартах (например, 4–6 GB VRAM) - Почти мгновенные инференс (обработка) - Отличный баланс скорости и качества --- ## 🧪 О датасете и обучении голоса автора (технические детали) > Это информация **только об этой конкретной модели голоса** — чтобы не смешивать с общим описанием технологий. **Голос автора (Diff_Ai05 / Kedo) обучен на:** | Параметр | Значение | | :--- | :--- | | 🗣️ Модель | SO-VITS-SVC 4.1 (Whisper PPG Large V2) | | 📊 Датасет | **1,259 сэмплов** (очищены вручную — без шумов, пауз, посторонних звуков) | | ⏱️ Объём сырого аудио | ≈ 2–3 часа | | 🔁 Шагов обучения | **30,400** (полный цикл) | | 🧠 Энкодер | `Whisper PPG Large V2` (1280 dims) | | 🎵 F0 Predictor | `crepe` (самый точный) | | 📉 Финальный learning rate | `0.00001` — ювелирная подстройка, чтобы не переучить тембр | | 🧩 Вокодер | NSF-HiFiGAN | **Результат:** модель узнаваема, не сливается с датасетом, отлично передаёт манеру оригинала. --- ## ⚙️ Требования для запуска (любая модель) - **Whisper** (`large-v2.pt`) — для 4.1 - **ContentVec** (`pytorch_model.bin`) — для Diff-SVC и DDSP - **NSF-HiFiGAN** — универсальный вокодер (нужен всем) --- ## 💎 Золотой пресет (для 4.1) - **Index Rate:** `0.45 – 0.55` - **F0 Predictor:** `crepe` - **Feature Retrieval:** рекомендуется `k=50–100` соседей *Эти настройки дают максимум естественности.* --- ## 👤 Об авторе проекта **Diff_Ai05** (также известен как Kedo / 0qwpif / ii_Senya0) > Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в SVC. *Создано с любовью к деталям и живому звуку.* --- ## 🎨 Визуальный образ (Kedo)


"Кедо — визуальное воплощение тембра и стиля проекта."