| --- |
| language: |
| - ru |
| - en |
| library_name: so-vits-svc |
| tags: |
| - singing |
| - voice-conversion |
| - sovits |
| - whisper |
| - reflow |
| - ddsp |
| - diff-svc |
| - audio-processing |
| --- |
| |
| # 🎙️ Diff_Ai05: Коллекция SVC-моделей |
| |
| ### 🚀 Попробовать и создать: |
| |
| | Что | Модель | Ссылка | |
| | :--- | :--- | :--- | |
| | 🎧 **Послушать голос автора / Сделать кавер** | SO-VITS-SVC 4.1 | [](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) | |
| | 🧠 **Обучение / Продолжение / Каверы** | SO-VITS-SVC 4.1 | [](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) | |
| | 🐟 **Обучение / Продолжение / Каверы** | Diff-SVC V2 | [](https://colab.research.google.com/drive/1hhJLpLShaK-RJxN7JjQFSP9MJARgEbCo?usp=sharing) | |
| | 🎵 **Обучение / Продолжение / Каверы** | DDSP-SVC 6.1 | [](https://colab.research.google.com/drive/1IKPMVV5oPPfyZWG5kUflrjurVu70bzDv?usp=sharing) | |
| |
| --- |
| |
| ## 📄 О моделях (для всех) |
| |
| ### 🎤 SO-VITS-SVC 4.1 (Whisper PPG Large V2) |
| |
| **Что это?** |
| Одна из самых продвинутых моделей для замены голоса в пении. Она берёт эталонный голос и перекрашивает его в ваш тембр, сохраняя интонации, дыхание и эмоции. |
| |
| **Почему Whisper PPG Large V2?** |
| В основе лежит нейросеть OpenAI **Whisper Large V2** — она обучена на **680 000 часов** речи со всего мира (98 языков). Обычно Whisper расшифровывает аудио, но в SVC мы берём его *внутреннее представление звука* (PPG — phonetic posteriorgram). Оно очень детальное: **1280 измерений** (против типичных 256–768). |
| Результат: голос звучит живо, не склеивается в «пластик» и не копирует чужих певцов — только ваш характер. |
| |
| **Для кого?** |
| Для тех, кто ценит реализм и готов дать модели побольше вычислительных ресурсов. Идеально для песен с эмоциональными нюансами. |
| |
| ### 🐟 Diff-SVC V2 (Fish Diffusion) |
| |
| **Что это?** |
| Диффузионная модель — она работает как художник-реставратор: начинает с шума и постепенно «проявляет» чистый голос. Под капотом **Fish Diffusion**, специально заточенный под вокал. |
| |
| **Плюсы:** |
| - Очень детальный, «дышащий» тембр |
| - Справляется даже с плохо вырезанными акапеллами |
| - Меньше артефактов на высоких нотах |
| |
| ### 🎵 DDSP-SVC 6.1 (Rectified Flow) |
| |
| **Что это?** |
| Самый лёгкий и шустрый вариант. Комбинация **DDSP** (разлагает звук на синтезируемые компоненты) и **Rectified Flow** (новый умный способ учиться). |
| |
| **Плюсы:** |
| - Работает даже на слабых видеокартах (например, 4–6 GB VRAM) |
| - Почти мгновенные инференс (обработка) |
| - Отличный баланс скорости и качества |
| |
| --- |
| |
| ## 🧪 О датасете и обучении голоса автора (технические детали) |
| |
| > Это информация **только об этой конкретной модели голоса** — чтобы не смешивать с общим описанием технологий. |
| |
| **Голос автора (Diff_Ai05 / Kedo) обучен на:** |
| |
| | Параметр | Значение | |
| | :--- | :--- | |
| | 🗣️ Модель | SO-VITS-SVC 4.1 (Whisper PPG Large V2) | |
| | 📊 Датасет | **1,259 сэмплов** (очищены вручную — без шумов, пауз, посторонних звуков) | |
| | ⏱️ Объём сырого аудио | ≈ 2–3 часа | |
| | 🔁 Шагов обучения | **30,400** (полный цикл) | |
| | 🧠 Энкодер | `Whisper PPG Large V2` (1280 dims) | |
| | 🎵 F0 Predictor | `crepe` (самый точный) | |
| | 📉 Финальный learning rate | `0.00001` — ювелирная подстройка, чтобы не переучить тембр | |
| | 🧩 Вокодер | NSF-HiFiGAN | |
| |
| **Результат:** модель узнаваема, не сливается с датасетом, отлично передаёт манеру оригинала. |
| |
| --- |
| |
| ## ⚙️ Требования для запуска (любая модель) |
| - **Whisper** (`large-v2.pt`) — для 4.1 |
| - **ContentVec** (`pytorch_model.bin`) — для Diff-SVC и DDSP |
| - **NSF-HiFiGAN** — универсальный вокодер (нужен всем) |
|
|
| --- |
|
|
| ## 💎 Золотой пресет (для 4.1) |
| - **Index Rate:** `0.45 – 0.55` |
| - **F0 Predictor:** `crepe` |
| - **Feature Retrieval:** рекомендуется `k=50–100` соседей |
| *Эти настройки дают максимум естественности.* |
|
|
| --- |
|
|
| ## 👤 Об авторе проекта |
| **Diff_Ai05** (также известен как Kedo / 0qwpif / ii_Senya0) |
| > Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в SVC. |
| |
| *Создано с любовью к деталям и живому звуку.* |
| |
| --- |
| |
| ## 🎨 Визуальный образ (Kedo) |
| <p align="center"> |
| <img src="https://huggingface.co/0qwpifs/Diff_Ai05_Whisper_PPG_Large_V2_4.1_FULL/resolve/main/logo.png" width="400"> |
| <br> |
| <i>"Кедо — визуальное воплощение тембра и стиля проекта."</i> |
| </p> |