Diff_Ai05-SVC / README.md
0qwpifs's picture
Update README.md
0d860c8 verified
---
language:
- ru
- en
library_name: so-vits-svc
tags:
- singing
- voice-conversion
- sovits
- whisper
- reflow
- ddsp
- diff-svc
- audio-processing
---
# 🎙️ Diff_Ai05: Коллекция SVC-моделей
### 🚀 Попробовать и создать:
| Что | Модель | Ссылка |
| :--- | :--- | :--- |
| 🎧 **Послушать голос автора / Сделать кавер** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) |
| 🧠 **Обучение / Продолжение / Каверы** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) |
| 🐟 **Обучение / Продолжение / Каверы** | Diff-SVC V2 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1hhJLpLShaK-RJxN7JjQFSP9MJARgEbCo?usp=sharing) |
| 🎵 **Обучение / Продолжение / Каверы** | DDSP-SVC 6.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1IKPMVV5oPPfyZWG5kUflrjurVu70bzDv?usp=sharing) |
---
## 📄 О моделях (для всех)
### 🎤 SO-VITS-SVC 4.1 (Whisper PPG Large V2)
**Что это?**
Одна из самых продвинутых моделей для замены голоса в пении. Она берёт эталонный голос и перекрашивает его в ваш тембр, сохраняя интонации, дыхание и эмоции.
**Почему Whisper PPG Large V2?**
В основе лежит нейросеть OpenAI **Whisper Large V2** — она обучена на **680 000 часов** речи со всего мира (98 языков). Обычно Whisper расшифровывает аудио, но в SVC мы берём его *внутреннее представление звука* (PPG — phonetic posteriorgram). Оно очень детальное: **1280 измерений** (против типичных 256–768).
Результат: голос звучит живо, не склеивается в «пластик» и не копирует чужих певцов — только ваш характер.
**Для кого?**
Для тех, кто ценит реализм и готов дать модели побольше вычислительных ресурсов. Идеально для песен с эмоциональными нюансами.
### 🐟 Diff-SVC V2 (Fish Diffusion)
**Что это?**
Диффузионная модель — она работает как художник-реставратор: начинает с шума и постепенно «проявляет» чистый голос. Под капотом **Fish Diffusion**, специально заточенный под вокал.
**Плюсы:**
- Очень детальный, «дышащий» тембр
- Справляется даже с плохо вырезанными акапеллами
- Меньше артефактов на высоких нотах
### 🎵 DDSP-SVC 6.1 (Rectified Flow)
**Что это?**
Самый лёгкий и шустрый вариант. Комбинация **DDSP** (разлагает звук на синтезируемые компоненты) и **Rectified Flow** (новый умный способ учиться).
**Плюсы:**
- Работает даже на слабых видеокартах (например, 4–6 GB VRAM)
- Почти мгновенные инференс (обработка)
- Отличный баланс скорости и качества
---
## 🧪 О датасете и обучении голоса автора (технические детали)
> Это информация **только об этой конкретной модели голоса** — чтобы не смешивать с общим описанием технологий.
**Голос автора (Diff_Ai05 / Kedo) обучен на:**
| Параметр | Значение |
| :--- | :--- |
| 🗣️ Модель | SO-VITS-SVC 4.1 (Whisper PPG Large V2) |
| 📊 Датасет | **1,259 сэмплов** (очищены вручную — без шумов, пауз, посторонних звуков) |
| ⏱️ Объём сырого аудио | ≈ 2–3 часа |
| 🔁 Шагов обучения | **30,400** (полный цикл) |
| 🧠 Энкодер | `Whisper PPG Large V2` (1280 dims) |
| 🎵 F0 Predictor | `crepe` (самый точный) |
| 📉 Финальный learning rate | `0.00001` — ювелирная подстройка, чтобы не переучить тембр |
| 🧩 Вокодер | NSF-HiFiGAN |
**Результат:** модель узнаваема, не сливается с датасетом, отлично передаёт манеру оригинала.
---
## ⚙️ Требования для запуска (любая модель)
- **Whisper** (`large-v2.pt`) — для 4.1
- **ContentVec** (`pytorch_model.bin`) — для Diff-SVC и DDSP
- **NSF-HiFiGAN** — универсальный вокодер (нужен всем)
---
## 💎 Золотой пресет (для 4.1)
- **Index Rate:** `0.45 – 0.55`
- **F0 Predictor:** `crepe`
- **Feature Retrieval:** рекомендуется `k=50–100` соседей
*Эти настройки дают максимум естественности.*
---
## 👤 Об авторе проекта
**Diff_Ai05** (также известен как Kedo / 0qwpif / ii_Senya0)
> Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в SVC.
*Создано с любовью к деталям и живому звуку.*
---
## 🎨 Визуальный образ (Kedo)
<p align="center">
<img src="https://huggingface.co/0qwpifs/Diff_Ai05_Whisper_PPG_Large_V2_4.1_FULL/resolve/main/logo.png" width="400">
<br>
<i>"Кедо — визуальное воплощение тембра и стиля проекта."</i>
</p>