---
language:
- ru
- en
library_name: so-vits-svc
tags:
- singing
- voice-conversion
- sovits
- whisper
- reflow
- ddsp
- diff-svc
- audio-processing
---

# 🎙️ Diff_Ai05: Коллекция SVC-моделей

### 🚀 Попробовать и создать:

| Что | Модель | Ссылка |
| :--- | :--- | :--- |
| 🎧 **Послушать голос автора / Сделать кавер** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) |
| 🧠 **Обучение / Продолжение / Каверы** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) |
| 🐟 **Обучение / Продолжение / Каверы** | Diff-SVC V2 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1hhJLpLShaK-RJxN7JjQFSP9MJARgEbCo?usp=sharing) |
| 🎵 **Обучение / Продолжение / Каверы** | DDSP-SVC 6.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1IKPMVV5oPPfyZWG5kUflrjurVu70bzDv?usp=sharing) |

---

## 📄 О моделях (для всех)

### 🎤 SO-VITS-SVC 4.1 (Whisper PPG Large V2)

**Что это?**  
Одна из самых продвинутых моделей для замены голоса в пении. Она берёт эталонный голос и перекрашивает его в ваш тембр, сохраняя интонации, дыхание и эмоции.

**Почему Whisper PPG Large V2?**  
В основе лежит нейросеть OpenAI **Whisper Large V2** — она обучена на **680 000 часов** речи со всего мира (98 языков). Обычно Whisper расшифровывает аудио, но в SVC мы берём его *внутреннее представление звука* (PPG — phonetic posteriorgram). Оно очень детальное: **1280 измерений** (против типичных 256–768).  
Результат: голос звучит живо, не склеивается в «пластик» и не копирует чужих певцов — только ваш характер.

**Для кого?**  
Для тех, кто ценит реализм и готов дать модели побольше вычислительных ресурсов. Идеально для песен с эмоциональными нюансами.

### 🐟 Diff-SVC V2 (Fish Diffusion)

**Что это?**  
Диффузионная модель — она работает как художник-реставратор: начинает с шума и постепенно «проявляет» чистый голос. Под капотом **Fish Diffusion**, специально заточенный под вокал.

**Плюсы:**  
- Очень детальный, «дышащий» тембр  
- Справляется даже с плохо вырезанными акапеллами  
- Меньше артефактов на высоких нотах

### 🎵 DDSP-SVC 6.1 (Rectified Flow)

**Что это?**  
Самый лёгкий и шустрый вариант. Комбинация **DDSP** (разлагает звук на синтезируемые компоненты) и **Rectified Flow** (новый умный способ учиться).  

**Плюсы:**  
- Работает даже на слабых видеокартах (например, 4–6 GB VRAM)  
- Почти мгновенные инференс (обработка)  
- Отличный баланс скорости и качества

---

## 🧪 О датасете и обучении голоса автора (технические детали)

> Это информация **только об этой конкретной модели голоса** — чтобы не смешивать с общим описанием технологий.

**Голос автора (Diff_Ai05 / Kedo) обучен на:**

| Параметр | Значение |
| :--- | :--- |
| 🗣️ Модель | SO-VITS-SVC 4.1 (Whisper PPG Large V2) |
| 📊 Датасет | **1,259 сэмплов** (очищены вручную — без шумов, пауз, посторонних звуков) |
| ⏱️ Объём сырого аудио | ≈ 2–3 часа |
| 🔁 Шагов обучения | **30,400** (полный цикл) |
| 🧠 Энкодер | `Whisper PPG Large V2` (1280 dims) |
| 🎵 F0 Predictor | `crepe` (самый точный) |
| 📉 Финальный learning rate | `0.00001` — ювелирная подстройка, чтобы не переучить тембр |
| 🧩 Вокодер | NSF-HiFiGAN |

**Результат:** модель узнаваема, не сливается с датасетом, отлично передаёт манеру оригинала.

---

## ⚙️ Требования для запуска (любая модель)
- **Whisper** (`large-v2.pt`) — для 4.1
- **ContentVec** (`pytorch_model.bin`) — для Diff-SVC и DDSP
- **NSF-HiFiGAN** — универсальный вокодер (нужен всем)

---

## 💎 Золотой пресет (для 4.1)
- **Index Rate:** `0.45 – 0.55`
- **F0 Predictor:** `crepe`
- **Feature Retrieval:** рекомендуется `k=50–100` соседей  
*Эти настройки дают максимум естественности.*

---

## 👤 Об авторе проекта
**Diff_Ai05** (также известен как Kedo / 0qwpif / ii_Senya0)  
> Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в SVC.

*Создано с любовью к деталям и живому звуку.*

---

## 🎨 Визуальный образ (Kedo)
<p align="center">
  <img src="https://huggingface.co/0qwpifs/Diff_Ai05_Whisper_PPG_Large_V2_4.1_FULL/resolve/main/logo.png" width="400">
  <br>
  <i>"Кедо — визуальное воплощение тембра и стиля проекта."</i>
</p>