File size: 6,436 Bytes

91cc645
 
 
 
 
 
 
 
 
 
 
0d860c8
 
fc6fb3c
91cc645
 
0d860c8
295efc0
fc6fb3c
4404959
0d860c8
 
 
 
 
 
4404959
fc6fb3c
 
0d860c8
295efc0
0d860c8
fc6fb3c
0d860c8
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
295efc0
0d860c8
 
 
 
 
 
 
6fdbe1c
fc6fb3c
 
0d860c8
 
 
6fdbe1c
0d860c8
 
 
 
 
 
 
 
 
 
 
 
 
 
295efc0
fc6fb3c
295efc0
0d860c8
 
 
 
295efc0
 
6fdbe1c
0d860c8
 
 
 
 
 
 
fc6fb3c
0d860c8
 
 
30106b1
0d860c8
30106b1

---
language:
- ru
- en
library_name: so-vits-svc
tags:
- singing
- voice-conversion
- sovits
- whisper
- reflow
- ddsp
- diff-svc
- audio-processing
---

# 🎙️ Diff_Ai05: Коллекция SVC-моделей

### 🚀 Попробовать и создать:

| Что | Модель | Ссылка |
| :--- | :--- | :--- |
| 🎧 **Послушать голос автора / Сделать кавер** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) |
| 🧠 **Обучение / Продолжение / Каверы** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) |
| 🐟 **Обучение / Продолжение / Каверы** | Diff-SVC V2 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1hhJLpLShaK-RJxN7JjQFSP9MJARgEbCo?usp=sharing) |
| 🎵 **Обучение / Продолжение / Каверы** | DDSP-SVC 6.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1IKPMVV5oPPfyZWG5kUflrjurVu70bzDv?usp=sharing) |

---

## 📄 О моделях (для всех)

### 🎤 SO-VITS-SVC 4.1 (Whisper PPG Large V2)

**Что это?**  
Одна из самых продвинутых моделей для замены голоса в пении. Она берёт эталонный голос и перекрашивает его в ваш тембр, сохраняя интонации, дыхание и эмоции.

**Почему Whisper PPG Large V2?**  
В основе лежит нейросеть OpenAI **Whisper Large V2** — она обучена на **680 000 часов** речи со всего мира (98 языков). Обычно Whisper расшифровывает аудио, но в SVC мы берём его *внутреннее представление звука* (PPG — phonetic posteriorgram). Оно очень детальное: **1280 измерений** (против типичных 256–768).  
Результат: голос звучит живо, не склеивается в «пластик» и не копирует чужих певцов — только ваш характер.

**Для кого?**  
Для тех, кто ценит реализм и готов дать модели побольше вычислительных ресурсов. Идеально для песен с эмоциональными нюансами.

### 🐟 Diff-SVC V2 (Fish Diffusion)

**Что это?**  
Диффузионная модель — она работает как художник-реставратор: начинает с шума и постепенно «проявляет» чистый голос. Под капотом **Fish Diffusion**, специально заточенный под вокал.

**Плюсы:**  
- Очень детальный, «дышащий» тембр  
- Справляется даже с плохо вырезанными акапеллами  
- Меньше артефактов на высоких нотах

### 🎵 DDSP-SVC 6.1 (Rectified Flow)

**Что это?**  
Самый лёгкий и шустрый вариант. Комбинация **DDSP** (разлагает звук на синтезируемые компоненты) и **Rectified Flow** (новый умный способ учиться).  

**Плюсы:**  
- Работает даже на слабых видеокартах (например, 4–6 GB VRAM)  
- Почти мгновенные инференс (обработка)  
- Отличный баланс скорости и качества

---

## 🧪 О датасете и обучении голоса автора (технические детали)

> Это информация **только об этой конкретной модели голоса** — чтобы не смешивать с общим описанием технологий.

**Голос автора (Diff_Ai05 / Kedo) обучен на:**

| Параметр | Значение |
| :--- | :--- |
| 🗣️ Модель | SO-VITS-SVC 4.1 (Whisper PPG Large V2) |
| 📊 Датасет | **1,259 сэмплов** (очищены вручную — без шумов, пауз, посторонних звуков) |
| ⏱️ Объём сырого аудио | ≈ 2–3 часа |
| 🔁 Шагов обучения | **30,400** (полный цикл) |
| 🧠 Энкодер | `Whisper PPG Large V2` (1280 dims) |
| 🎵 F0 Predictor | `crepe` (самый точный) |
| 📉 Финальный learning rate | `0.00001` — ювелирная подстройка, чтобы не переучить тембр |
| 🧩 Вокодер | NSF-HiFiGAN |

**Результат:** модель узнаваема, не сливается с датасетом, отлично передаёт манеру оригинала.

---

## ⚙️ Требования для запуска (любая модель)
- **Whisper** (`large-v2.pt`) — для 4.1
- **ContentVec** (`pytorch_model.bin`) — для Diff-SVC и DDSP
- **NSF-HiFiGAN** — универсальный вокодер (нужен всем)

---

## 💎 Золотой пресет (для 4.1)
- **Index Rate:** `0.45 – 0.55`
- **F0 Predictor:** `crepe`
- **Feature Retrieval:** рекомендуется `k=50–100` соседей  
*Эти настройки дают максимум естественности.*

---

## 👤 Об авторе проекта
**Diff_Ai05** (также известен как Kedo / 0qwpif / ii_Senya0)  
> Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в SVC.

*Создано с любовью к деталям и живому звуку.*

---

## 🎨 Визуальный образ (Kedo)
<p align="center">
  <img src="https://huggingface.co/0qwpifs/Diff_Ai05_Whisper_PPG_Large_V2_4.1_FULL/resolve/main/logo.png" width="400">
  <br>
  <i>"Кедо — визуальное воплощение тембра и стиля проекта."</i>
</p>