Update README.md

0d860c8 verified 12 days ago

6.44 kB

	---
	language:
	- ru
	- en
	library_name: so-vits-svc
	tags:
	- singing
	- voice-conversion
	- sovits
	- whisper
	- reflow
	- ddsp
	- diff-svc
	- audio-processing
	---

	# 🎙️ Diff_Ai05: Коллекция SVC-моделей

	### 🚀 Попробовать и создать:

	\| Что \| Модель \| Ссылка \|
	\| :--- \| :--- \| :--- \|
	\| 🎧 Послушать голос автора / Сделать кавер \| SO-VITS-SVC 4.1 \| [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) \|
	\| 🧠 Обучение / Продолжение / Каверы \| SO-VITS-SVC 4.1 \| [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) \|
	\| 🐟 Обучение / Продолжение / Каверы \| Diff-SVC V2 \| [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1hhJLpLShaK-RJxN7JjQFSP9MJARgEbCo?usp=sharing) \|
	\| 🎵 Обучение / Продолжение / Каверы \| DDSP-SVC 6.1 \| [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1IKPMVV5oPPfyZWG5kUflrjurVu70bzDv?usp=sharing) \|

	---

	## 📄 О моделях (для всех)

	### 🎤 SO-VITS-SVC 4.1 (Whisper PPG Large V2)

	Что это?
	Одна из самых продвинутых моделей для замены голоса в пении. Она берёт эталонный голос и перекрашивает его в ваш тембр, сохраняя интонации, дыхание и эмоции.

	Почему Whisper PPG Large V2?
	В основе лежит нейросеть OpenAI Whisper Large V2 — она обучена на 680 000 часов речи со всего мира (98 языков). Обычно Whisper расшифровывает аудио, но в SVC мы берём его внутреннее представление звука (PPG — phonetic posteriorgram). Оно очень детальное: 1280 измерений (против типичных 256–768).
	Результат: голос звучит живо, не склеивается в «пластик» и не копирует чужих певцов — только ваш характер.

	Для кого?
	Для тех, кто ценит реализм и готов дать модели побольше вычислительных ресурсов. Идеально для песен с эмоциональными нюансами.

	### 🐟 Diff-SVC V2 (Fish Diffusion)

	Что это?
	Диффузионная модель — она работает как художник-реставратор: начинает с шума и постепенно «проявляет» чистый голос. Под капотом Fish Diffusion, специально заточенный под вокал.

	Плюсы:
	- Очень детальный, «дышащий» тембр
	- Справляется даже с плохо вырезанными акапеллами
	- Меньше артефактов на высоких нотах

	### 🎵 DDSP-SVC 6.1 (Rectified Flow)

	Что это?
	Самый лёгкий и шустрый вариант. Комбинация DDSP (разлагает звук на синтезируемые компоненты) и Rectified Flow (новый умный способ учиться).

	Плюсы:
	- Работает даже на слабых видеокартах (например, 4–6 GB VRAM)
	- Почти мгновенные инференс (обработка)
	- Отличный баланс скорости и качества

	---

	## 🧪 О датасете и обучении голоса автора (технические детали)

	> Это информация только об этой конкретной модели голоса — чтобы не смешивать с общим описанием технологий.

	Голос автора (Diff_Ai05 / Kedo) обучен на:

	\| Параметр \| Значение \|
	\| :--- \| :--- \|
	\| 🗣️ Модель \| SO-VITS-SVC 4.1 (Whisper PPG Large V2) \|
	\| 📊 Датасет \| 1,259 сэмплов (очищены вручную — без шумов, пауз, посторонних звуков) \|
	\| ⏱️ Объём сырого аудио \| ≈ 2–3 часа \|
	\| 🔁 Шагов обучения \| 30,400 (полный цикл) \|
	\| 🧠 Энкодер \| `Whisper PPG Large V2` (1280 dims) \|
	\| 🎵 F0 Predictor \| `crepe` (самый точный) \|
	\| 📉 Финальный learning rate \| `0.00001` — ювелирная подстройка, чтобы не переучить тембр \|
	\| 🧩 Вокодер \| NSF-HiFiGAN \|

	Результат: модель узнаваема, не сливается с датасетом, отлично передаёт манеру оригинала.

	---

	## ⚙️ Требования для запуска (любая модель)
	- Whisper (`large-v2.pt`) — для 4.1
	- ContentVec (`pytorch_model.bin`) — для Diff-SVC и DDSP
	- NSF-HiFiGAN — универсальный вокодер (нужен всем)

	---

	## 💎 Золотой пресет (для 4.1)
	- Index Rate: `0.45 – 0.55`
	- F0 Predictor: `crepe`
	- Feature Retrieval: рекомендуется `k=50–100` соседей
	Эти настройки дают максимум естественности.

	---

	## 👤 Об авторе проекта
	Diff_Ai05 (также известен как Kedo / 0qwpif / ii_Senya0)
	> Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в SVC.

	Создано с любовью к деталям и живому звуку.

	---

	## 🎨 Визуальный образ (Kedo)
	<p align="center">
	<img src="https://huggingface.co/0qwpifs/Diff_Ai05_Whisper_PPG_Large_V2_4.1_FULL/resolve/main/logo.png" width="400">
	<br>
	<i>"Кедо — визуальное воплощение тембра и стиля проекта."</i>
	</p>