0qwpifs
/

Diff_Ai05-SVC

@@ -9,63 +9,101 @@ tags:
 - sovits
 - whisper
 - reflow
 - audio-processing
 ---
-# 🎙️ Diff_Ai05: Whisper PPG Large V2 (SO-VITS-SVC 4.1 FULL)
 ### 🚀 Попробовать и создать:
-| Цель | Ссылка на Colab |
-| :--- | :--- |
-| **🎧 Послушать голос автора / Сделать кавер** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) |
-| **🧠 Создать свой голос с нуля (Обучение / Продолжение / Сделать кавер)** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) |
 ---
-## 📄 О модели
-Это высокоточная модель голоса, обученная на базе архитектуры **SO-VITS-SVC 4.1 Reflow**.
-Цель данной модели — передача максимально естественного, мягкого и «живого» тембра (**высокий лирический тенор**). Особое внимание уделено сохранению микро-интонаций, естественного дыхания и субтона (воздуха в голосе).
-### 🛠 Спецификации:
-*   **Энкодер:** `Whisper PPG Large V2` (1280 dimensions) — обеспечивает беспрецедентную детализацию дикции.
-*   **Архитектура:** 4.1 Stable / Reflow.
-*   **Объем обучения:** 30,400 шагов (полный цикл).
-*   **Learning Rate (LR):** Финальная «ювелирная» полировка на `0.00001` (1e-05).
-*   **Датасет:** 1,259 очищенных вручную сэмплов высокого качества.
----
-## ⚙️ Требования для запуска (ВАЖНО!)
-Для корректной работы модели (из-за веса в 1280 дим.) в вашей сборке должны быть:
-1.  **Speech Encoder:** `Whisper PPG Large V2` (файл `large-v2.pt` в папке `pretrain`).
-2.  **Vocoder:** `nsf-hifigan` (в папке `pretrain/nsf_hifigan`).
 ---
-## 💎 Золотой пресет (Рецепт идеального звука)
-Для получения «того самого» живого звучания без эффекта пластика, используйте эти настройки:
-*   **Index Rate:** `0.45 — 0.55` (идеальный баланс сходства и чистоты).
-*   **Feature Retrieval Index:** Обязательно используйте приложенный `.pkl` файл.
-*   **🔥 HACK (k-neighbors):** Для максимальной мягкости и «мяса» рекомендуется пропатчить инференс на **k=100** соседей (вместо стандартных 8).
-*   **F0 Predictor:** `crepe` (обеспечивает самую чистую читку нот).
 ---
-## 🎼 Сильные стороны
-*   **Субтон:** Идеальная работа с шепотом и тихими переходами.
-*   **Высокие ноты:** Стабильность тенора на верхних границах диапазона.
-*   **Сложная фонетика:** Шипящие («ЧШ», «СС», «ТТС») звучат чисто и естественно.
 ---
-## 👤 Об авторе
-**Diff_Ai05** (также известный как **Kedo**, **0qwpif**, **ii_Senya0**)
-> Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в области SVC-технологий для достижения живого звука.
-*Создано с любовью к деталям и качеству звука.*
 ---

 - sovits
 - whisper
 - reflow
+- ddsp
+- diff-svc
 - audio-processing
 ---
+# 🎙️ Diff_Ai05: Коллекция SVC-моделей
 ### 🚀 Попробовать и создать:
+| Что | Модель | Ссылка |
+| :--- | :--- | :--- |
+| 🎧 **Послушать голос автора / Сделать кавер** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) |
+| 🧠 **Обучение / Продолжение / Каверы** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) |
+| 🐟 **Обучение / Продолжение / Каверы** | Diff-SVC V2 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1hhJLpLShaK-RJxN7JjQFSP9MJARgEbCo?usp=sharing) |
+| 🎵 **Обучение / Продолжение / Каверы** | DDSP-SVC 6.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1IKPMVV5oPPfyZWG5kUflrjurVu70bzDv?usp=sharing) |
 ---
+## 📄 О моделях (для всех)
+### 🎤 SO-VITS-SVC 4.1 (Whisper PPG Large V2)
+**Что это?**
+Одна из самых продвинутых моделей для замены голоса в пении. Она берёт эталонный голос и перекрашивает его в ваш тембр, сохраняя интонации, дыхание и эмоции.
+**Почему Whisper PPG Large V2?**
+В основе лежит нейросеть OpenAI **Whisper Large V2** — она обучена на **680 000 часов** речи со всего мира (98 языков). Обычно Whisper расшифровывает аудио, но в SVC мы берём его *внутреннее представление звука* (PPG — phonetic posteriorgram). Оно очень детальное: **1280 измерений** (против типичных 256–768).
+Результат: голос звучит живо, не склеивается в «пластик» и не копирует чужих певцов — только ваш характер.
+**Для кого?**
+Для тех, кто ценит реализм и готов дать модели побольше вычислительных ресурсов. Идеально для песен с эмоциональными нюансами.
+### 🐟 Diff-SVC V2 (Fish Diffusion)
+**Что это?**
+Диффузионная модель — она работает как художник-реставратор: начинает с шума и постепенно «проявляет» чистый голос. Под капотом **Fish Diffusion**, специально заточенный под вокал.
+**Плюсы:**
+- Очень детальный, «дышащий» тембр
+- Справляется даже с плохо вырезанными акапеллами
+- Меньше артефактов на высоких нотах
+### 🎵 DDSP-SVC 6.1 (Rectified Flow)
+**Что это?**
+Самый лёгкий и шустрый вариант. Комбинация **DDSP** (разлагает звук на синтезируемые компоненты) и **Rectified Flow** (новый умный способ учиться).
+**Плюсы:**
+- Работает даже на слабых видеокартах (например, 4–6 GB VRAM)
+- Почти мгновенные инференс (обработка)
+- Отличный баланс скорости и качества
 ---
+## 🧪 О датасете и обучении голоса автора (технические детали)
+> Это информация **только об этой конкретной модели голоса** — чтобы не смешивать с общим описанием технологий.
+**Голос автора (Diff_Ai05 / Kedo) обучен на:**
+| Параметр | Значение |
+| :--- | :--- |
+| 🗣️ Модель | SO-VITS-SVC 4.1 (Whisper PPG Large V2) |
+| 📊 Датасет | **1,259 сэмплов** (очищены вручную — без шумов, пауз, посторонних звуков) |
+| ⏱️ Объём сырого аудио | ≈ 2–3 часа |
+| 🔁 Шагов обучения | **30,400** (полный цикл) |
+| 🧠 Энкодер | `Whisper PPG Large V2` (1280 dims) |
+| 🎵 F0 Predictor | `crepe` (самый точный) |
+| 📉 Финальный learning rate | `0.00001` — ювелирная подстройка, чтобы не переучить тембр |
+| 🧩 Вокодер | NSF-HiFiGAN |
+**Результат:** модель узнаваема, не сливается с датасетом, отлично передаёт манеру оригинала.
 ---
+## ⚙️ Требования для запуска (любая модель)
+- **Whisper** (`large-v2.pt`) — для 4.1
+- **ContentVec** (`pytorch_model.bin`) — для Diff-SVC и DDSP
+- **NSF-HiFiGAN** — универсальный вокодер (нужен всем)
 ---
+## 💎 Золотой пресет (для 4.1)
+- **Index Rate:** `0.45 – 0.55`
+- **F0 Predictor:** `crepe`
+- **Feature Retrieval:** рекомендуется `k=50–100` соседей
+*Эти настройки дают максимум естественности.*
+---
+## 👤 Об авторе проекта
+**Diff_Ai05** (также известен как Kedo / 0qwpif / ii_Senya0)
+> Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в SVC.
+*Создано с любовью к деталям и живому звуку.*
 ---