Update README.md
Browse files
README.md
CHANGED
|
@@ -9,44 +9,59 @@ tags:
|
|
| 9 |
- sovits
|
| 10 |
- whisper
|
| 11 |
- reflow
|
|
|
|
| 12 |
---
|
| 13 |
|
| 14 |
-
#
|
| 15 |
|
| 16 |
-
|
| 17 |
|
|
|
|
|
|
|
|
|
|
|
|
|
| 18 |
|
| 19 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
| 20 |
|
| 21 |
-
### 🛠 Спецификации
|
| 22 |
-
* **Энкодер:** Whisper PPG Large V2 (1280 dimensions) — обеспечивает
|
| 23 |
* **Архитектура:** 4.1 Stable / Reflow.
|
| 24 |
-
* **
|
| 25 |
-
* **Learning Rate (LR):**
|
| 26 |
-
* **Датасет:** 1,259 очищенных в
|
|
|
|
|
|
|
| 27 |
|
| 28 |
-
##
|
| 29 |
-
|
| 30 |
-
*
|
| 31 |
-
*
|
| 32 |
|
| 33 |
-
|
|
|
|
|
|
|
|
|
|
| 34 |
|
| 35 |
-
|
| 36 |
-
|
|
|
|
|
|
|
| 37 |
|
| 38 |
-
|
| 39 |
-
2. **Feature Retrieval Index:** Обязательно используйте приложенный файл `.pkl` (51 MB).
|
| 40 |
-
3. **HACK (k-neighbors):** Для максимальной плотности («мяса») и мягкости воздуха рекомендуется пропатчить инференс на **k=100** соседей (вместо стандартных 8).
|
| 41 |
-
4. **F0 Predictor:** `crepe` (дает самую чистую читку нот для этого тембра).
|
| 42 |
|
| 43 |
-
##
|
| 44 |
-
|
| 45 |
-
* **
|
| 46 |
-
* **
|
| 47 |
-
* **Сложной дикцией** (шипящие «ЧШ», «СС», «ТТС» звучат как живые за счет индекса k=100).
|
| 48 |
|
| 49 |
---
|
| 50 |
-
**Другие никнеймы создателя: Diff_Ai05 \ 0qwpif \ ii_Senya0**
|
| 51 |
|
| 52 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 9 |
- sovits
|
| 10 |
- whisper
|
| 11 |
- reflow
|
| 12 |
+
- audio-processing
|
| 13 |
---
|
| 14 |
|
| 15 |
+
# 🎙️ Diff_Ai05: Whisper PPG Large V2 (SO-VITS-SVC 4.1 FULL)
|
| 16 |
|
| 17 |
+
### 🚀 Попробовать и создать:
|
| 18 |
|
| 19 |
+
| Цель | Ссылка на Colab |
|
| 20 |
+
| :--- | :--- |
|
| 21 |
+
| **🎧 Послушать голос автора / Сделать кавер** | [](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) |
|
| 22 |
+
| **🧠 Создать свой голос с нуля (Обучение / Продолжение / Сделать кавер)** | [](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) |
|
| 23 |
|
| 24 |
+
---
|
| 25 |
+
|
| 26 |
+
## 📄 О модели
|
| 27 |
+
Это высокоточная модель голоса, обученная на базе архитектуры **SO-VITS-SVC 4.1 Reflow**.
|
| 28 |
+
Цель данной модели — передача максимально естественного, мягкого и «живого» тембра (**высокий лирический тенор**). Особое внимание уделено сохранению микро-интонаций, естественного дыхания и субтона (воздуха в голосе).
|
| 29 |
|
| 30 |
+
### 🛠 Спецификации:
|
| 31 |
+
* **Энкодер:** `Whisper PPG Large V2` (1280 dimensions) — обеспечивает беспрецедентную детализацию дикции.
|
| 32 |
* **Архитектура:** 4.1 Stable / Reflow.
|
| 33 |
+
* **Объем обучения:** 30,400 шагов (полный цикл).
|
| 34 |
+
* **Learning Rate (LR):** Финальная «ювелирная» полировка на `0.00001` (1e-05).
|
| 35 |
+
* **Датасет:** 1,259 очищенных вручную сэмплов высокого качества.
|
| 36 |
+
|
| 37 |
+
---
|
| 38 |
|
| 39 |
+
## ⚙️ Требования для запуска (ВАЖНО!)
|
| 40 |
+
Для корректной работы модели (из-за веса в 1280 дим.) в вашей сборке должны быть:
|
| 41 |
+
1. **Speech Encoder:** `Whisper PPG Large V2` (файл `large-v2.pt` в папке `pretrain`).
|
| 42 |
+
2. **Vocoder:** `nsf-hifigan` (в папке `pretrain/nsf_hifigan`).
|
| 43 |
|
| 44 |
+
---
|
| 45 |
+
|
| 46 |
+
## 💎 Золотой пресет (Рецепт идеального звука)
|
| 47 |
+
Для получения «того самого» живого звучания без эффекта пластика, используйте эти настройки:
|
| 48 |
|
| 49 |
+
* **Index Rate:** `0.45 — 0.55` (идеальный баланс сходства и чистоты).
|
| 50 |
+
* **Feature Retrieval Index:** Обязательно используйте приложенный `.pkl` файл.
|
| 51 |
+
* **🔥 HACK (k-neighbors):** Для максимальной мягкости и «мяса» рекомендуется пропатчить инференс на **k=100** соседей (вместо стандартных 8).
|
| 52 |
+
* **F0 Predictor:** `crepe` (обеспечивает самую чистую читку нот).
|
| 53 |
|
| 54 |
+
---
|
|
|
|
|
|
|
|
|
|
| 55 |
|
| 56 |
+
## 🎼 Сильные стороны
|
| 57 |
+
* **Субтон:** Идеальная работа с шепотом и тихими переходами.
|
| 58 |
+
* **Высокие ноты:** Стабильность тенора на верхних границах диапазона.
|
| 59 |
+
* **Сложная фонетика:** Шипящие («ЧШ», «СС», «ТТС») звучат чисто и естественно.
|
|
|
|
| 60 |
|
| 61 |
---
|
|
|
|
| 62 |
|
| 63 |
+
## 👤 Об авторе
|
| 64 |
+
**Diff_Ai05** (также известный как **Kedo**, **0qwpif**, **ii_Senya0**)
|
| 65 |
+
> Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в области SVC-технологий для достижения живого звука.
|
| 66 |
+
|
| 67 |
+
*Создано с любовью к деталям и качеству звука.*
|