0qwpifs commited on
Commit
0d860c8
·
verified ·
1 Parent(s): 30106b1

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +71 -33
README.md CHANGED
@@ -9,63 +9,101 @@ tags:
9
  - sovits
10
  - whisper
11
  - reflow
 
 
12
  - audio-processing
13
  ---
14
 
15
- # 🎙️ Diff_Ai05: Whisper PPG Large V2 (SO-VITS-SVC 4.1 FULL)
16
 
17
  ### 🚀 Попробовать и создать:
18
 
19
- | Цель | Ссылка на Colab |
20
- | :--- | :--- |
21
- | **🎧 Послушать голос автора / Сделать кавер** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) |
22
- | **🧠 Создать свой голос с нуля (Обучение / Продолжение / Сделать кавер)** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) |
 
 
23
 
24
  ---
25
 
26
- ## 📄 О модели
27
- Это высокоточная модель голоса, обученная на базе архитектуры **SO-VITS-SVC 4.1 Reflow**.
28
- Цель данной модели — передача максимально естественного, мягкого и «живого» тембра (**высокий лирический тенор**). Особое внимание уделено сохранению микро-интонаций, естественного дыхания и субтона (воздуха в голосе).
29
 
30
- ### 🛠 Спецификации:
31
- * **Энкодер:** `Whisper PPG Large V2` (1280 dimensions) — обеспечивает беспрецедентную детализацию дикции.
32
- * **Архитектура:** 4.1 Stable / Reflow.
33
- * **Объем обучения:** 30,400 шагов (полный цикл).
34
- * **Learning Rate (LR):** Финальная «ювелирная» полировка на `0.00001` (1e-05).
35
- * **Датасет:** 1,259 очищенных вручную сэмплов высокого качества.
36
 
37
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
38
 
39
- ## ⚙️ Требования для запуска (ВАЖНО!)
40
- Для корректной работы модели (иза веса в 1280 дим.) в вашей сборке должны быть:
41
- 1. **Speech Encoder:** `Whisper PPG Large V2` (файл `large-v2.pt` в папке `pretrain`).
42
- 2. **Vocoder:** `nsf-hifigan` (в папке `pretrain/nsf_hifigan`).
 
 
 
43
 
44
  ---
45
 
46
- ## 💎 Золотой пресетецепт идеального звука)
47
- Для получения «того самого» живого звучания без эффекта пластика, используйте эти настройки:
 
48
 
49
- * **Index Rate:** `0.45 0.55` (идеальный баланс сходства и чистоты).
50
- * **Feature Retrieval Index:** Обязательно используйте приложенный `.pkl` файл.
51
- * **🔥 HACK (k-neighbors):** Для максимальной мягкости и «мяса» рекомендуется пропатчить инференс на **k=100** соседей (вместо стандартных 8).
52
- * **F0 Predictor:** `crepe` (обеспечивает самую чистую читку нот).
 
 
 
 
 
 
 
 
 
 
53
 
54
  ---
55
 
56
- ## 🎼 Сильные стороны
57
- * **Субтон:** Идеальная работа с шепотом и тихими переходами.
58
- * **Высокие ноты:** Стабильность тенора на верхних границах диапазона.
59
- * **Сложная фонетика:** Шипящие («ЧШ», «СС», «ТТС») звучат чисто и естественно.
60
 
61
  ---
62
 
63
- ## 👤 Об авторе
64
- **Diff_Ai05** (также известный как **Kedo**, **0qwpif**, **ii_Senya0**)
65
- > Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в области SVC-технологий для достижения живого звука.
 
 
 
 
66
 
67
- *Создано с любовью к деталям и качеству звука.*
 
 
68
 
 
69
 
70
  ---
71
 
 
9
  - sovits
10
  - whisper
11
  - reflow
12
+ - ddsp
13
+ - diff-svc
14
  - audio-processing
15
  ---
16
 
17
+ # 🎙️ Diff_Ai05: Коллекция SVC-моделей
18
 
19
  ### 🚀 Попробовать и создать:
20
 
21
+ | Что | Модель | Ссылка |
22
+ | :--- | :--- | :--- |
23
+ | 🎧 **Послушать голос автора / Сделать кавер** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) |
24
+ | 🧠 **Обучение / Продолжение / Каверы** | SO-VITS-SVC 4.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) |
25
+ | 🐟 **Обучение / Продолжение / Каверы** | Diff-SVC V2 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1hhJLpLShaK-RJxN7JjQFSP9MJARgEbCo?usp=sharing) |
26
+ | 🎵 **Обучение / Продолжение / Каверы** | DDSP-SVC 6.1 | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1IKPMVV5oPPfyZWG5kUflrjurVu70bzDv?usp=sharing) |
27
 
28
  ---
29
 
30
+ ## 📄 О моделях (для всех)
 
 
31
 
32
+ ### 🎤 SO-VITS-SVC 4.1 (Whisper PPG Large V2)
 
 
 
 
 
33
 
34
+ **Что это?**
35
+ Одна из самых продвинутых моделей для замены голоса в пении. Она берёт эталонный голос и перекрашивает его в ваш тембр, сохраняя интонации, дыхание и эмоции.
36
+
37
+ **Почему Whisper PPG Large V2?**
38
+ В основе лежит нейросеть OpenAI **Whisper Large V2** — она обучена на **680 000 часов** речи со всего мира (98 языков). Обычно Whisper расшифровывает аудио, но в SVC мы берём его *внутреннее представление звука* (PPG — phonetic posteriorgram). Оно очень детальное: **1280 измерений** (против типичных 256–768).
39
+ Результат: голос звучит живо, не склеивается в «пластик» и не копирует чужих певцов — только ваш характер.
40
+
41
+ **Для кого?**
42
+ Для тех, кто ценит реализм и готов дать модели побольше вычислительных ресурсов. Идеально для песен с эмоциональными нюансами.
43
+
44
+ ### 🐟 Diff-SVC V2 (Fish Diffusion)
45
+
46
+ **Что это?**
47
+ Диффузионная модель — она работает как художник-реставратор: начинает с шума и постепенно «проявляет» чистый голос. Под капотом **Fish Diffusion**, специально заточенный под вокал.
48
+
49
+ **Плюсы:**
50
+ - Очень детальный, «дышащий» тембр
51
+ - Справляется даже с плохо вырезанными акапеллами
52
+ - Меньше артефактов на высоких нотах
53
+
54
+ ### 🎵 DDSP-SVC 6.1 (Rectified Flow)
55
 
56
+ **Что это?**
57
+ Самый лёгкий и шустрый вариант. Комбинация **DDSP** (разлагает звук на синтезируемые компоненты) и **Rectified Flow** (новый умный способ учиться).
58
+
59
+ **Плюсы:**
60
+ - Работает даже на слабых видеокартах (например, 4–6 GB VRAM)
61
+ - Почти мгновенные инференс (обработка)
62
+ - Отличный баланс скорости и качества
63
 
64
  ---
65
 
66
+ ## 🧪 О датасете и обучении голоса автора (технические детали)
67
+
68
+ > Это информация **только об этой конкретной модели голоса** — чтобы не смешивать с общим описанием технологий.
69
 
70
+ **Голос автора (Diff_Ai05 / Kedo) обучен на:**
71
+
72
+ | Параметр | Значение |
73
+ | :--- | :--- |
74
+ | 🗣️ Модель | SO-VITS-SVC 4.1 (Whisper PPG Large V2) |
75
+ | 📊 Датасет | **1,259 сэмплов** (очищены вручную — без шумов, пауз, посторонних звуков) |
76
+ | ⏱️ Объём сырого аудио | ≈ 2–3 часа |
77
+ | 🔁 Шагов обучения | **30,400** (полный цикл) |
78
+ | 🧠 Энкодер | `Whisper PPG Large V2` (1280 dims) |
79
+ | 🎵 F0 Predictor | `crepe` (самый точный) |
80
+ | 📉 Финальный learning rate | `0.00001` — ювелирная подстройка, чтобы не переучить тембр |
81
+ | 🧩 Вокодер | NSF-HiFiGAN |
82
+
83
+ **Результат:** модель узнаваема, не сливается с датасетом, отлично передаёт манеру оригинала.
84
 
85
  ---
86
 
87
+ ## ⚙️ Требования для запуска (любая модель)
88
+ - **Whisper** (`large-v2.pt`) — для 4.1
89
+ - **ContentVec** (`pytorch_model.bin`) для Diff-SVC и DDSP
90
+ - **NSF-HiFiGAN** — универсальный вокодер (нужен всем)
91
 
92
  ---
93
 
94
+ ## 💎 Золотой пресет (для 4.1)
95
+ - **Index Rate:** `0.45 – 0.55`
96
+ - **F0 Predictor:** `crepe`
97
+ - **Feature Retrieval:** рекомендуется `k=50–100` соседей
98
+ *Эти настройки дают максимум естественности.*
99
+
100
+ ---
101
 
102
+ ## 👤 Об авторе проекта
103
+ **Diff_Ai05** (также известен как Kedo / 0qwpif / ii_Senya0)
104
+ > Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в SVC.
105
 
106
+ *Создано с любовью к деталям и живому звуку.*
107
 
108
  ---
109