0qwpifs commited on
Commit
fc6fb3c
·
verified ·
1 Parent(s): 4404959

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +41 -26
README.md CHANGED
@@ -9,44 +9,59 @@ tags:
9
  - sovits
10
  - whisper
11
  - reflow
 
12
  ---
13
 
14
- # 🎤 Diff_Ai05_Whisper_PPG_Large_V2_4.1_FULL
15
 
16
- [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing)
17
 
 
 
 
 
18
 
19
- Это высокоточная модель голоса, обученная на базе архитектуры **SO-VITS-SVC 4.1 Reflow**. Модель создана для передачи максимально естественного, мягкого и «живого» тембра (лирический тенор), сохраняя все микро-интонации и воздух (субтон).
 
 
 
 
20
 
21
- ### 🛠 Спецификации модели:
22
- * **Энкодер:** Whisper PPG Large V2 (1280 dimensions) — обеспечивает максимальную детализацию звука.
23
  * **Архитектура:** 4.1 Stable / Reflow.
24
- * **Шаги обучения:** 30,400 шагов.
25
- * **Learning Rate (LR):** Ювелирная полировка на `0.00001` (1e-05) после 15,200 шагов.
26
- * **Датасет:** 1,259 очищенных высококачественных файлов (высокий лирический тенор).
 
 
27
 
28
- ### ⚙️ Требования для запуска (ВАЖНО!):
29
- Чтобы модель звучала корректно и вообще запустилась, в вашей сборке SO-VITS-SVC 4.1 должны быть установлены правильные базовые файлы:
30
- * **Speech Encoder:** `Whisper PPG Large V2` (Файл `large-v2.pt` должен лежать в папке `pretrain`).
31
- * **Vocoder:** `nsf-hifigan` (Стандартный вокодер от OpenVPI, должен лежать в `pretrain/nsf_hifigan`).
32
 
33
- *Без Whisper Large V2 модель выдаст ошибку размерности (1280), а без NSF-HiFiGAN голос потеряет свою мягкость.*
 
 
 
34
 
35
- ### 💎 Золотой пресет (Рецепт идеального звука):
36
- Для достижения того самого «живого» и «милого» звучания без пластика, рекомендуется использовать следующие настройки при инференсе:
 
 
37
 
38
- 1. **Index Rate:** `0.45` - `0.55` (это золотая середина для этой модели).
39
- 2. **Feature Retrieval Index:** Обязательно используйте приложенный файл `.pkl` (51 MB).
40
- 3. **HACK (k-neighbors):** Для максимальной плотности («мяса») и мягкости воздуха рекомендуется пропатчить инференс на **k=100** соседей (вместо стандартных 8).
41
- 4. **F0 Predictor:** `crepe` (дает самую чистую читку нот для этого тембра).
42
 
43
- ### 🎼 Особенности звучания:
44
- Модель идеально справляется с:
45
- * **Субтоном** (шепот, переходящий в тихий голос).
46
- * **Высокими нотами** лирического тенора.
47
- * **Сложной дикцией** (шипящие «ЧШ», «СС», «ТТС» звучат как живые за счет индекса k=100).
48
 
49
  ---
50
- **Другие никнеймы создателя: Diff_Ai05 \ 0qwpif \ ii_Senya0**
51
 
52
- *Создано с любовью к качеству звука.*
 
 
 
 
 
9
  - sovits
10
  - whisper
11
  - reflow
12
+ - audio-processing
13
  ---
14
 
15
+ # 🎙️ Diff_Ai05: Whisper PPG Large V2 (SO-VITS-SVC 4.1 FULL)
16
 
17
+ ### 🚀 Попробовать и создать:
18
 
19
+ | Цель | Ссылка на Colab |
20
+ | :--- | :--- |
21
+ | **🎧 Послушать голос автора / Сделать кавер** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) |
22
+ | **🧠 Создать свой голос с нуля (Обучение / Продолжение / Сделать кавер)** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) |
23
 
24
+ ---
25
+
26
+ ## 📄 О модели
27
+ Это высокоточная модель голоса, обученная на базе архитектуры **SO-VITS-SVC 4.1 Reflow**.
28
+ Цель данной модели — передача максимально естественного, мягкого и «живого» тембра (**высокий лирический тенор**). Особое внимание уделено сохранению микро-интонаций, естественного дыхания и субтона (воздуха в голосе).
29
 
30
+ ### 🛠 Спецификации:
31
+ * **Энкодер:** `Whisper PPG Large V2` (1280 dimensions) — обеспечивает беспрецедентную детализацию дикции.
32
  * **Архитектура:** 4.1 Stable / Reflow.
33
+ * **Объем обучения:** 30,400 шагов (полный цикл).
34
+ * **Learning Rate (LR):** Финальная «ювелирная» полировка на `0.00001` (1e-05).
35
+ * **Датасет:** 1,259 очищенных вручную сэмплов высокого качества.
36
+
37
+ ---
38
 
39
+ ## ⚙️ Требования для запуска (ВАЖНО!)
40
+ Для корректной работы модели за веса в 1280 дим.) в вашей сборке должны быть:
41
+ 1. **Speech Encoder:** `Whisper PPG Large V2` (файл `large-v2.pt` в папке `pretrain`).
42
+ 2. **Vocoder:** `nsf-hifigan` (в папке `pretrain/nsf_hifigan`).
43
 
44
+ ---
45
+
46
+ ## 💎 Золотой пресет (Рецепт идеального звука)
47
+ Для получения «того самого» живого звучания без эффекта пластика, используйте эти настройки:
48
 
49
+ * **Index Rate:** `0.45 0.55` (идеальный баланс сходства и чистоты).
50
+ * **Feature Retrieval Index:** Обязательно используйте приложенный `.pkl` файл.
51
+ * **🔥 HACK (k-neighbors):** Для максимальной мягкости и «мяса» рекомендуется пропатчить инференс на **k=100** соседей (вместо стандартных 8).
52
+ * **F0 Predictor:** `crepe` (обеспечивает самую чистую читку нот).
53
 
54
+ ---
 
 
 
55
 
56
+ ## 🎼 Сильные стороны
57
+ * **Субтон:** Идеальная работа с шепотом и тихими переходами.
58
+ * **Высокие ноты:** Стабильность тенора на верхних границах диапазона.
59
+ * **Сложная фонетика:** Шипящие («ЧШ», «СС», «ТТС») звучат чисто и естественно.
 
60
 
61
  ---
 
62
 
63
+ ## 👤 Об авторе
64
+ **Diff_Ai05** (также известный как **Kedo**, **0qwpif**, **ii_Senya0**)
65
+ > Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в области SVC-технологий для достижения живого звука.
66
+
67
+ *Создано с любовью к деталям и качеству звука.*