0qwpifs
/

Diff_Ai05-SVC

@@ -9,44 +9,59 @@ tags:
 - sovits
 - whisper
 - reflow
 ---
-# 🎤 Diff_Ai05_Whisper_PPG_Large_V2_4.1_FULL
-[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing)
-Это высокоточная модель голоса, обученная на базе архитектуры **SO-VITS-SVC 4.1 Reflow**. Модель создана для передачи максимально естественного, мягкого и «живого» тембра (лирический тенор), сохраняя все микро-интонации и воздух (субтон).
-### 🛠 Спецификации модели:
-*   **Энкодер:** Whisper PPG Large V2 (1280 dimensions) — обеспечивает максимальную детализацию звука.
 *   **Архитектура:** 4.1 Stable / Reflow.
-*   **Шаги обучения:** 30,400 шагов.
-*   **Learning Rate (LR):** Ювелирная полировка на `0.00001` (1e-05) после 15,200 шагов.
-*   **Датасет:** 1,259 очищенных высококачественных файлов (высокий лирический тенор).
-### ⚙️ Требования для запуска (ВАЖНО!):
-Чтобы модель звучала корректно и вообще запустилась, в вашей сборке SO-VITS-SVC 4.1 должны быть установлены правильные базовые файлы:
-*   **Speech Encoder:** `Whisper PPG Large V2` (Файл `large-v2.pt` должен лежать в папке `pretrain`).
-*   **Vocoder:** `nsf-hifigan` (Стандартный вокодер от OpenVPI, должен лежать в `pretrain/nsf_hifigan`).
-*Без Whisper Large V2 модель выдаст ошибку размерности (1280), а без NSF-HiFiGAN голос потеряет свою мягкость.*
-### 💎 Золотой пресет (Рецепт идеального звука):
-Для достижения того самого «живого» и «милого» звучания без пластика, рекомендуется использовать следующие настройки при инференсе:
-1.  **Index Rate:** `0.45` - `0.55` (это золотая середина для этой модели).
-2.  **Feature Retrieval Index:** Обязательно используйте приложенный файл `.pkl` (51 MB).
-3.  **HACK (k-neighbors):** Для максимальной плотности («мяса») и мягкости воздуха рекомендуется пропатчить инференс на **k=100** соседей (вместо стандартных 8).
-4.  **F0 Predictor:** `crepe` (дает самую чистую читку нот для этого тембра).
-### 🎼 Особенности звучания:
-Модель идеально справляется с:
-*   **Субтоном** (шепот, переходящий в тихий голос).
-*   **Высокими нотами** лирического тенора.
-*   **Сложной дикцией** (шипящие «ЧШ», «СС», «ТТС» звучат как живые за счет индекса k=100).
 ---
-**Другие никнеймы создателя: Diff_Ai05 \ 0qwpif \ ii_Senya0**
-*Создано с любовью к качеству звука.*

 - sovits
 - whisper
 - reflow
+- audio-processing
 ---
+# 🎙️ Diff_Ai05: Whisper PPG Large V2 (SO-VITS-SVC 4.1 FULL)
+### 🚀 Попробовать и создать:
+| Цель | Ссылка на Colab |
+| :--- | :--- |
+| **🎧 Послушать голос автора / Сделать кавер** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1Bu54my9hrb4QdXVIHrAY56TYxssly-AY?usp=sharing) |
+| **🧠 Создать свой голос с нуля (Обучение / Продолжение / Сделать кавер)** | [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1fqSEWPB7iwNHf8-SSOpElk1yKhH1PWBJ?usp=sharing) |
+---
+## 📄 О модели
+Это высокоточная модель голоса, обученная на базе архитектуры **SO-VITS-SVC 4.1 Reflow**.
+Цель данной модели — передача максимально естественного, мягкого и «живого» тембра (**высокий лирический тенор**). Особое внимание уделено сохранению микро-интонаций, естественного дыхания и субтона (воздуха в голосе).
+### 🛠 Спецификации:
+*   **Энкодер:** `Whisper PPG Large V2` (1280 dimensions) — обеспечивает беспрецедентную детализацию дикции.
 *   **Архитектура:** 4.1 Stable / Reflow.
+*   **Объем обучения:** 30,400 шагов (полный цикл).
+*   **Learning Rate (LR):** Финальная «ювелирная» полировка на `0.00001` (1e-05).
+*   **Датасет:** 1,259 очищенных вручную сэмплов высокого качества.
+---
+## ⚙️ Требования для запуска (ВАЖНО!)
+Для корректной работы модели (из-за веса в 1280 дим.) в вашей сборке должны быть:
+1.  **Speech Encoder:** `Whisper PPG Large V2` (файл `large-v2.pt` в папке `pretrain`).
+2.  **Vocoder:** `nsf-hifigan` (в папке `pretrain/nsf_hifigan`).
+---
+## 💎 Золотой пресет (Рецепт идеального звука)
+Для получения «того самого» живого звучания без эффекта пластика, используйте эти настройки:
+*   **Index Rate:** `0.45 — 0.55` (идеальный баланс сходства и чистоты).
+*   **Feature Retrieval Index:** Обязательно используйте приложенный `.pkl` файл.
+*   **🔥 HACK (k-neighbors):** Для максимальной мягкости и «мяса» рекомендуется пропатчить инференс на **k=100** соседей (вместо стандартных 8).
+*   **F0 Predictor:** `crepe` (обеспечивает самую чистую читку нот).
+---
+## 🎼 Сильные стороны
+*   **Субтон:** Идеальная работа с шепотом и тихими переходами.
+*   **Высокие ноты:** Стабильность тенора на верхних границах диапазона.
+*   **Сложная фонетика:** Шипящие («ЧШ», «СС», «ТТС») звучат чисто и естественно.
 ---
+## 👤 Об авторе
+**Diff_Ai05** (также известный как **Kedo**, **0qwpif**, **ii_Senya0**)
+> Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в области SVC-технологий для достижения живого звука.
+*Создано с любовью к деталям и качеству звука.*