HayaKoe Models
KR | 한국어
HayaKoe의 사전학습 모델 저장소입니다. Style-Bert-VITS2 기반 일본어 TTS 모델을 PyTorch와 ONNX 형식으로 제공합니다.
구조
pretrained/ # 파인튜닝용 베이스 모델 (JP-Extra)
├── G_0.safetensors # Generator (279MB)
├── D_0.safetensors # Discriminator (178MB)
└── WD_0.safetensors # WavLM Discriminator (4.5MB)
pytorch/
├── bert/ # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│ ├── fp32/ # 원본 (1.3GB)
│ ├── fp16/ # 반정밀도 (629MB) — VRAM 절감용
│ └── q8/ # INT8 동적 양자화 (413MB) — CPU 메모리 절감용
└── speakers/ # 화자 모델 (safetensors)
├── jvnv-F1-jp/
├── jvnv-F2-jp/
├── jvnv-M1-jp/
├── jvnv-M2-jp/
├── tsukuyomi_chan/
└── amitaro_*/
onnx/
├── bert/ # ONNX 변환 BERT
│ ├── fp32/ # FP32 ONNX (1.2GB)
│ └── q8/ # INT8 양자화 (498MB)
└── speakers/ # ONNX 변환 Synthesizer
└── */
├── synthesizer.onnx # FP32 (239MB)
└── synthesizer_q8.onnx # INT8 (239MB)
사전학습 베이스 모델 (pretrained/)
새로운 화자를 파인튜닝할 때 사용하는 초기 가중치입니다. 랜덤 초기화 대신 이 모델에서 시작하면 2000 step 정도로도 빠르게 수렴합니다.
원본: litagin/Style-Bert-VITS2-2.0-base-JP-Extra
추천 조합
| 용도 | BERT | Synthesizer | 특징 |
|---|---|---|---|
| 빠른 CPU 추론 | onnx/bert/q8 |
onnx/speakers/*/synthesizer.onnx |
속도 1.6x, RAM 81% 절감 |
| GPU 추론 | pytorch/bert/fp16 |
pytorch/speakers/* |
VRAM 40% 절감 |
| 연구/실험 | pytorch/bert/fp32 |
pytorch/speakers/* |
원본 그대로 |
Synthesizer FP16 미제공 안내
Synthesizer(VITS)의 Flow 레이어에 포함된 rational_quadratic_spline 함수가 반정밀도(FP16)에서 discriminant < 0 assertion 오류를 발생시킵니다. 따라서 Synthesizer는 반드시 FP32로 사용해야 하며, FP16 변환 모델은 제공하지 않습니다.
화자
JVNV
JVNV Corpus 기반 사전학습 화자 모델입니다. 파인튜닝 없이 바로 추론에 사용할 수 있습니다.
| 화자 | 성별 | 스타일 |
|---|---|---|
| jvnv-F1-jp | 여성 | Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise |
| jvnv-F2-jp | 여성 | 동일 |
| jvnv-M1-jp | 남성 | 동일 |
| jvnv-M2-jp | 남성 | 동일 |
つくよみちゃん (Tsukuyomi-chan)
つくよみちゃんコーパス Vol.1 (CV.夢前黎) 기반 파인튜닝 화자 모델입니다. 고음 위스퍼 계열의 애니메이션 캐릭터풍 여성 보이스입니다.
| 화자 | 성별 | 스타일 |
|---|---|---|
| tsukuyomi_chan | 여성 | Neutral |
본 모델의 음성합성에는 つくよみちゃん(© Rei Yumesaki)의 무료 공개 캐릭터 음성 데이터를 사용하고 있습니다. つくよみちゃんコーパス(CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/
あみたろ (Amitaro)
あみたろの声素材工房 ITAコーパス読み上げ음성 기반 파인튜닝 화자 모델입니다. 동일 화자의 6가지 스타일을 독립 모델로 제공합니다.
| 화자 | 스타일 | 설명 |
|---|---|---|
| amitaro_normal | ノーマル | 정확한 발음, TTS 최적화 |
| amitaro_runrun | るんるん | 자연스럽고 친근한 톤 |
| amitaro_yofukashi | よふかし | 차분한 라디오풍 |
| amitaro_punsuka | ぷんすか | 귀여운 화난 목소리 |
| amitaro_sasayaki_a | ささやきA | 강한 속삭임 |
| amitaro_sasayaki_b | ささやきB | 약한 속삭임 |
본 모델의 음성합성에는 あみたろの声素材工房(https://amitaro.net/)의 ITAコーパス読み上げ음성을 사용하고 있습니다.
EN | English
Pre-trained model repository for HayaKoe, a fast ONNX-optimized Japanese TTS based on Style-Bert-VITS2.
Structure
pretrained/ # Base models for fine-tuning (JP-Extra)
├── G_0.safetensors # Generator (279MB)
├── D_0.safetensors # Discriminator (178MB)
└── WD_0.safetensors # WavLM Discriminator (4.5MB)
pytorch/
├── bert/ # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│ ├── fp32/ # Original (1.3GB)
│ ├── fp16/ # Half precision (629MB) — reduces VRAM
│ └── q8/ # INT8 dynamic quantization (413MB) — reduces CPU RAM
└── speakers/ # Speaker models (safetensors)
├── jvnv-*/
├── tsukuyomi_chan/
└── amitaro_*/
onnx/
├── bert/ # ONNX-converted BERT
│ ├── fp32/ # FP32 ONNX (1.2GB)
│ └── q8/ # INT8 quantized (498MB)
└── speakers/ # ONNX-converted Synthesizer
└── */
├── synthesizer.onnx # FP32 (239MB)
└── synthesizer_q8.onnx # INT8 (239MB)
Pretrained Base Models (pretrained/)
Initial weights for fine-tuning new speakers. Starting from these pretrained weights instead of random initialization allows convergence in as few as 2000 steps.
Source: litagin/Style-Bert-VITS2-2.0-base-JP-Extra
Recommended Configurations
| Use Case | BERT | Synthesizer | Notes |
|---|---|---|---|
| Fast CPU inference | onnx/bert/q8 |
onnx/speakers/*/synthesizer.onnx |
1.6x speedup, 81% RAM reduction |
| GPU inference | pytorch/bert/fp16 |
pytorch/speakers/* |
40% VRAM reduction |
| Research | pytorch/bert/fp32 |
pytorch/speakers/* |
Original weights |
Why No Synthesizer FP16?
The rational_quadratic_spline function in the VITS Flow layer triggers a discriminant < 0 assertion error under half precision (FP16). Synthesizer must remain FP32. No FP16 variant is provided.
Speakers
JVNV
Pre-trained speaker models from the JVNV Corpus. Ready for inference without fine-tuning.
| Speaker | Gender | Styles |
|---|---|---|
| jvnv-F1-jp | Female | Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise |
| jvnv-F2-jp | Female | Same |
| jvnv-M1-jp | Male | Same |
| jvnv-M2-jp | Male | Same |
Tsukuyomi-chan (つくよみちゃん)
Fine-tuned speaker model based on Tsukuyomi-chan Corpus Vol.1 (CV. Rei Yumesaki). A high-pitched, whisper-style anime character female voice.
| Speaker | Gender | Styles |
|---|---|---|
| tsukuyomi_chan | Female | Neutral |
This model uses the free character voice data of つくよみちゃん (© Rei Yumesaki) for speech synthesis. つくよみちゃんコーパス (CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/
Amitaro (あみたろ)
Fine-tuned speaker models based on あみたろの声素材工房 ITA Corpus readings. Six styles from the same speaker, provided as independent models.
| Speaker | Style | Description |
|---|---|---|
| amitaro_normal | ノーマル | Clear pronunciation, TTS-optimized |
| amitaro_runrun | るんるん | Natural, friendly tone |
| amitaro_yofukashi | よふかし | Calm, radio-style |
| amitaro_punsuka | ぷんすか | Cute angry voice |
| amitaro_sasayaki_a | ささやきA | Strong whisper |
| amitaro_sasayaki_b | ささやきB | Soft whisper |
This model uses ITA Corpus reading voice data from あみたろの声素材工房 (https://amitaro.net/) for speech synthesis.
JP | 日本語
HayaKoeの事前学習モデルリポジトリです。Style-Bert-VITS2ベースの日本語TTSモデルをPyTorchとONNX形式で提供します。
構成
pretrained/ # ファインチューニング用ベースモデル (JP-Extra)
├── G_0.safetensors # Generator (279MB)
├── D_0.safetensors # Discriminator (178MB)
└── WD_0.safetensors # WavLM Discriminator (4.5MB)
pytorch/
├── bert/ # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│ ├── fp32/ # オリジナル (1.3GB)
│ ├── fp16/ # 半精度 (629MB) — VRAM削減用
│ └── q8/ # INT8動的量子化 (413MB) — CPUメモリ削減用
└── speakers/ # 話者モデル (safetensors)
├── jvnv-*/
├── tsukuyomi_chan/
└── amitaro_*/
onnx/
├── bert/ # ONNX変換BERT
│ ├── fp32/ # FP32 ONNX (1.2GB)
│ └── q8/ # INT8量子化 (498MB)
└── speakers/ # ONNX変換Synthesizer
└── */
├── synthesizer.onnx # FP32 (239MB)
└── synthesizer_q8.onnx # INT8 (239MB)
事前学習ベースモデル (pretrained/)
新しい話者のファインチューニングに使用する初期重みです。ランダム初期化の代わりにこのモデルから開始すると、約2000ステップで素早く収束します。
元モデル: litagin/Style-Bert-VITS2-2.0-base-JP-Extra
推奨構成
| 用途 | BERT | Synthesizer | 特徴 |
|---|---|---|---|
| 高速CPU推論 | onnx/bert/q8 |
onnx/speakers/*/synthesizer.onnx |
速度1.6倍、RAM 81%削減 |
| GPU推論 | pytorch/bert/fp16 |
pytorch/speakers/* |
VRAM 40%削減 |
| 研究 | pytorch/bert/fp32 |
pytorch/speakers/* |
オリジナル |
Synthesizer FP16非対応について
VITSのFlowレイヤーに含まれるrational_quadratic_spline関数が半精度(FP16)で判別式 < 0のアサーションエラーを発生させます。Synthesizerは必ずFP32で使用してください。FP16変換モデルは提供しません。
話者
JVNV
JVNVコーパスベースの事前学習話者モデルです。ファインチューニングなしで推論に使用できます。
| 話者 | 性別 | スタイル |
|---|---|---|
| jvnv-F1-jp | 女性 | Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise |
| jvnv-F2-jp | 女性 | 同上 |
| jvnv-M1-jp | 男性 | 同上 |
| jvnv-M2-jp | 男性 | 同上 |
つくよみちゃん (Tsukuyomi-chan)
つくよみちゃんコーパス Vol.1 (CV.夢前黎) をベースにファインチューニングした話者モデルです。高音ウィスパー系のアニメキャラクター風女性ボイスです。
| 話者 | 性別 | スタイル |
|---|---|---|
| tsukuyomi_chan | 女性 | Neutral |
本ソフトウェアの音声合成にはつくよみちゃん(© Rei Yumesaki)の無料公開キャラクター音声データを使用しています。 つくよみちゃんコーパス(CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/
あみたろ (Amitaro)
あみたろの声素材工房 ITAコーパス読み上げ音声をベースにファインチューニングした話者モデルです。同一話者の6つのスタイルを独立モデルとして提供します。
| 話者 | スタイル | 説明 |
|---|---|---|
| amitaro_normal | ノーマル | 正確な発音、音声合成に最適化 |
| amitaro_runrun | るんるん | 自然で親しみやすいトーン |
| amitaro_yofukashi | よふかし | 落ち着いたラジオ風 |
| amitaro_punsuka | ぷんすか | かわいい怒り声 |
| amitaro_sasayaki_a | ささやきA | 強めのささやき |
| amitaro_sasayaki_b | ささやきB | 弱めのささやき |
本ソフトウェアの音声合成にはあみたろの声素材工房(https://amitaro.net/)のITAコーパス読み上げ音声を使用しています。
ZH | 中文
HayaKoe的预训练模型仓库。提供基于Style-Bert-VITS2的日语TTS模型,支持PyTorch和ONNX格式。
结构
pretrained/ # 微调用基础模型 (JP-Extra)
├── G_0.safetensors # Generator (279MB)
├── D_0.safetensors # Discriminator (178MB)
└── WD_0.safetensors # WavLM Discriminator (4.5MB)
pytorch/
├── bert/ # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│ ├── fp32/ # 原始 (1.3GB)
│ ├── fp16/ # 半精度 (629MB) — 减少VRAM
│ └── q8/ # INT8动态量化 (413MB) — 减少CPU内存
└── speakers/ # 说话人模型 (safetensors)
├── jvnv-*/
├── tsukuyomi_chan/
└── amitaro_*/
onnx/
├── bert/ # ONNX转换BERT
│ ├── fp32/ # FP32 ONNX (1.2GB)
│ └── q8/ # INT8量化 (498MB)
└── speakers/ # ONNX转换Synthesizer
└── */
├── synthesizer.onnx # FP32 (239MB)
└── synthesizer_q8.onnx # INT8 (239MB)
预训练基础模型 (pretrained/)
用于微调新说话人的初始权重。从预训练权重开始,而非随机初始化,仅需约2000步即可快速收敛。
来源: litagin/Style-Bert-VITS2-2.0-base-JP-Extra
推荐配置
| 用途 | BERT | Synthesizer | 特点 |
|---|---|---|---|
| 快速CPU推理 | onnx/bert/q8 |
onnx/speakers/*/synthesizer.onnx |
速度1.6倍,RAM减少81% |
| GPU推理 | pytorch/bert/fp16 |
pytorch/speakers/* |
VRAM减少40% |
| 研究 | pytorch/bert/fp32 |
pytorch/speakers/* |
原始权重 |
为什么没有Synthesizer FP16?
VITS Flow层中的rational_quadratic_spline函数在半精度(FP16)下会触发判别式 < 0的断言错误。Synthesizer必须使用FP32,不提供FP16转换模型。
说话人
JVNV
基于JVNV语料库的预训练说话人模型,无需微调即可直接用于推理。
| 说话人 | 性别 | 风格 |
|---|---|---|
| jvnv-F1-jp | 女 | Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise |
| jvnv-F2-jp | 女 | 同上 |
| jvnv-M1-jp | 男 | 同上 |
| jvnv-M2-jp | 男 | 同上 |
つくよみちゃん (Tsukuyomi-chan)
基于つくよみちゃんコーパス Vol.1 (CV.夢前黎) 微调的说话人模型。高音耳语风格的动漫角色女性语音。
| 说话人 | 性别 | 风格 |
|---|---|---|
| tsukuyomi_chan | 女 | Neutral |
本模型的语音合成使用了つくよみちゃん(© Rei Yumesaki)的免费公开角色语音数据。 つくよみちゃんコーパス(CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/
あみたろ (Amitaro)
基于あみたろの声素材工房 ITA语料库朗读语音微调的说话人模型。同一说话人的6种风格作为独立模型提供。
| 说话人 | 风格 | 说明 |
|---|---|---|
| amitaro_normal | ノーマル | 准确发音,TTS优化 |
| amitaro_runrun | るんるん | 自然亲切的语调 |
| amitaro_yofukashi | よふかし | 沉稳的广播风格 |
| amitaro_punsuka | ぷんすか | 可爱的生气声音 |
| amitaro_sasayaki_a | ささやきA | 较强的耳语 |
| amitaro_sasayaki_b | ささやきB | 较弱的耳语 |
本模型的语音合成使用了あみたろの声素材工房(https://amitaro.net/)的ITA语料库朗读语音数据。
License
- HayaKoe: AGPL-3.0
- Pretrained Base Models (JP-Extra): AGPL-3.0 — redistributed from litagin/Style-Bert-VITS2-2.0-base-JP-Extra
- Style-Bert-VITS2 by litagin02
- Bert-VITS2 by Fish Audio
- Original JP-Extra base model by Stardust-minus
- BERT (DeBERTa v2): CC-BY-SA-4.0 (ku-nlp/deberta-v2-large-japanese-char-wwm)
- JVNV Speaker Models: CC-BY-SA-4.0 (litagin/style_bert_vits2_jvnv)
- Tsukuyomi-chan Speaker Model: CC-BY-SA-4.0 — fine-tuned using つくよみちゃんコーパス Vol.1 (CV.夢前黎, © Rei Yumesaki)
- Amitaro Speaker Models: CC-BY-SA-4.0 — fine-tuned using ITA Corpus readings from あみたろの声素材工房
- Style-Bert-VITS2: AGPL-3.0 (litagin02/Style-Bert-VITS2)
Additional Restrictions (applies to all speaker models)
- No use in age-restricted (adult/NSFW) content — 성인 제한 콘텐츠 사용 금지 / 年齢制限作品への使用禁止 / 禁止用于年龄限制内容
- No use in political, religious, or hate speech content — 정치/종교/혐오 콘텐츠 사용 금지 / 政治・宗教・ヘイト目的での使用禁止 / 禁止用于政治、宗教或仇恨言论内容
- No use for the purpose of criticizing or attacking others — 타인 비판/공격 목적 사용 금지 / 他者の批判・攻撃を目的とした使用禁止 / 禁止用于批评或攻击他人