HayaKoe Models
KR | 한국어
HayaKoe의 사전학습 모델 저장소입니다. Style-Bert-VITS2 기반 일본어 TTS 모델을 PyTorch와 ONNX 형식으로 제공합니다.
구조
pytorch/
├── bert/ # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│ ├── fp32/ # 원본 (1.3GB)
│ ├── fp16/ # 반정밀도 (629MB) — VRAM 절감용
│ └── q8/ # INT8 동적 양자화 (413MB) — CPU 메모리 절감용
└── speakers/ # JVNV 화자 모델 (safetensors)
├── jvnv-F1-jp/
├── jvnv-F2-jp/
├── jvnv-M1-jp/
└── jvnv-M2-jp/
onnx/
├── bert/ # ONNX 변환 BERT
│ ├── fp32/ # FP32 ONNX (1.2GB)
│ └── q8/ # INT8 양자화 (498MB)
└── speakers/ # ONNX 변환 Synthesizer
└── jvnv-*/
├── synthesizer.onnx # FP32 (239MB)
└── synthesizer_q8.onnx # INT8 (239MB)
추천 조합
| 용도 | BERT | Synthesizer | 특징 |
|---|---|---|---|
| 빠른 CPU 추론 | onnx/bert/q8 |
onnx/speakers/*/synthesizer.onnx |
속도 1.6x, RAM 81% 절감 |
| GPU 추론 | pytorch/bert/fp16 |
pytorch/speakers/* |
VRAM 40% 절감 |
| 연구/실험 | pytorch/bert/fp32 |
pytorch/speakers/* |
원본 그대로 |
Synthesizer FP16 미제공 안내
Synthesizer(VITS)의 Flow 레이어에 포함된 rational_quadratic_spline 함수가 반정밀도(FP16)에서 discriminant < 0 assertion 오류를 발생시킵니다. 따라서 Synthesizer는 반드시 FP32로 사용해야 하며, FP16 변환 모델은 제공하지 않습니다.
화자 (JVNV)
JVNV Corpus 기반 사전학습 화자 모델입니다. 파인튜닝 없이 바로 추론에 사용할 수 있습니다.
| 화자 | 성별 | 스타일 |
|---|---|---|
| jvnv-F1-jp | 여성 | Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise |
| jvnv-F2-jp | 여성 | 동일 |
| jvnv-M1-jp | 남성 | 동일 |
| jvnv-M2-jp | 남성 | 동일 |
EN | English
Pre-trained model repository for HayaKoe, a fast ONNX-optimized Japanese TTS based on Style-Bert-VITS2.
Structure
pytorch/
├── bert/ # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│ ├── fp32/ # Original (1.3GB)
│ ├── fp16/ # Half precision (629MB) — reduces VRAM
│ └── q8/ # INT8 dynamic quantization (413MB) — reduces CPU RAM
└── speakers/ # JVNV speaker models (safetensors)
onnx/
├── bert/ # ONNX-converted BERT
│ ├── fp32/ # FP32 ONNX (1.2GB)
│ └── q8/ # INT8 quantized (498MB)
└── speakers/ # ONNX-converted Synthesizer
└── jvnv-*/
├── synthesizer.onnx # FP32 (239MB)
└── synthesizer_q8.onnx # INT8 (239MB)
Recommended Configurations
| Use Case | BERT | Synthesizer | Notes |
|---|---|---|---|
| Fast CPU inference | onnx/bert/q8 |
onnx/speakers/*/synthesizer.onnx |
1.6x speedup, 81% RAM reduction |
| GPU inference | pytorch/bert/fp16 |
pytorch/speakers/* |
40% VRAM reduction |
| Research | pytorch/bert/fp32 |
pytorch/speakers/* |
Original weights |
Why No Synthesizer FP16?
The rational_quadratic_spline function in the VITS Flow layer triggers a discriminant < 0 assertion error under half precision (FP16). Synthesizer must remain FP32. No FP16 variant is provided.
Speakers (JVNV)
Pre-trained speaker models from the JVNV Corpus. Ready for inference without fine-tuning.
| Speaker | Gender | Styles |
|---|---|---|
| jvnv-F1-jp | Female | Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise |
| jvnv-F2-jp | Female | Same |
| jvnv-M1-jp | Male | Same |
| jvnv-M2-jp | Male | Same |
JP | 日本語
HayaKoeの事前学習モデルリポジトリです。Style-Bert-VITS2ベースの日本語TTSモデルをPyTorchとONNX形式で提供します。
構成
pytorch/
├── bert/ # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│ ├── fp32/ # オリジナル (1.3GB)
│ ├── fp16/ # 半精度 (629MB) — VRAM削減用
│ └── q8/ # INT8動的量子化 (413MB) — CPUメモリ削減用
└── speakers/ # JVNV話者モデル (safetensors)
onnx/
├── bert/ # ONNX変換BERT
│ ├── fp32/ # FP32 ONNX (1.2GB)
│ └── q8/ # INT8量子化 (498MB)
└── speakers/ # ONNX変換Synthesizer
└── jvnv-*/
├── synthesizer.onnx # FP32 (239MB)
└── synthesizer_q8.onnx # INT8 (239MB)
推奨構成
| 用途 | BERT | Synthesizer | 特徴 |
|---|---|---|---|
| 高速CPU推論 | onnx/bert/q8 |
onnx/speakers/*/synthesizer.onnx |
速度1.6倍、RAM 81%削減 |
| GPU推論 | pytorch/bert/fp16 |
pytorch/speakers/* |
VRAM 40%削減 |
| 研究 | pytorch/bert/fp32 |
pytorch/speakers/* |
オリジナル |
Synthesizer FP16非対応について
VITSのFlowレイヤーに含まれるrational_quadratic_spline関数が半精度(FP16)で判別式 < 0のアサーションエラーを発生させます。Synthesizerは必ずFP32で使用してください。FP16変換モデルは提供しません。
話者 (JVNV)
JVNVコーパスベースの事前学習話者モデルです。ファインチューニングなしで推論に使用できます。
| 話者 | 性別 | スタイル |
|---|---|---|
| jvnv-F1-jp | 女性 | Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise |
| jvnv-F2-jp | 女性 | 同上 |
| jvnv-M1-jp | 男性 | 同上 |
| jvnv-M2-jp | 男性 | 同上 |
ZH | 中文
HayaKoe的预训练模型仓库。提供基于Style-Bert-VITS2的日语TTS模型,支持PyTorch和ONNX格式。
结构
pytorch/
├── bert/ # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│ ├── fp32/ # 原始 (1.3GB)
│ ├── fp16/ # 半精度 (629MB) — 减少VRAM
│ └── q8/ # INT8动态量化 (413MB) — 减少CPU内存
└── speakers/ # JVNV说话人模型 (safetensors)
onnx/
├── bert/ # ONNX转换BERT
│ ├── fp32/ # FP32 ONNX (1.2GB)
│ └── q8/ # INT8量化 (498MB)
└── speakers/ # ONNX转换Synthesizer
└── jvnv-*/
├── synthesizer.onnx # FP32 (239MB)
└── synthesizer_q8.onnx # INT8 (239MB)
推荐配置
| 用途 | BERT | Synthesizer | 特点 |
|---|---|---|---|
| 快速CPU推理 | onnx/bert/q8 |
onnx/speakers/*/synthesizer.onnx |
速度1.6倍,RAM减少81% |
| GPU推理 | pytorch/bert/fp16 |
pytorch/speakers/* |
VRAM减少40% |
| 研究 | pytorch/bert/fp32 |
pytorch/speakers/* |
原始权重 |
为什么没有Synthesizer FP16?
VITS Flow层中的rational_quadratic_spline函数在半精度(FP16)下会触发判别式 < 0的断言错误。Synthesizer必须使用FP32,不提供FP16转换模型。
说话人 (JVNV)
基于JVNV语料库的预训练说话人模型,无需微调即可直接用于推理。
| 说话人 | 性别 | 风格 |
|---|---|---|
| jvnv-F1-jp | 女 | Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise |
| jvnv-F2-jp | 女 | 同上 |
| jvnv-M1-jp | 男 | 同上 |
| jvnv-M2-jp | 男 | 同上 |
License
- HayaKoe: AGPL-3.0
- BERT (DeBERTa v2): CC-BY-SA-4.0 (ku-nlp/deberta-v2-large-japanese-char-wwm)
- JVNV Speaker Models: CC-BY-SA-4.0 (litagin/style_bert_vits2_jvnv)
- Style-Bert-VITS2: AGPL-3.0 (litagin02/Style-Bert-VITS2)