HayaKoe Models

KR | 한국어

HayaKoe의 사전학습 모델 저장소입니다. Style-Bert-VITS2 기반 일본어 TTS 모델을 PyTorch와 ONNX 형식으로 제공합니다.

구조

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # 원본 (1.3GB)
│   ├── fp16/       # 반정밀도 (629MB) — VRAM 절감용
│   └── q8/         # INT8 동적 양자화 (413MB) — CPU 메모리 절감용
└── speakers/       # JVNV 화자 모델 (safetensors)
    ├── jvnv-F1-jp/
    ├── jvnv-F2-jp/
    ├── jvnv-M1-jp/
    └── jvnv-M2-jp/

onnx/
├── bert/           # ONNX 변환 BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8 양자화 (498MB)
└── speakers/       # ONNX 변환 Synthesizer
    └── jvnv-*/
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

추천 조합

용도 BERT Synthesizer 특징
빠른 CPU 추론 onnx/bert/q8 onnx/speakers/*/synthesizer.onnx 속도 1.6x, RAM 81% 절감
GPU 추론 pytorch/bert/fp16 pytorch/speakers/* VRAM 40% 절감
연구/실험 pytorch/bert/fp32 pytorch/speakers/* 원본 그대로

Synthesizer FP16 미제공 안내

Synthesizer(VITS)의 Flow 레이어에 포함된 rational_quadratic_spline 함수가 반정밀도(FP16)에서 discriminant < 0 assertion 오류를 발생시킵니다. 따라서 Synthesizer는 반드시 FP32로 사용해야 하며, FP16 변환 모델은 제공하지 않습니다.

화자 (JVNV)

JVNV Corpus 기반 사전학습 화자 모델입니다. 파인튜닝 없이 바로 추론에 사용할 수 있습니다.

화자 성별 스타일
jvnv-F1-jp 여성 Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp 여성 동일
jvnv-M1-jp 남성 동일
jvnv-M2-jp 남성 동일

EN | English

Pre-trained model repository for HayaKoe, a fast ONNX-optimized Japanese TTS based on Style-Bert-VITS2.

Structure

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # Original (1.3GB)
│   ├── fp16/       # Half precision (629MB) — reduces VRAM
│   └── q8/         # INT8 dynamic quantization (413MB) — reduces CPU RAM
└── speakers/       # JVNV speaker models (safetensors)

onnx/
├── bert/           # ONNX-converted BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8 quantized (498MB)
└── speakers/       # ONNX-converted Synthesizer
    └── jvnv-*/
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

Recommended Configurations

Use Case BERT Synthesizer Notes
Fast CPU inference onnx/bert/q8 onnx/speakers/*/synthesizer.onnx 1.6x speedup, 81% RAM reduction
GPU inference pytorch/bert/fp16 pytorch/speakers/* 40% VRAM reduction
Research pytorch/bert/fp32 pytorch/speakers/* Original weights

Why No Synthesizer FP16?

The rational_quadratic_spline function in the VITS Flow layer triggers a discriminant < 0 assertion error under half precision (FP16). Synthesizer must remain FP32. No FP16 variant is provided.

Speakers (JVNV)

Pre-trained speaker models from the JVNV Corpus. Ready for inference without fine-tuning.

Speaker Gender Styles
jvnv-F1-jp Female Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp Female Same
jvnv-M1-jp Male Same
jvnv-M2-jp Male Same

JP | 日本語

HayaKoeの事前学習モデルリポジトリです。Style-Bert-VITS2ベースの日本語TTSモデルをPyTorchとONNX形式で提供します。

構成

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # オリジナル (1.3GB)
│   ├── fp16/       # 半精度 (629MB) — VRAM削減用
│   └── q8/         # INT8動的量子化 (413MB) — CPUメモリ削減用
└── speakers/       # JVNV話者モデル (safetensors)

onnx/
├── bert/           # ONNX変換BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8量子化 (498MB)
└── speakers/       # ONNX変換Synthesizer
    └── jvnv-*/
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

推奨構成

用途 BERT Synthesizer 特徴
高速CPU推論 onnx/bert/q8 onnx/speakers/*/synthesizer.onnx 速度1.6倍、RAM 81%削減
GPU推論 pytorch/bert/fp16 pytorch/speakers/* VRAM 40%削減
研究 pytorch/bert/fp32 pytorch/speakers/* オリジナル

Synthesizer FP16非対応について

VITSのFlowレイヤーに含まれるrational_quadratic_spline関数が半精度(FP16)で判別式 < 0のアサーションエラーを発生させます。Synthesizerは必ずFP32で使用してください。FP16変換モデルは提供しません。

話者 (JVNV)

JVNVコーパスベースの事前学習話者モデルです。ファインチューニングなしで推論に使用できます。

話者 性別 スタイル
jvnv-F1-jp 女性 Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp 女性 同上
jvnv-M1-jp 男性 同上
jvnv-M2-jp 男性 同上

ZH | 中文

HayaKoe的预训练模型仓库。提供基于Style-Bert-VITS2的日语TTS模型,支持PyTorch和ONNX格式。

结构

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # 原始 (1.3GB)
│   ├── fp16/       # 半精度 (629MB) — 减少VRAM
│   └── q8/         # INT8动态量化 (413MB) — 减少CPU内存
└── speakers/       # JVNV说话人模型 (safetensors)

onnx/
├── bert/           # ONNX转换BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8量化 (498MB)
└── speakers/       # ONNX转换Synthesizer
    └── jvnv-*/
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

推荐配置

用途 BERT Synthesizer 特点
快速CPU推理 onnx/bert/q8 onnx/speakers/*/synthesizer.onnx 速度1.6倍,RAM减少81%
GPU推理 pytorch/bert/fp16 pytorch/speakers/* VRAM减少40%
研究 pytorch/bert/fp32 pytorch/speakers/* 原始权重

为什么没有Synthesizer FP16?

VITS Flow层中的rational_quadratic_spline函数在半精度(FP16)下会触发判别式 < 0的断言错误。Synthesizer必须使用FP32,不提供FP16转换模型。

说话人 (JVNV)

基于JVNV语料库的预训练说话人模型,无需微调即可直接用于推理。

说话人 性别 风格
jvnv-F1-jp Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp 同上
jvnv-M1-jp 同上
jvnv-M2-jp 同上

License

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support