HayaKoe Models

KR | 한국어

HayaKoe의 사전학습 모델 저장소입니다. Style-Bert-VITS2 기반 일본어 TTS 모델을 PyTorch와 ONNX 형식으로 제공합니다.

구조

pretrained/             # 파인튜닝용 베이스 모델 (JP-Extra)
├── G_0.safetensors     # Generator (279MB)
├── D_0.safetensors     # Discriminator (178MB)
└── WD_0.safetensors    # WavLM Discriminator (4.5MB)

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # 원본 (1.3GB)
│   ├── fp16/       # 반정밀도 (629MB) — VRAM 절감용
│   └── q8/         # INT8 동적 양자화 (413MB) — CPU 메모리 절감용
└── speakers/       # 화자 모델 (safetensors)
    ├── jvnv-F1-jp/
    ├── jvnv-F2-jp/
    ├── jvnv-M1-jp/
    ├── jvnv-M2-jp/
    ├── tsukuyomi_chan/
    └── amitaro_*/

onnx/
├── bert/           # ONNX 변환 BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8 양자화 (498MB)
└── speakers/       # ONNX 변환 Synthesizer
    └── */
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

사전학습 베이스 모델 (pretrained/)

새로운 화자를 파인튜닝할 때 사용하는 초기 가중치입니다. 랜덤 초기화 대신 이 모델에서 시작하면 2000 step 정도로도 빠르게 수렴합니다.

원본: litagin/Style-Bert-VITS2-2.0-base-JP-Extra

용도	BERT	Synthesizer	특징
빠른 CPU 추론	`onnx/bert/q8`	`onnx/speakers/*/synthesizer.onnx`	속도 1.6x, RAM 81% 절감
GPU 추론	`pytorch/bert/fp16`	`pytorch/speakers/*`	VRAM 40% 절감
연구/실험	`pytorch/bert/fp32`	`pytorch/speakers/*`	원본 그대로

Synthesizer FP16 미제공 안내

Synthesizer(VITS)의 Flow 레이어에 포함된 rational_quadratic_spline 함수가 반정밀도(FP16)에서 discriminant < 0 assertion 오류를 발생시킵니다. 따라서 Synthesizer는 반드시 FP32로 사용해야 하며, FP16 변환 모델은 제공하지 않습니다.

화자

JVNV

JVNV Corpus 기반 사전학습 화자 모델입니다. 파인튜닝 없이 바로 추론에 사용할 수 있습니다.

화자	성별	스타일
jvnv-F1-jp	여성	Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp	여성	동일
jvnv-M1-jp	남성	동일
jvnv-M2-jp	남성	동일

つくよみちゃん (Tsukuyomi-chan)

つくよみちゃんコーパス Vol.1 (CV.夢前黎) 기반 파인튜닝 화자 모델입니다. 고음 위스퍼 계열의 애니메이션 캐릭터풍 여성 보이스입니다.

화자	성별	스타일
tsukuyomi_chan	여성	Neutral

본 모델의 음성합성에는 つくよみちゃん(© Rei Yumesaki)의 무료 공개 캐릭터 음성 데이터를 사용하고 있습니다. つくよみちゃんコーパス(CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/

あみたろ (Amitaro)

あみたろの声素材工房 ITAコーパス読み上げ음성 기반 파인튜닝 화자 모델입니다. 동일 화자의 6가지 스타일을 독립 모델로 제공합니다.

화자	스타일	설명
amitaro_normal	ノーマル	정확한 발음, TTS 최적화
amitaro_runrun	るんるん	자연스럽고 친근한 톤
amitaro_yofukashi	よふかし	차분한 라디오풍
amitaro_punsuka	ぷんすか	귀여운 화난 목소리
amitaro_sasayaki_a	ささやきA	강한 속삭임
amitaro_sasayaki_b	ささやきB	약한 속삭임

본 모델의 음성합성에는 あみたろの声素材工房(https://amitaro.net/)의 ITAコーパス読み上げ음성을 사용하고 있습니다.

EN | English

Pre-trained model repository for HayaKoe, a fast ONNX-optimized Japanese TTS based on Style-Bert-VITS2.

Structure

pretrained/             # Base models for fine-tuning (JP-Extra)
├── G_0.safetensors     # Generator (279MB)
├── D_0.safetensors     # Discriminator (178MB)
└── WD_0.safetensors    # WavLM Discriminator (4.5MB)

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # Original (1.3GB)
│   ├── fp16/       # Half precision (629MB) — reduces VRAM
│   └── q8/         # INT8 dynamic quantization (413MB) — reduces CPU RAM
└── speakers/       # Speaker models (safetensors)
    ├── jvnv-*/
    ├── tsukuyomi_chan/
    └── amitaro_*/

onnx/
├── bert/           # ONNX-converted BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8 quantized (498MB)
└── speakers/       # ONNX-converted Synthesizer
    └── */
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

Pretrained Base Models (pretrained/)

Initial weights for fine-tuning new speakers. Starting from these pretrained weights instead of random initialization allows convergence in as few as 2000 steps.

Source: litagin/Style-Bert-VITS2-2.0-base-JP-Extra

Recommended Configurations

Use Case	BERT	Synthesizer	Notes
Fast CPU inference	`onnx/bert/q8`	`onnx/speakers/*/synthesizer.onnx`	1.6x speedup, 81% RAM reduction
GPU inference	`pytorch/bert/fp16`	`pytorch/speakers/*`	40% VRAM reduction
Research	`pytorch/bert/fp32`	`pytorch/speakers/*`	Original weights

Why No Synthesizer FP16?

The rational_quadratic_spline function in the VITS Flow layer triggers a discriminant < 0 assertion error under half precision (FP16). Synthesizer must remain FP32. No FP16 variant is provided.

Speakers

JVNV

Pre-trained speaker models from the JVNV Corpus. Ready for inference without fine-tuning.

Speaker	Gender	Styles
jvnv-F1-jp	Female	Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp	Female	Same
jvnv-M1-jp	Male	Same
jvnv-M2-jp	Male	Same

Tsukuyomi-chan (つくよみちゃん)

Fine-tuned speaker model based on Tsukuyomi-chan Corpus Vol.1 (CV. Rei Yumesaki). A high-pitched, whisper-style anime character female voice.

Speaker	Gender	Styles
tsukuyomi_chan	Female	Neutral

This model uses the free character voice data of つくよみちゃん (© Rei Yumesaki) for speech synthesis. つくよみちゃんコーパス (CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/

Amitaro (あみたろ)

Fine-tuned speaker models based on あみたろの声素材工房 ITA Corpus readings. Six styles from the same speaker, provided as independent models.

Speaker	Style	Description
amitaro_normal	ノーマル	Clear pronunciation, TTS-optimized
amitaro_runrun	るんるん	Natural, friendly tone
amitaro_yofukashi	よふかし	Calm, radio-style
amitaro_punsuka	ぷんすか	Cute angry voice
amitaro_sasayaki_a	ささやきA	Strong whisper
amitaro_sasayaki_b	ささやきB	Soft whisper

This model uses ITA Corpus reading voice data from あみたろの声素材工房 (https://amitaro.net/) for speech synthesis.

JP | 日本語

HayaKoeの事前学習モデルリポジトリです。Style-Bert-VITS2ベースの日本語TTSモデルをPyTorchとONNX形式で提供します。

構成

pretrained/             # ファインチューニング用ベースモデル (JP-Extra)
├── G_0.safetensors     # Generator (279MB)
├── D_0.safetensors     # Discriminator (178MB)
└── WD_0.safetensors    # WavLM Discriminator (4.5MB)

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # オリジナル (1.3GB)
│   ├── fp16/       # 半精度 (629MB) — VRAM削減用
│   └── q8/         # INT8動的量子化 (413MB) — CPUメモリ削減用
└── speakers/       # 話者モデル (safetensors)
    ├── jvnv-*/
    ├── tsukuyomi_chan/
    └── amitaro_*/

onnx/
├── bert/           # ONNX変換BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8量子化 (498MB)
└── speakers/       # ONNX変換Synthesizer
    └── */
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

事前学習ベースモデル (pretrained/)

新しい話者のファインチューニングに使用する初期重みです。ランダム初期化の代わりにこのモデルから開始すると、約2000ステップで素早く収束します。

元モデル: litagin/Style-Bert-VITS2-2.0-base-JP-Extra

推奨構成

用途	BERT	Synthesizer	特徴
高速CPU推論	`onnx/bert/q8`	`onnx/speakers/*/synthesizer.onnx`	速度1.6倍、RAM 81%削減
GPU推論	`pytorch/bert/fp16`	`pytorch/speakers/*`	VRAM 40%削減
研究	`pytorch/bert/fp32`	`pytorch/speakers/*`	オリジナル

Synthesizer FP16非対応について

VITSのFlowレイヤーに含まれるrational_quadratic_spline関数が半精度(FP16)で判別式 < 0のアサーションエラーを発生させます。Synthesizerは必ずFP32で使用してください。FP16変換モデルは提供しません。

話者

JVNV

JVNVコーパスベースの事前学習話者モデルです。ファインチューニングなしで推論に使用できます。

話者	性別	スタイル
jvnv-F1-jp	女性	Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp	女性	同上
jvnv-M1-jp	男性	同上
jvnv-M2-jp	男性	同上

つくよみちゃん (Tsukuyomi-chan)

つくよみちゃんコーパス Vol.1 (CV.夢前黎) をベースにファインチューニングした話者モデルです。高音ウィスパー系のアニメキャラクター風女性ボイスです。

話者	性別	スタイル
tsukuyomi_chan	女性	Neutral

本ソフトウェアの音声合成にはつくよみちゃん(© Rei Yumesaki)の無料公開キャラクター音声データを使用しています。つくよみちゃんコーパス(CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/

あみたろ (Amitaro)

あみたろの声素材工房 ITAコーパス読み上げ音声をベースにファインチューニングした話者モデルです。同一話者の6つのスタイルを独立モデルとして提供します。

話者	スタイル	説明
amitaro_normal	ノーマル	正確な発音、音声合成に最適化
amitaro_runrun	るんるん	自然で親しみやすいトーン
amitaro_yofukashi	よふかし	落ち着いたラジオ風
amitaro_punsuka	ぷんすか	かわいい怒り声
amitaro_sasayaki_a	ささやきA	強めのささやき
amitaro_sasayaki_b	ささやきB	弱めのささやき

本ソフトウェアの音声合成にはあみたろの声素材工房(https://amitaro.net/)のITAコーパス読み上げ音声を使用しています。

ZH | 中文

HayaKoe的预训练模型仓库。提供基于Style-Bert-VITS2的日语TTS模型，支持PyTorch和ONNX格式。

结构

pretrained/             # 微调用基础模型 (JP-Extra)
├── G_0.safetensors     # Generator (279MB)
├── D_0.safetensors     # Discriminator (178MB)
└── WD_0.safetensors    # WavLM Discriminator (4.5MB)

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # 原始 (1.3GB)
│   ├── fp16/       # 半精度 (629MB) — 减少VRAM
│   └── q8/         # INT8动态量化 (413MB) — 减少CPU内存
└── speakers/       # 说话人模型 (safetensors)
    ├── jvnv-*/
    ├── tsukuyomi_chan/
    └── amitaro_*/

onnx/
├── bert/           # ONNX转换BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8量化 (498MB)
└── speakers/       # ONNX转换Synthesizer
    └── */
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

预训练基础模型 (pretrained/)

用于微调新说话人的初始权重。从预训练权重开始，而非随机初始化，仅需约2000步即可快速收敛。

来源: litagin/Style-Bert-VITS2-2.0-base-JP-Extra

用途	BERT	Synthesizer	特点
快速CPU推理	`onnx/bert/q8`	`onnx/speakers/*/synthesizer.onnx`	速度1.6倍，RAM减少81%
GPU推理	`pytorch/bert/fp16`	`pytorch/speakers/*`	VRAM减少40%
研究	`pytorch/bert/fp32`	`pytorch/speakers/*`	原始权重

为什么没有Synthesizer FP16？

VITS Flow层中的rational_quadratic_spline函数在半精度(FP16)下会触发判别式 < 0的断言错误。Synthesizer必须使用FP32，不提供FP16转换模型。

说话人

JVNV

基于JVNV语料库的预训练说话人模型，无需微调即可直接用于推理。

说话人	性别	风格
jvnv-F1-jp	女	Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp	女	同上
jvnv-M1-jp	男	同上
jvnv-M2-jp	男	同上

つくよみちゃん (Tsukuyomi-chan)

基于つくよみちゃんコーパス Vol.1 (CV.夢前黎) 微调的说话人模型。高音耳语风格的动漫角色女性语音。

说话人	性别	风格
tsukuyomi_chan	女	Neutral

本模型的语音合成使用了つくよみちゃん(© Rei Yumesaki)的免费公开角色语音数据。つくよみちゃんコーパス(CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/

あみたろ (Amitaro)

基于あみたろの声素材工房 ITA语料库朗读语音微调的说话人模型。同一说话人的6种风格作为独立模型提供。

说话人	风格	说明
amitaro_normal	ノーマル	准确发音，TTS优化
amitaro_runrun	るんるん	自然亲切的语调
amitaro_yofukashi	よふかし	沉稳的广播风格
amitaro_punsuka	ぷんすか	可爱的生气声音
amitaro_sasayaki_a	ささやきA	较强的耳语
amitaro_sasayaki_b	ささやきB	较弱的耳语

本模型的语音合成使用了あみたろの声素材工房(https://amitaro.net/)的ITA语料库朗读语音数据。

License

HayaKoe: AGPL-3.0
Pretrained Base Models (JP-Extra): AGPL-3.0 — redistributed from litagin/Style-Bert-VITS2-2.0-base-JP-Extra
- Style-Bert-VITS2 by litagin02
- Bert-VITS2 by Fish Audio
- Original JP-Extra base model by Stardust-minus
BERT (DeBERTa v2): CC-BY-SA-4.0 (ku-nlp/deberta-v2-large-japanese-char-wwm)
JVNV Speaker Models: CC-BY-SA-4.0 (litagin/style_bert_vits2_jvnv)
Amitaro Speaker Models: CC-BY-SA-4.0 — fine-tuned using ITA Corpus readings from あみたろの声素材工房
Style-Bert-VITS2: AGPL-3.0 (litagin02/Style-Bert-VITS2)

Additional Restrictions (applies to all speaker models)

No use in age-restricted (adult/NSFW) content — 성인 제한 콘텐츠 사용 금지 / 年齢制限作品への使用禁止 / 禁止用于年龄限制内容
No use in political, religious, or hate speech content — 정치/종교/혐오 콘텐츠 사용 금지 / 政治・宗教・ヘイト目的での使用禁止 / 禁止用于政治、宗教或仇恨言论内容
No use for the purpose of criticizing or attacking others — 타인 비판/공격 목적 사용 금지 / 他者の批判・攻撃を目的とした使用禁止 / 禁止用于批评或攻击他人

Downloads last month: -; Downloads are not tracked for this model. How to track

lemondouble
/

hayakoe

HayaKoe Models

KR | 한국어

구조

사전학습 베이스 모델 (pretrained/)

추천 조합

Synthesizer FP16 미제공 안내

화자

JVNV

つくよみちゃん (Tsukuyomi-chan)

あみたろ (Amitaro)

EN | English

Structure

Pretrained Base Models (pretrained/)

Recommended Configurations

Why No Synthesizer FP16?

Speakers

JVNV

Tsukuyomi-chan (つくよみちゃん)

Amitaro (あみたろ)

JP | 日本語

構成

事前学習ベースモデル (pretrained/)

推奨構成

Synthesizer FP16非対応について

話者

JVNV

つくよみちゃん (Tsukuyomi-chan)

あみたろ (Amitaro)

ZH | 中文

结构

预训练基础模型 (pretrained/)

推荐配置

为什么没有Synthesizer FP16？

说话人

JVNV

つくよみちゃん (Tsukuyomi-chan)

あみたろ (Amitaro)

License

Additional Restrictions (applies to all speaker models)