HayaKoe Models

KR | 한국어

HayaKoe의 사전학습 모델 저장소입니다. Style-Bert-VITS2 기반 일본어 TTS 모델을 PyTorch와 ONNX 형식으로 제공합니다.

구조

pretrained/             # 파인튜닝용 베이스 모델 (JP-Extra)
├── G_0.safetensors     # Generator (279MB)
├── D_0.safetensors     # Discriminator (178MB)
└── WD_0.safetensors    # WavLM Discriminator (4.5MB)

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # 원본 (1.3GB)
│   ├── fp16/       # 반정밀도 (629MB) — VRAM 절감용
│   └── q8/         # INT8 동적 양자화 (413MB) — CPU 메모리 절감용
└── speakers/       # 화자 모델 (safetensors)
    ├── jvnv-F1-jp/
    ├── jvnv-F2-jp/
    ├── jvnv-M1-jp/
    ├── jvnv-M2-jp/
    ├── tsukuyomi_chan/
    └── amitaro_*/

onnx/
├── bert/           # ONNX 변환 BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8 양자화 (498MB)
└── speakers/       # ONNX 변환 Synthesizer
    └── */
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

사전학습 베이스 모델 (pretrained/)

새로운 화자를 파인튜닝할 때 사용하는 초기 가중치입니다. 랜덤 초기화 대신 이 모델에서 시작하면 2000 step 정도로도 빠르게 수렴합니다.

원본: litagin/Style-Bert-VITS2-2.0-base-JP-Extra

추천 조합

용도 BERT Synthesizer 특징
빠른 CPU 추론 onnx/bert/q8 onnx/speakers/*/synthesizer.onnx 속도 1.6x, RAM 81% 절감
GPU 추론 pytorch/bert/fp16 pytorch/speakers/* VRAM 40% 절감
연구/실험 pytorch/bert/fp32 pytorch/speakers/* 원본 그대로

Synthesizer FP16 미제공 안내

Synthesizer(VITS)의 Flow 레이어에 포함된 rational_quadratic_spline 함수가 반정밀도(FP16)에서 discriminant < 0 assertion 오류를 발생시킵니다. 따라서 Synthesizer는 반드시 FP32로 사용해야 하며, FP16 변환 모델은 제공하지 않습니다.

화자

JVNV

JVNV Corpus 기반 사전학습 화자 모델입니다. 파인튜닝 없이 바로 추론에 사용할 수 있습니다.

화자 성별 스타일
jvnv-F1-jp 여성 Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp 여성 동일
jvnv-M1-jp 남성 동일
jvnv-M2-jp 남성 동일

つくよみちゃん (Tsukuyomi-chan)

つくよみちゃんコーパス Vol.1 (CV.夢前黎) 기반 파인튜닝 화자 모델입니다. 고음 위스퍼 계열의 애니메이션 캐릭터풍 여성 보이스입니다.

화자 성별 스타일
tsukuyomi_chan 여성 Neutral

본 모델의 음성합성에는 つくよみちゃん(© Rei Yumesaki)의 무료 공개 캐릭터 음성 데이터를 사용하고 있습니다. つくよみちゃんコーパス(CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/

あみたろ (Amitaro)

あみたろの声素材工房 ITAコーパス読み上げ음성 기반 파인튜닝 화자 모델입니다. 동일 화자의 6가지 스타일을 독립 모델로 제공합니다.

화자 스타일 설명
amitaro_normal ノーマル 정확한 발음, TTS 최적화
amitaro_runrun るんるん 자연스럽고 친근한 톤
amitaro_yofukashi よふかし 차분한 라디오풍
amitaro_punsuka ぷんすか 귀여운 화난 목소리
amitaro_sasayaki_a ささやきA 강한 속삭임
amitaro_sasayaki_b ささやきB 약한 속삭임

본 모델의 음성합성에는 あみたろの声素材工房(https://amitaro.net/)의 ITAコーパス読み上げ음성을 사용하고 있습니다.


EN | English

Pre-trained model repository for HayaKoe, a fast ONNX-optimized Japanese TTS based on Style-Bert-VITS2.

Structure

pretrained/             # Base models for fine-tuning (JP-Extra)
├── G_0.safetensors     # Generator (279MB)
├── D_0.safetensors     # Discriminator (178MB)
└── WD_0.safetensors    # WavLM Discriminator (4.5MB)

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # Original (1.3GB)
│   ├── fp16/       # Half precision (629MB) — reduces VRAM
│   └── q8/         # INT8 dynamic quantization (413MB) — reduces CPU RAM
└── speakers/       # Speaker models (safetensors)
    ├── jvnv-*/
    ├── tsukuyomi_chan/
    └── amitaro_*/

onnx/
├── bert/           # ONNX-converted BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8 quantized (498MB)
└── speakers/       # ONNX-converted Synthesizer
    └── */
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

Pretrained Base Models (pretrained/)

Initial weights for fine-tuning new speakers. Starting from these pretrained weights instead of random initialization allows convergence in as few as 2000 steps.

Source: litagin/Style-Bert-VITS2-2.0-base-JP-Extra

Recommended Configurations

Use Case BERT Synthesizer Notes
Fast CPU inference onnx/bert/q8 onnx/speakers/*/synthesizer.onnx 1.6x speedup, 81% RAM reduction
GPU inference pytorch/bert/fp16 pytorch/speakers/* 40% VRAM reduction
Research pytorch/bert/fp32 pytorch/speakers/* Original weights

Why No Synthesizer FP16?

The rational_quadratic_spline function in the VITS Flow layer triggers a discriminant < 0 assertion error under half precision (FP16). Synthesizer must remain FP32. No FP16 variant is provided.

Speakers

JVNV

Pre-trained speaker models from the JVNV Corpus. Ready for inference without fine-tuning.

Speaker Gender Styles
jvnv-F1-jp Female Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp Female Same
jvnv-M1-jp Male Same
jvnv-M2-jp Male Same

Tsukuyomi-chan (つくよみちゃん)

Fine-tuned speaker model based on Tsukuyomi-chan Corpus Vol.1 (CV. Rei Yumesaki). A high-pitched, whisper-style anime character female voice.

Speaker Gender Styles
tsukuyomi_chan Female Neutral

This model uses the free character voice data of つくよみちゃん (© Rei Yumesaki) for speech synthesis. つくよみちゃんコーパス (CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/

Amitaro (あみたろ)

Fine-tuned speaker models based on あみたろの声素材工房 ITA Corpus readings. Six styles from the same speaker, provided as independent models.

Speaker Style Description
amitaro_normal ノーマル Clear pronunciation, TTS-optimized
amitaro_runrun るんるん Natural, friendly tone
amitaro_yofukashi よふかし Calm, radio-style
amitaro_punsuka ぷんすか Cute angry voice
amitaro_sasayaki_a ささやきA Strong whisper
amitaro_sasayaki_b ささやきB Soft whisper

This model uses ITA Corpus reading voice data from あみたろの声素材工房 (https://amitaro.net/) for speech synthesis.


JP | 日本語

HayaKoeの事前学習モデルリポジトリです。Style-Bert-VITS2ベースの日本語TTSモデルをPyTorchとONNX形式で提供します。

構成

pretrained/             # ファインチューニング用ベースモデル (JP-Extra)
├── G_0.safetensors     # Generator (279MB)
├── D_0.safetensors     # Discriminator (178MB)
└── WD_0.safetensors    # WavLM Discriminator (4.5MB)

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # オリジナル (1.3GB)
│   ├── fp16/       # 半精度 (629MB) — VRAM削減用
│   └── q8/         # INT8動的量子化 (413MB) — CPUメモリ削減用
└── speakers/       # 話者モデル (safetensors)
    ├── jvnv-*/
    ├── tsukuyomi_chan/
    └── amitaro_*/

onnx/
├── bert/           # ONNX変換BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8量子化 (498MB)
└── speakers/       # ONNX変換Synthesizer
    └── */
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

事前学習ベースモデル (pretrained/)

新しい話者のファインチューニングに使用する初期重みです。ランダム初期化の代わりにこのモデルから開始すると、約2000ステップで素早く収束します。

元モデル: litagin/Style-Bert-VITS2-2.0-base-JP-Extra

推奨構成

用途 BERT Synthesizer 特徴
高速CPU推論 onnx/bert/q8 onnx/speakers/*/synthesizer.onnx 速度1.6倍、RAM 81%削減
GPU推論 pytorch/bert/fp16 pytorch/speakers/* VRAM 40%削減
研究 pytorch/bert/fp32 pytorch/speakers/* オリジナル

Synthesizer FP16非対応について

VITSのFlowレイヤーに含まれるrational_quadratic_spline関数が半精度(FP16)で判別式 < 0のアサーションエラーを発生させます。Synthesizerは必ずFP32で使用してください。FP16変換モデルは提供しません。

話者

JVNV

JVNVコーパスベースの事前学習話者モデルです。ファインチューニングなしで推論に使用できます。

話者 性別 スタイル
jvnv-F1-jp 女性 Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp 女性 同上
jvnv-M1-jp 男性 同上
jvnv-M2-jp 男性 同上

つくよみちゃん (Tsukuyomi-chan)

つくよみちゃんコーパス Vol.1 (CV.夢前黎) をベースにファインチューニングした話者モデルです。高音ウィスパー系のアニメキャラクター風女性ボイスです。

話者 性別 スタイル
tsukuyomi_chan 女性 Neutral

本ソフトウェアの音声合成にはつくよみちゃん(© Rei Yumesaki)の無料公開キャラクター音声データを使用しています。 つくよみちゃんコーパス(CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/

あみたろ (Amitaro)

あみたろの声素材工房 ITAコーパス読み上げ音声をベースにファインチューニングした話者モデルです。同一話者の6つのスタイルを独立モデルとして提供します。

話者 スタイル 説明
amitaro_normal ノーマル 正確な発音、音声合成に最適化
amitaro_runrun るんるん 自然で親しみやすいトーン
amitaro_yofukashi よふかし 落ち着いたラジオ風
amitaro_punsuka ぷんすか かわいい怒り声
amitaro_sasayaki_a ささやきA 強めのささやき
amitaro_sasayaki_b ささやきB 弱めのささやき

本ソフトウェアの音声合成にはあみたろの声素材工房(https://amitaro.net/)のITAコーパス読み上げ音声を使用しています。


ZH | 中文

HayaKoe的预训练模型仓库。提供基于Style-Bert-VITS2的日语TTS模型,支持PyTorch和ONNX格式。

结构

pretrained/             # 微调用基础模型 (JP-Extra)
├── G_0.safetensors     # Generator (279MB)
├── D_0.safetensors     # Discriminator (178MB)
└── WD_0.safetensors    # WavLM Discriminator (4.5MB)

pytorch/
├── bert/           # DeBERTa v2 (ku-nlp/deberta-v2-large-japanese-char-wwm)
│   ├── fp32/       # 原始 (1.3GB)
│   ├── fp16/       # 半精度 (629MB) — 减少VRAM
│   └── q8/         # INT8动态量化 (413MB) — 减少CPU内存
└── speakers/       # 说话人模型 (safetensors)
    ├── jvnv-*/
    ├── tsukuyomi_chan/
    └── amitaro_*/

onnx/
├── bert/           # ONNX转换BERT
│   ├── fp32/       # FP32 ONNX (1.2GB)
│   └── q8/         # INT8量化 (498MB)
└── speakers/       # ONNX转换Synthesizer
    └── */
        ├── synthesizer.onnx      # FP32 (239MB)
        └── synthesizer_q8.onnx   # INT8 (239MB)

预训练基础模型 (pretrained/)

用于微调新说话人的初始权重。从预训练权重开始,而非随机初始化,仅需约2000步即可快速收敛。

来源: litagin/Style-Bert-VITS2-2.0-base-JP-Extra

推荐配置

用途 BERT Synthesizer 特点
快速CPU推理 onnx/bert/q8 onnx/speakers/*/synthesizer.onnx 速度1.6倍,RAM减少81%
GPU推理 pytorch/bert/fp16 pytorch/speakers/* VRAM减少40%
研究 pytorch/bert/fp32 pytorch/speakers/* 原始权重

为什么没有Synthesizer FP16?

VITS Flow层中的rational_quadratic_spline函数在半精度(FP16)下会触发判别式 < 0的断言错误。Synthesizer必须使用FP32,不提供FP16转换模型。

说话人

JVNV

基于JVNV语料库的预训练说话人模型,无需微调即可直接用于推理。

说话人 性别 风格
jvnv-F1-jp Neutral, Angry, Disgust, Fear, Happy, Sad, Surprise
jvnv-F2-jp 同上
jvnv-M1-jp 同上
jvnv-M2-jp 同上

つくよみちゃん (Tsukuyomi-chan)

基于つくよみちゃんコーパス Vol.1 (CV.夢前黎) 微调的说话人模型。高音耳语风格的动漫角色女性语音。

说话人 性别 风格
tsukuyomi_chan Neutral

本模型的语音合成使用了つくよみちゃん(© Rei Yumesaki)的免费公开角色语音数据。 つくよみちゃんコーパス(CV.夢前黎) https://tyc.rei-yumesaki.net/material/corpus/

あみたろ (Amitaro)

基于あみたろの声素材工房 ITA语料库朗读语音微调的说话人模型。同一说话人的6种风格作为独立模型提供。

说话人 风格 说明
amitaro_normal ノーマル 准确发音,TTS优化
amitaro_runrun るんるん 自然亲切的语调
amitaro_yofukashi よふかし 沉稳的广播风格
amitaro_punsuka ぷんすか 可爱的生气声音
amitaro_sasayaki_a ささやきA 较强的耳语
amitaro_sasayaki_b ささやきB 较弱的耳语

本模型的语音合成使用了あみたろの声素材工房(https://amitaro.net/)的ITA语料库朗读语音数据。


License

Additional Restrictions (applies to all speaker models)

  • No use in age-restricted (adult/NSFW) content — 성인 제한 콘텐츠 사용 금지 / 年齢制限作品への使用禁止 / 禁止用于年龄限制内容
  • No use in political, religious, or hate speech content — 정치/종교/혐오 콘텐츠 사용 금지 / 政治・宗教・ヘイト目的での使用禁止 / 禁止用于政治、宗教或仇恨言论内容
  • No use for the purpose of criticizing or attacking others — 타인 비판/공격 목적 사용 금지 / 他者の批判・攻撃を目的とした使用禁止 / 禁止用于批评或攻击他人
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support