Piper Plus つくよみちゃん (WavLM + Prosody)

つくよみちゃんコーパスを使用してファインチューニングした日本語TTSモデルです。

WavLM Discriminatorとprosody features (A1/A2/A3)に対応しています。

Sample Audio

テキスト 音声
こんにちは、今日は良い天気ですね。 sample_01
吾輩は猫である。名前はまだ無い。 sample_02
音声合成の技術は、日々進化しています。 sample_03

Model Details

項目
アーキテクチャ VITS
言語 日本語 (ja)
サンプルレート 22050 Hz
品質 medium
音素タイプ OpenJTalk
prosody_dim 16
WavLM Discriminator 対応
ベースモデル ayousanz/piper-plus-base (WavLM版)
ファインチューニング 300 epochs
学習データ つくよみちゃんコーパス (100発話)
ONNXエクスポート stochastic + EMA

Usage

推論(テキスト直接入力)

CUDA_VISIBLE_DEVICES="" uv run python -m piper_train.infer_onnx \
  --model tsukuyomi-wavlm-300epoch.onnx \
  --config config.json \
  --output-dir ./output \
  --text "こんにちは、今日は良い天気ですね。" \
  --speaker-id 0 \
  --noise-scale 0.5

推奨推論パラメータ

パラメータ 説明
--noise-scale 0.5 WavLMモデル推奨値
--speaker-id 0 単一話者

Training

ベースモデル

ayousanz/piper-plus-base のWavLM版ベースモデルからファインチューニング。

学習コマンド

NCCL_DEBUG=WARN NCCL_P2P_DISABLE=1 NCCL_IB_DISABLE=1 \
uv run python -m piper_train \
  --dataset-dir /path/to/dataset \
  --prosody-dim 16 \
  --accelerator gpu --devices 4 --precision 16-mixed \
  --max_epochs 300 --batch-size 32 --checkpoint-epochs 50 \
  --base_lr 1e-4 --disable_auto_lr_scaling \
  --ema-decay 0.9995 --num-workers 0 --no-pin-memory \
  --resume_from_checkpoint /path/to/base_model.ckpt \
  --default_root_dir /path/to/output

Files

  • tsukuyomi-wavlm-300epoch.onnx - ONNXモデル (61MB)
  • config.json - モデル設定(phoneme_id_map含む)
  • samples/ - サンプル音声

Credits

License

ライセンスは、つくよみちゃんコーパス│声優統計コーパス(JVSコーパス準拠)に準じます

Downloads last month
3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support