Piper Plus Base Model (Japanese)

日本語TTS用の事前学習済みベースモデルです。このモデルは単一話者のファインチューニング用に最適化されています。

Model Details

項目
アーキテクチャ VITS
言語 日本語 (ja)
サンプルレート 22050 Hz
品質 medium
音素タイプ OpenJTalk
話者数 0 (単一話者用)

使用方法

ファインチューニング

このベースモデルを使用して、新しい話者の音声でファインチューニングできます。

1. データセットの前処理

uv run python -m piper_train.preprocess \
  --input-dir /path/to/your-ljspeech-data \
  --output-dir /path/to/dataset \
  --language ja \
  --dataset-format ljspeech \
  --sample-rate 22050 \
  --single-speaker \
  --phoneme-type openjtalk

2. ファインチューニングの実行

uv run python -m piper_train \
  --dataset-dir /path/to/dataset \
  --accelerator gpu \
  --devices 1 \
  --precision 16-mixed \
  --max_epochs 50 \
  --batch-size 32 \
  --checkpoint-epochs 1 \
  --base_lr 1e-4 \
  --disable_auto_lr_scaling \
  --resume_from_checkpoint /path/to/model.ckpt \
  --default_root_dir /path/to/output

推奨パラメータ

パラメータ 説明
--base_lr 1e-4 事前学習より低い学習率(過学習防止)
--disable_auto_lr_scaling - 学習率の自動スケーリングを無効化
--max_epochs 50-100 少量データの場合は短め
--batch-size 32 GPUメモリに応じて調整

Citation

@software{piper_plus,
  title = {Piper Plus: Japanese TTS with VITS},
  author = {ayousanz},
  year = {2024},
  url = {https://github.com/ayousanz/piper}
}
Downloads last month
8
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support