Piper Plus つくよみちゃん (WavLM + Prosody)
つくよみちゃんコーパスを使用してファインチューニングした日本語TTSモデルです。
WavLM Discriminatorとprosody features (A1/A2/A3)に対応しています。
Sample Audio
Model Details
| 項目 | 値 |
|---|---|
| アーキテクチャ | VITS |
| 言語 | 日本語 (ja) |
| サンプルレート | 22050 Hz |
| 品質 | medium |
| 音素タイプ | OpenJTalk |
| prosody_dim | 16 |
| WavLM Discriminator | 対応 |
| ベースモデル | ayousanz/piper-plus-base (WavLM版) |
| ファインチューニング | 300 epochs |
| 学習データ | つくよみちゃんコーパス (100発話) |
| ONNXエクスポート | stochastic + EMA |
Usage
推論(テキスト直接入力)
CUDA_VISIBLE_DEVICES="" uv run python -m piper_train.infer_onnx \
--model tsukuyomi-wavlm-300epoch.onnx \
--config config.json \
--output-dir ./output \
--text "こんにちは、今日は良い天気ですね。" \
--speaker-id 0 \
--noise-scale 0.5
推奨推論パラメータ
| パラメータ | 値 | 説明 |
|---|---|---|
--noise-scale |
0.5 | WavLMモデル推奨値 |
--speaker-id |
0 | 単一話者 |
Training
ベースモデル
ayousanz/piper-plus-base のWavLM版ベースモデルからファインチューニング。
学習コマンド
NCCL_DEBUG=WARN NCCL_P2P_DISABLE=1 NCCL_IB_DISABLE=1 \
uv run python -m piper_train \
--dataset-dir /path/to/dataset \
--prosody-dim 16 \
--accelerator gpu --devices 4 --precision 16-mixed \
--max_epochs 300 --batch-size 32 --checkpoint-epochs 50 \
--base_lr 1e-4 --disable_auto_lr_scaling \
--ema-decay 0.9995 --num-workers 0 --no-pin-memory \
--resume_from_checkpoint /path/to/base_model.ckpt \
--default_root_dir /path/to/output
Files
tsukuyomi-wavlm-300epoch.onnx- ONNXモデル (61MB)config.json- モデル設定(phoneme_id_map含む)samples/- サンプル音声
Credits
- つくよみちゃんコーパス: 夢前黎
- Piper TTS: rhasspy/piper
License
ライセンスは、つくよみちゃんコーパス│声優統計コーパス(JVSコーパス準拠)に準じます
- Downloads last month
- 3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support