Piper Plus CSS10 Japanese (Multilingual 6-Language + Prosody)
CSS10 Japanese データセットを使用して6言語マルチリンガルベースモデルからファインチューニングした多言語TTSモデルです。
prosody features (A1/A2/A3) に対応し、日本語・英語・中国語・スペイン語・フランス語・ポルトガル語の6言語で音声合成が可能です。
Model Details
| 項目 | 値 |
|---|---|
| アーキテクチャ | VITS |
| 言語 | 日本語 (ja), 英語 (en), 中国語 (zh), スペイン語 (es), フランス語 (fr), ポルトガル語 (pt) |
| サンプルレート | 22050 Hz |
| 品質 | medium |
| 音素タイプ | multilingual |
| 音素数 | 173 |
| prosody_dim | 16 |
| 話者数 | 1 |
| 言語数 | 6 |
| ベースモデル | 6言語マルチリンガル (571話者, 508,187発話, 75 epoch) |
| ファインチューニング | 50 epochs, lr=2e-5, freeze-dp |
| 学習データ | CSS10 Japanese (6,841発話) |
| ONNXエクスポート | stochastic + EMA + FP16 (38MB) |
Usage
C++ CLI (プリビルドバイナリ)
# モデルダウンロード
./piper --download-model css10 --model-dir models
# 日本語
echo 'こんにちは、今日は良い天気ですね。' | \
./piper --model models/css10-ja-6lang-fp16.onnx --output_file output_ja.wav
# 英語
echo 'Hello, how are you today?' | \
./piper --model models/css10-ja-6lang-fp16.onnx --language en --output_file output_en.wav
# 中国語
echo '你好,今天天气很好。' | \
./piper --model models/css10-ja-6lang-fp16.onnx --language zh --output_file output_zh.wav
# スペイン語
echo '¿Hola, cómo estás hoy?' | \
./piper --model models/css10-ja-6lang-fp16.onnx --language es --output_file output_es.wav
# フランス語
echo 'Bonjour, comment allez-vous?' | \
./piper --model models/css10-ja-6lang-fp16.onnx --language fr --output_file output_fr.wav
# ポルトガル語
echo 'Olá, como você está hoje?' | \
./piper --model models/css10-ja-6lang-fp16.onnx --language pt --output_file output_pt.wav
Python 推論
# インストール
pip install piper-tts-plus
# 日本語
uv run python -m piper_train.infer_onnx \
--model css10-ja-6lang-fp16.onnx \
--config config.json \
--output-dir ./output \
--text "こんにちは、今日は良い天気ですね。" \
--language ja-en-zh-es-fr-pt \
--noise-scale 0.667
# 英語
uv run python -m piper_train.infer_onnx \
--model css10-ja-6lang-fp16.onnx \
--config config.json \
--output-dir ./output \
--text "Hello, how are you today?" \
--language ja-en-zh-es-fr-pt \
--noise-scale 0.667
推奨推論パラメータ
| パラメータ | 値 | 説明 |
|---|---|---|
--noise-scale |
0.667 | デフォルト推奨値 |
--speaker-id |
0 | 単一話者 |
--language |
ja-en-zh-es-fr-pt | 6言語自動検出 |
Training
ベースモデル
6言語マルチリンガルベースモデル(571話者、508,187発話、75 epoch)からファインチューニング。
転移学習方式
--resume-from-multispeaker-checkpointでベースモデルからロードemb_g(571話者分の話者埋め込み) を自動除去emb_langに conditioning 分布補正を適用--freeze-dpを自動有効化(Duration Predictor の catastrophic forgetting 防止)
- 50 epoch ファインチューニング (6,841発話、lr=2e-5)
- ONNX エクスポート (EMA + FP16)
Files
css10-ja-6lang-fp16.onnx- ONNXモデル (38MB, FP16)config.json- モデル設定 (173音素マップ、6言語)
Credits
- CSS10 Dataset: Kyubyong/css10
- Piper TTS: rhasspy/piper
- Piper Plus: ayutaz/piper-plus
License
CSS10 データセットのライセンスに準じます。詳細は CSS10 GitHub を参照してください。
- Downloads last month
- 71
Model tree for ayousanz/piper-plus-css10-ja-6lang
Base model
ayousanz/piper-plus-base