Piper Plus CSS10 Japanese (Multilingual 6-Language + Prosody)

CSS10 Japanese データセットを使用して6言語マルチリンガルベースモデルからファインチューニングした多言語TTSモデルです。

prosody features (A1/A2/A3) に対応し、日本語・英語・中国語・スペイン語・フランス語・ポルトガル語の6言語で音声合成が可能です。

Model Details

項目
アーキテクチャ VITS
言語 日本語 (ja), 英語 (en), 中国語 (zh), スペイン語 (es), フランス語 (fr), ポルトガル語 (pt)
サンプルレート 22050 Hz
品質 medium
音素タイプ multilingual
音素数 173
prosody_dim 16
話者数 1
言語数 6
ベースモデル 6言語マルチリンガル (571話者, 508,187発話, 75 epoch)
ファインチューニング 50 epochs, lr=2e-5, freeze-dp
学習データ CSS10 Japanese (6,841発話)
ONNXエクスポート stochastic + EMA + FP16 (38MB)

Usage

C++ CLI (プリビルドバイナリ)

# モデルダウンロード
./piper --download-model css10 --model-dir models

# 日本語
echo 'こんにちは、今日は良い天気ですね。' | \
  ./piper --model models/css10-ja-6lang-fp16.onnx --output_file output_ja.wav

# 英語
echo 'Hello, how are you today?' | \
  ./piper --model models/css10-ja-6lang-fp16.onnx --language en --output_file output_en.wav

# 中国語
echo '你好,今天天气很好。' | \
  ./piper --model models/css10-ja-6lang-fp16.onnx --language zh --output_file output_zh.wav

# スペイン語
echo '¿Hola, cómo estás hoy?' | \
  ./piper --model models/css10-ja-6lang-fp16.onnx --language es --output_file output_es.wav

# フランス語
echo 'Bonjour, comment allez-vous?' | \
  ./piper --model models/css10-ja-6lang-fp16.onnx --language fr --output_file output_fr.wav

# ポルトガル語
echo 'Olá, como você está hoje?' | \
  ./piper --model models/css10-ja-6lang-fp16.onnx --language pt --output_file output_pt.wav

Python 推論

# インストール
pip install piper-tts-plus

# 日本語
uv run python -m piper_train.infer_onnx \
  --model css10-ja-6lang-fp16.onnx \
  --config config.json \
  --output-dir ./output \
  --text "こんにちは、今日は良い天気ですね。" \
  --language ja-en-zh-es-fr-pt \
  --noise-scale 0.667

# 英語
uv run python -m piper_train.infer_onnx \
  --model css10-ja-6lang-fp16.onnx \
  --config config.json \
  --output-dir ./output \
  --text "Hello, how are you today?" \
  --language ja-en-zh-es-fr-pt \
  --noise-scale 0.667

推奨推論パラメータ

パラメータ 説明
--noise-scale 0.667 デフォルト推奨値
--speaker-id 0 単一話者
--language ja-en-zh-es-fr-pt 6言語自動検出

Training

ベースモデル

6言語マルチリンガルベースモデル(571話者、508,187発話、75 epoch)からファインチューニング。

転移学習方式

  1. --resume-from-multispeaker-checkpoint でベースモデルからロード
    • emb_g (571話者分の話者埋め込み) を自動除去
    • emb_lang に conditioning 分布補正を適用
    • --freeze-dp を自動有効化(Duration Predictor の catastrophic forgetting 防止)
  2. 50 epoch ファインチューニング (6,841発話、lr=2e-5)
  3. ONNX エクスポート (EMA + FP16)

Files

  • css10-ja-6lang-fp16.onnx - ONNXモデル (38MB, FP16)
  • config.json - モデル設定 (173音素マップ、6言語)

Credits

License

CSS10 データセットのライセンスに準じます。詳細は CSS10 GitHub を参照してください。

Downloads last month
71
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for ayousanz/piper-plus-css10-ja-6lang

Quantized
(1)
this model