ayousanz
/

piper-plus-base

@@ -7,11 +7,12 @@ tags:
 - vits
 - japanese
 - piper
 ---
-# Piper Plus Base Model (Japanese)
-日本語TTS用の事前学習済みベースモデルです。
 ## Model Details
@@ -22,7 +23,30 @@ tags:
 | サンプルレート | 22050 Hz |
 | 品質 | medium |
 | 音素タイプ | OpenJTalk |
 | **prosody_dim** | **16** |
 ## Usage
@@ -41,8 +65,6 @@ uv run python -m piper_train.preprocess \
 ### Step 2: Add Prosody Features (Recommended)
-既存のデータセットにprosody_featuresを追加します：
 ```bash
 uv run python add_prosody_features.py \
   --input-dataset /path/to/dataset/dataset.jsonl \
@@ -67,6 +89,28 @@ uv run python -m piper_train \
   --default_root_dir /path/to/output
 ```
 ## Recommended Parameters
 | パラメータ | 値 | 説明 |
@@ -75,12 +119,26 @@ uv run python -m piper_train \
 | `--disable_auto_lr_scaling` | - | 学習率の自動スケーリングを無効化 |
 | `--max_epochs` | 50-100 | 少量データの場合は短め |
 | `--batch-size` | 32 | GPUメモリに応じて調整 |
 ## Citation
 ```bibtex
 @software{piper_plus,
-  title = {Piper Plus: Japanese TTS with VITS and Prosody Features},
   author = {ayousanz},
   year = {2024},
   url = {https://github.com/ayutaz/piper-plus}

 - vits
 - japanese
 - piper
+- wavlm
 ---
+# Piper Plus Base Model (Japanese) with WavLM Discriminator & Prosody Features
+日本語TTS用の事前学習済みベースモデルです。WavLM Discriminatorによる高品質学習とprosody_features (A1/A2/A3) に対応しています。
 ## Model Details
 | サンプルレート | 22050 Hz |
 | 品質 | medium |
 | 音素タイプ | OpenJTalk |
+| 話者数 | 0 (単一話者ファインチューニング用) |
 | **prosody_dim** | **16** |
+| **WavLM Discriminator** | **対応** |
+| 音素数 | 65 (Issue #204, #207 拡張トークン含む) |
+## Features
+### WavLM Discriminator
+Microsoft WavLMベースの知覚品質判別器を使用して学習されたモデルです。
+- MOS向上: +0.15-0.25
+- 推論速度への影響: なし（学習時のみ使用）
+### Prosody Features (A1/A2/A3)
+OpenJTalkから抽出されるプロソディ特徴量をサポート:
+| フィールド | 意味 | 値の例 |
+|-----------|------|--------|
+| A1 | アクセント核からの相対位置 | -4, -3, ..., 0, 1, ... |
+| A2 | アクセント句内のモーラ位置 | 1, 2, 3, ... |
+| A3 | アクセント句内の総モーラ数 | 1-10+ |
+### 拡張音素
+- 疑問詞マーカー (Issue #204): `?!`, `?.`, `?~`
+- 文脈依存「ん」バリアント (Issue #207): `N_m`, `N_n`, `N_ng`, `N_uvular`
 ## Usage
 ### Step 2: Add Prosody Features (Recommended)
 ```bash
 uv run python add_prosody_features.py \
   --input-dataset /path/to/dataset/dataset.jsonl \
   --default_root_dir /path/to/output
 ```
+### Step 4: ONNX Export
+WavLMモデルは `--stochastic` フラグを推奨:
+```bash
+CUDA_VISIBLE_DEVICES="" uv run python -m piper_train.export_onnx \
+  --stochastic \
+  /path/to/checkpoint.ckpt \
+  /path/to/output.onnx
+```
+### Step 5: Inference
+```bash
+CUDA_VISIBLE_DEVICES="" uv run python -m piper_train.infer_onnx \
+  --model /path/to/output.onnx \
+  --config /path/to/config.json \
+  --output-dir /path/to/output \
+  --text "こんにちは、今日は良い天気ですね。" \
+  --speaker-id 0 --noise-scale 0.5
+```
 ## Recommended Parameters
 | パラメータ | 値 | 説明 |
 | `--disable_auto_lr_scaling` | - | 学習率の自動スケーリングを無効化 |
 | `--max_epochs` | 50-100 | 少量データの場合は短め |
 | `--batch-size` | 32 | GPUメモリに応じて調整 |
+| `--noise-scale` | 0.5 | 推論時の推奨値（WavLMモデル） |
+## Origin
+このベースモデルは20話者WavLMモデル（150エポック学習）から変換されました：
+- 元データセット: moe-speech-20speakers-v2 (60,164発話)
+- 学習設定: WavLM Discriminator有効, prosody_dim=16
+- 話者埋め込み層を削除
+- prosody_dim=16を保持
+## Files
+- `model.ckpt` - PyTorch Lightningチェックポイント（WavLM Discriminator重み含む）
+- `config.json` - モデル設定（65音素マップ、prosody設定等）
 ## Citation
 ```bibtex
 @software{piper_plus,
+  title = {Piper Plus: Japanese TTS with VITS, WavLM Discriminator and Prosody Features},
   author = {ayousanz},
   year = {2024},
   url = {https://github.com/ayutaz/piper-plus}

config.json CHANGED Viewed

@@ -1,45 +1,54 @@
 {
-  "dataset": "moe-speech-20speakers-prosody",
-  "audio": {
-    "sample_rate": 22050,
-    "quality": "medium"
-  },
-  "espeak": {
-    "voice": "ja"
-  },
-  "language": {
-    "code": "ja"
-  },
-  "inference": {
-    "noise_scale": 0.667,
-    "length_scale": 1,
-    "noise_w": 0.8
-  },
-  "phoneme_type": "openjtalk",
-  "phoneme_map": {},
-  "phoneme_id_map": {
-    "_": [0], "^": [1], "$": [2], "?": [3], "#": [4],
-    "[": [5], "]": [6],
-    "a": [7], "i": [8], "u": [9], "e": [10], "o": [11],
-    "A": [12], "I": [13], "U": [14], "E": [15], "O": [16],
-    "ç": [17], "ɕ": [18], "ɯ": [19], "ɴ": [20], "ɾ": [21],
-    "N": [22], "ʑ": [23], "q": [24], "k": [25],
-    "kʲ": [26], "ɡʲ": [27], "g": [28], "ɡ": [29], "dʑ": [30],
-    "t": [31], "tɕ": [32], "d": [33], "dʲ": [34],
-    "p": [35], "pʲ": [36], "b": [37], "bʲ": [38],
-    "cç": [39], "çː": [40], "s": [41], "ʃ": [42],
-    "z": [43], "j": [44], "ɲ": [45],
-    "f": [46], "h": [47], "hʲ": [48], "v": [49],
-    "n": [50], "nʲ": [51], "m": [52], "mʲ": [53],
-    "r": [54], "ɽ": [55], "w": [56], "y": [57]
-  },
-  "num_symbols": 58,
-  "num_speakers": 0,
-  "piper_version": "1.4.0",
-  "prosody_dim": 16,
-  "prosody_features": {
-    "a1": "アクセント核からの相対位置",
-    "a2": "アクセント句内のモーラ位置",
-    "a3": "アクセント句内の総モーラ数"
-  }
 }

 {
+    "dataset": "moe-speech-20speakers-wavlm",
+    "audio": {
+        "sample_rate": 22050,
+        "quality": "medium"
+    },
+    "espeak": {
+        "voice": "ja"
+    },
+    "language": {
+        "code": "ja"
+    },
+    "inference": {
+        "noise_scale": 0.667,
+        "length_scale": 1,
+        "noise_w": 0.8
+    },
+    "phoneme_type": "openjtalk",
+    "phoneme_map": {},
+    "phoneme_id_map": {
+        "_": [0], "^": [1], "$": [2], "?": [3],
+        "\ue016": [4], "\ue017": [5], "\ue018": [6],
+        "#": [7], "[": [8], "]": [9],
+        "a": [10], "i": [11], "u": [12], "e": [13], "o": [14],
+        "A": [15], "I": [16], "U": [17], "E": [18], "O": [19],
+        "\u00e7": [20], "\u0255": [21], "\u026f": [22], "\u0274": [23], "\u027e": [24],
+        "N": [25],
+        "\ue019": [26], "\ue01a": [27], "\ue01b": [28], "\ue01c": [29],
+        "\u0291": [30], "q": [31], "k": [32],
+        "k\u02b2": [33], "\u0261\u02b2": [34], "g": [35], "\u0261": [36], "d\u0291": [37],
+        "t": [38], "t\u0255": [39], "d": [40], "d\u02b2": [41],
+        "p": [42], "p\u02b2": [43], "b": [44], "b\u02b2": [45],
+        "c\u00e7": [46], "\u00e7\u02d0": [47], "s": [48], "\u0283": [49],
+        "z": [50], "j": [51], "\u0272": [52],
+        "f": [53], "h": [54], "h\u02b2": [55], "v": [56],
+        "n": [57], "n\u02b2": [58], "m": [59], "m\u02b2": [60],
+        "r": [61], "\u027d": [62], "w": [63], "y": [64]
+    },
+    "num_symbols": 65,
+    "num_speakers": 0,
+    "piper_version": "1.5.4",
+    "prosody_dim": 16,
+    "prosody_features": {
+        "a1": "アクセント核からの相対位置",
+        "a2": "アクセント句内のモーラ位置",
+        "a3": "アクセント句内の総モーラ数"
+    },
+    "prosody_num_symbols": 11,
+    "prosody_id_map": {
+        "0": [0], "1": [1], "2": [2], "3": [3], "4": [4],
+        "5": [5], "6": [6], "7": [7], "8": [8], "9": [9], "10": [10]
+    },
+    "use_wavlm_discriminator": true
 }

model.ckpt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18bb25f0c4def313c7432f69efa763acb415c370c447f84f44e063e885f77c9c
-size 289775502

 version https://git-lfs.github.com/spec/v1
+oid sha256:a68ef464af9a7303fbd85f74cc3ccb421e9640931099b16517d5657b779b15bf
+size 669746377