ayousanz
/

piper-plus-base

@@ -2,10 +2,16 @@
 license: cc-by-sa-4.0
 language:
 - ja
 ---
-# Piper Plus Base Model (Japanese)
-日本語TTS用の事前学習済みベースモデルです。このモデルは単一話者のファインチューニング用に最適化されています。
 ## Model Details
@@ -17,14 +23,21 @@ language:
 | 品質 | medium |
 | 音素タイプ | OpenJTalk |
 | 話者数 | 0 (単一話者用) |
-## 使用方法
-### ファインチューニング
-このベースモデルを使用して、新しい話者の音声でファインチューニングできます。
-#### 1. データセットの前処理
 ```bash
 uv run python -m piper_train.preprocess \
@@ -37,15 +50,26 @@ uv run python -m piper_train.preprocess \
   --phoneme-type openjtalk
 ```
-#### 2. ファインチューニングの実行
 ```bash
 uv run python -m piper_train \
-  --dataset-dir /path/to/dataset \
   --accelerator gpu \
   --devices 1 \
   --precision 16-mixed \
-  --max_epochs 50 \
   --batch-size 32 \
   --checkpoint-epochs 1 \
   --base_lr 1e-4 \
@@ -54,7 +78,7 @@ uv run python -m piper_train \
   --default_root_dir /path/to/output
 ```
-### 推奨パラメータ
 | パラメータ | 値 | 説明 |
 |-----------|-----|------|
@@ -63,13 +87,20 @@ uv run python -m piper_train \
 | `--max_epochs` | 50-100 | 少量データの場合は短め |
 | `--batch-size` | 32 | GPUメモリに応じて調整 |
 ## Citation
 ```bibtex
 @software{piper_plus,
-  title = {Piper Plus: Japanese TTS with VITS},
   author = {ayousanz},
   year = {2024},
-  url = {https://github.com/ayousanz/piper}
 }
-```

 license: cc-by-sa-4.0
 language:
 - ja
+tags:
+- tts
+- vits
+- japanese
+- piper
 ---
+# Piper Plus Base Model (Japanese) with Prosody Features
+日本語TTS用の事前学習済みベースモデルです。prosody_features (A1/A2/A3) に対応しており、自然なアクセント・イントネーションを学習できます。
 ## Model Details
 | 品質 | medium |
 | 音素タイプ | OpenJTalk |
 | 話者数 | 0 (単一話者用) |
+| **prosody_dim** | **16** |
+## Prosody Features
+このモデルはA1/A2/A3プロソディ特徴量をサポートしています：
+| フィールド | 意味 | 値の例 |
+|-----------|------|--------|
+| A1 | アクセント核からの相対位置 | -4, -3, ..., 0, 1, ... |
+| A2 | アクセント句内のモーラ位置 | 1, 2, 3, ... |
+| A3 | アクセント句内の総モーラ数 | 1-10+ |
+## Usage
+### Step 1: Dataset Preprocessing
 ```bash
 uv run python -m piper_train.preprocess \
   --phoneme-type openjtalk
 ```
+### Step 2: Add Prosody Features (Recommended)
+既存のデータセットにprosody_featuresを追加します：
+```bash
+uv run python add_prosody_features.py \
+  --input-dataset /path/to/dataset/dataset.jsonl \
+  --output-dir /path/to/dataset-prosody \
+  --workers 4
+```
+### Step 3: Fine-tuning
 ```bash
 uv run python -m piper_train \
+  --dataset-dir /path/to/dataset-prosody \
   --accelerator gpu \
   --devices 1 \
   --precision 16-mixed \
+  --max_epochs 100 \
   --batch-size 32 \
   --checkpoint-epochs 1 \
   --base_lr 1e-4 \
   --default_root_dir /path/to/output
 ```
+## Recommended Parameters
 | パラメータ | 値 | 説明 |
 |-----------|-----|------|
 | `--max_epochs` | 50-100 | 少量データの場合は短め |
 | `--batch-size` | 32 | GPUメモリに応じて調整 |
+## Origin
+このベースモデルは20話者prosodyモデル（200エポック学習）から変換されました：
+- 元データセット: moe-speech-20speakers-prosody
+- 話者埋め込み層を削除
+- prosody_dim=16を保持
 ## Citation
 ```bibtex
 @software{piper_plus,
+  title = {Piper Plus: Japanese TTS with VITS and Prosody Features},
   author = {ayousanz},
   year = {2024},
+  url = {https://github.com/ayutaz/piper-plus}
 }
+```

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "dataset": "moe-speech-50speakers",
   "audio": {
     "sample_rate": 22050,
     "quality": "medium"
@@ -18,218 +18,28 @@
   "phoneme_type": "openjtalk",
   "phoneme_map": {},
   "phoneme_id_map": {
-    "_": [
-      0
-    ],
-    "^": [
-      1
-    ],
-    "$": [
-      2
-    ],
-    "?": [
-      3
-    ],
-    "#": [
-      4
-    ],
-    "[": [
-      5
-    ],
-    "]": [
-      6
-    ],
-    "a": [
-      7
-    ],
-    "i": [
-      8
-    ],
-    "u": [
-      9
-    ],
-    "e": [
-      10
-    ],
-    "o": [
-      11
-    ],
-    "A": [
-      12
-    ],
-    "I": [
-      13
-    ],
-    "U": [
-      14
-    ],
-    "E": [
-      15
-    ],
-    "O": [
-      16
-    ],
-    "": [
-      17
-    ],
-    "": [
-      18
-    ],
-    "": [
-      19
-    ],
-    "": [
-      20
-    ],
-    "": [
-      21
-    ],
-    "N": [
-      22
-    ],
-    "": [
-      23
-    ],
-    "q": [
-      24
-    ],
-    "k": [
-      25
-    ],
-    "": [
-      26
-    ],
-    "": [
-      27
-    ],
-    "g": [
-      28
-    ],
-    "": [
-      29
-    ],
-    "": [
-      30
-    ],
-    "t": [
-      31
-    ],
-    "": [
-      32
-    ],
-    "d": [
-      33
-    ],
-    "": [
-      34
-    ],
-    "p": [
-      35
-    ],
-    "": [
-      36
-    ],
-    "b": [
-      37
-    ],
-    "": [
-      38
-    ],
-    "": [
-      39
-    ],
-    "": [
-      40
-    ],
-    "s": [
-      41
-    ],
-    "": [
-      42
-    ],
-    "z": [
-      43
-    ],
-    "j": [
-      44
-    ],
-    "": [
-      45
-    ],
-    "f": [
-      46
-    ],
-    "h": [
-      47
-    ],
-    "": [
-      48
-    ],
-    "v": [
-      49
-    ],
-    "n": [
-      50
-    ],
-    "": [
-      51
-    ],
-    "m": [
-      52
-    ],
-    "": [
-      53
-    ],
-    "r": [
-      54
-    ],
-    "": [
-      55
-    ],
-    "w": [
-      56
-    ],
-    "y": [
-      57
-    ]
   },
   "num_symbols": 58,
   "num_speakers": 0,
   "piper_version": "1.4.0",
-  "prosody_num_symbols": 11,
-  "prosody_id_map": {
-    "0": [
-      0
-    ],
-    "1": [
-      1
-    ],
-    "2": [
-      2
-    ],
-    "3": [
-      3
-    ],
-    "4": [
-      4
-    ],
-    "5": [
-      5
-    ],
-    "6": [
-      6
-    ],
-    "7": [
-      7
-    ],
-    "8": [
-      8
-    ],
-    "9": [
-      9
-    ],
-    "10": [
-      10
-    ]
   }
-}

 {
+  "dataset": "moe-speech-20speakers-prosody",
   "audio": {
     "sample_rate": 22050,
     "quality": "medium"
   "phoneme_type": "openjtalk",
   "phoneme_map": {},
   "phoneme_id_map": {
+    "_": [0], "^": [1], "$": [2], "?": [3], "#": [4],
+    "[": [5], "]": [6],
+    "a": [7], "i": [8], "u": [9], "e": [10], "o": [11],
+    "A": [12], "I": [13], "U": [14], "E": [15], "O": [16],
+    "ç": [17], "ɕ": [18], "ɯ": [19], "ɴ": [20], "ɾ": [21],
+    "N": [22], "ʑ": [23], "q": [24], "k": [25],
+    "kʲ": [26], "ɡʲ": [27], "g": [28], "ɡ": [29], "dʑ": [30],
+    "t": [31], "tɕ": [32], "d": [33], "dʲ": [34],
+    "p": [35], "pʲ": [36], "b": [37], "bʲ": [38],
+    "cç": [39], "çː": [40], "s": [41], "ʃ": [42],
+    "z": [43], "j": [44], "ɲ": [45],
+    "f": [46], "h": [47], "hʲ": [48], "v": [49],
+    "n": [50], "nʲ": [51], "m": [52], "mʲ": [53],
+    "r": [54], "ɽ": [55], "w": [56], "y": [57]
   },
   "num_symbols": 58,
   "num_speakers": 0,
   "piper_version": "1.4.0",
+  "prosody_dim": 16,
+  "prosody_features": {
+    "a1": "アクセント核からの相対位置",
+    "a2": "アクセント句内のモーラ位置",
+    "a3": "アクセント句内の総モーラ数"
   }
+}

model.ckpt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4ff8c5b35bf37a190fb039fc7e8ed4d209acc2f3fbc75776bdbabd578d32a64
-size 288896406

 version https://git-lfs.github.com/spec/v1
+oid sha256:18bb25f0c4def313c7432f69efa763acb415c370c447f84f44e063e885f77c9c
+size 289775502