Update README.md
Browse files
README.md
CHANGED
|
@@ -9,9 +9,9 @@ tags:
|
|
| 9 |
- piper
|
| 10 |
---
|
| 11 |
|
| 12 |
-
# Piper Plus Base Model (Japanese)
|
| 13 |
|
| 14 |
-
日本語TTS用の事前学習済みベースモデルです。
|
| 15 |
|
| 16 |
## Model Details
|
| 17 |
|
|
@@ -22,19 +22,8 @@ tags:
|
|
| 22 |
| サンプルレート | 22050 Hz |
|
| 23 |
| 品質 | medium |
|
| 24 |
| 音素タイプ | OpenJTalk |
|
| 25 |
-
| 話者数 | 0 (単一話者用) |
|
| 26 |
| **prosody_dim** | **16** |
|
| 27 |
|
| 28 |
-
## Prosody Features
|
| 29 |
-
|
| 30 |
-
このモデルはA1/A2/A3プロソディ特徴量をサポートしています:
|
| 31 |
-
|
| 32 |
-
| フィールド | 意味 | 値の例 |
|
| 33 |
-
|-----------|------|--------|
|
| 34 |
-
| A1 | アクセント核からの相対位置 | -4, -3, ..., 0, 1, ... |
|
| 35 |
-
| A2 | アクセント句内のモーラ位置 | 1, 2, 3, ... |
|
| 36 |
-
| A3 | アクセント句内の総モーラ数 | 1-10+ |
|
| 37 |
-
|
| 38 |
## Usage
|
| 39 |
|
| 40 |
### Step 1: Dataset Preprocessing
|
|
@@ -87,13 +76,6 @@ uv run python -m piper_train \
|
|
| 87 |
| `--max_epochs` | 50-100 | 少量データの場合は短め |
|
| 88 |
| `--batch-size` | 32 | GPUメモリに応じて調整 |
|
| 89 |
|
| 90 |
-
## Origin
|
| 91 |
-
|
| 92 |
-
このベースモデルは20話者prosodyモデル(200エポック学習)から変換されました:
|
| 93 |
-
- 元データセット: moe-speech-20speakers-prosody
|
| 94 |
-
- 話者埋め込み層を削除
|
| 95 |
-
- prosody_dim=16を保持
|
| 96 |
-
|
| 97 |
## Citation
|
| 98 |
|
| 99 |
```bibtex
|
|
|
|
| 9 |
- piper
|
| 10 |
---
|
| 11 |
|
| 12 |
+
# Piper Plus Base Model (Japanese)
|
| 13 |
|
| 14 |
+
日本語TTS用の事前学習済みベースモデルです。
|
| 15 |
|
| 16 |
## Model Details
|
| 17 |
|
|
|
|
| 22 |
| サンプルレート | 22050 Hz |
|
| 23 |
| 品質 | medium |
|
| 24 |
| 音素タイプ | OpenJTalk |
|
|
|
|
| 25 |
| **prosody_dim** | **16** |
|
| 26 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 27 |
## Usage
|
| 28 |
|
| 29 |
### Step 1: Dataset Preprocessing
|
|
|
|
| 76 |
| `--max_epochs` | 50-100 | 少量データの場合は短め |
|
| 77 |
| `--batch-size` | 32 | GPUメモリに応じて調整 |
|
| 78 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 79 |
## Citation
|
| 80 |
|
| 81 |
```bibtex
|