File size: 1,952 Bytes
2973145
 
 
 
5f35236
 
 
 
 
2973145
5839abd
188f042
5f35236
188f042
9582a2e
010b0d3
 
 
 
 
 
 
 
 
5f35236
 
 
010b0d3
5f35236
010b0d3
 
 
 
 
 
 
 
 
 
 
 
5f35236
 
 
 
 
 
 
 
 
 
 
 
010b0d3
 
 
5f35236
010b0d3
 
 
5f35236
010b0d3
 
 
 
 
 
 
 
5f35236
010b0d3
 
 
 
 
 
 
 
 
 
 
 
5f35236
010b0d3
 
5f35236
010b0d3
5f35236
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
---
license: cc-by-sa-4.0
language:
- ja
tags:
- tts
- vits
- japanese
- piper
---

# Piper Plus Base Model (Japanese)

日本語TTS用の事前学習済みベースモデルです。

## Model Details

| 項目 | 値 |
|------|-----|
| アーキテクチャ | VITS |
| 言語 | 日本語 (ja) |
| サンプルレート | 22050 Hz |
| 品質 | medium |
| 音素タイプ | OpenJTalk |
| **prosody_dim** | **16** |

## Usage

### Step 1: Dataset Preprocessing

```bash
uv run python -m piper_train.preprocess \
  --input-dir /path/to/your-ljspeech-data \
  --output-dir /path/to/dataset \
  --language ja \
  --dataset-format ljspeech \
  --sample-rate 22050 \
  --single-speaker \
  --phoneme-type openjtalk
```

### Step 2: Add Prosody Features (Recommended)

既存のデータセットにprosody_featuresを追加します:

```bash
uv run python add_prosody_features.py \
  --input-dataset /path/to/dataset/dataset.jsonl \
  --output-dir /path/to/dataset-prosody \
  --workers 4
```

### Step 3: Fine-tuning

```bash
uv run python -m piper_train \
  --dataset-dir /path/to/dataset-prosody \
  --accelerator gpu \
  --devices 1 \
  --precision 16-mixed \
  --max_epochs 100 \
  --batch-size 32 \
  --checkpoint-epochs 1 \
  --base_lr 1e-4 \
  --disable_auto_lr_scaling \
  --resume_from_checkpoint /path/to/model.ckpt \
  --default_root_dir /path/to/output
```

## Recommended Parameters

| パラメータ | 値 | 説明 |
|-----------|-----|------|
| `--base_lr` | 1e-4 | 事前学習より低い学習率(過学習防止) |
| `--disable_auto_lr_scaling` | - | 学習率の自動スケーリングを無効化 |
| `--max_epochs` | 50-100 | 少量データの場合は短め |
| `--batch-size` | 32 | GPUメモリに応じて調整 |

## Citation

```bibtex
@software{piper_plus,
  title = {Piper Plus: Japanese TTS with VITS and Prosody Features},
  author = {ayousanz},
  year = {2024},
  url = {https://github.com/ayutaz/piper-plus}
}
```