File size: 1,952 Bytes

---
license: cc-by-sa-4.0
language:
- ja
tags:
- tts
- vits
- japanese
- piper
---

# Piper Plus Base Model (Japanese)

日本語TTS用の事前学習済みベースモデルです。

## Model Details

| 項目 | 値 |
|------|-----|
| アーキテクチャ | VITS |
| 言語 | 日本語 (ja) |
| サンプルレート | 22050 Hz |
| 品質 | medium |
| 音素タイプ | OpenJTalk |
| **prosody_dim** | **16** |

## Usage

### Step 1: Dataset Preprocessing

```bash
uv run python -m piper_train.preprocess \
  --input-dir /path/to/your-ljspeech-data \
  --output-dir /path/to/dataset \
  --language ja \
  --dataset-format ljspeech \
  --sample-rate 22050 \
  --single-speaker \
  --phoneme-type openjtalk
```

### Step 2: Add Prosody Features (Recommended)

既存のデータセットにprosody_featuresを追加します：

```bash
uv run python add_prosody_features.py \
  --input-dataset /path/to/dataset/dataset.jsonl \
  --output-dir /path/to/dataset-prosody \
  --workers 4
```

### Step 3: Fine-tuning

```bash
uv run python -m piper_train \
  --dataset-dir /path/to/dataset-prosody \
  --accelerator gpu \
  --devices 1 \
  --precision 16-mixed \
  --max_epochs 100 \
  --batch-size 32 \
  --checkpoint-epochs 1 \
  --base_lr 1e-4 \
  --disable_auto_lr_scaling \
  --resume_from_checkpoint /path/to/model.ckpt \
  --default_root_dir /path/to/output
```

## Recommended Parameters

| パラメータ | 値 | 説明 |
|-----------|-----|------|
| `--base_lr` | 1e-4 | 事前学習より低い学習率（過学習防止） |
| `--disable_auto_lr_scaling` | - | 学習率の自動スケーリングを無効化 |
| `--max_epochs` | 50-100 | 少量データの場合は短め |
| `--batch-size` | 32 | GPUメモリに応じて調整 |

## Citation

```bibtex
@software{piper_plus,
  title = {Piper Plus: Japanese TTS with VITS and Prosody Features},
  author = {ayousanz},
  year = {2024},
  url = {https://github.com/ayutaz/piper-plus}
}
```