Update README.md
Browse files
README.md
CHANGED
|
@@ -5,6 +5,11 @@ language:
|
|
| 5 |
datasets:
|
| 6 |
- Akjava/ja005_speech_common-voice_22khz
|
| 7 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 8 |
|
| 9 |
**モデル名:** Matcha-TTS-Japanese Single Speaker Female Voice - ja005
|
| 10 |
|
|
@@ -22,44 +27,49 @@ datasets:
|
|
| 22 |
|
| 23 |
* ja005_speech_common-voice_22khz - Large
|
| 24 |
|
|
|
|
|
|
|
| 25 |
**トレーニング方法:**
|
| 26 |
|
| 27 |
* ベースモデル: Matcha_LJSpeech
|
| 28 |
* トレーニング/検証データ分割: モーラバランスV1と文字長さに基づく80:20分割
|
| 29 |
* バッチサイズ: 80
|
| 30 |
-
* エポック数:
|
| 31 |
* その他トレーニング設定: デフォルト
|
| 32 |
-
*
|
| 33 |
|
| 34 |
**モデルの性能:**
|
| 35 |
|
| 36 |
-
|
| 37 |
-
|
| 38 |
-
*
|
| 39 |
-
*
|
|
|
|
|
|
|
| 40 |
|
| 41 |
**使用例:**
|
|
|
|
| 42 |
|
| 43 |
-
*
|
| 44 |
-
*
|
| 45 |
|
| 46 |
**重要なチェックポイント:**
|
| 47 |
|
| 48 |
-
* [
|
| 49 |
|
| 50 |
**既知の問題点/警告:**
|
| 51 |
|
| 52 |
-
*
|
| 53 |
-
*
|
| 54 |
|
| 55 |
**今後の課題:**
|
| 56 |
|
| 57 |
-
*
|
| 58 |
|
| 59 |
**クレジット:**
|
| 60 |
|
| 61 |
-
*
|
| 62 |
-
* [
|
| 63 |
|
| 64 |
**引用情報:**
|
| 65 |
|
|
@@ -67,16 +77,4 @@ datasets:
|
|
| 67 |
|
| 68 |
**その他:**
|
| 69 |
|
| 70 |
-
*
|
| 71 |
-
|
| 72 |
-
|
| 73 |
-
**注記:**
|
| 74 |
-
|
| 75 |
-
* 上記はあくまで提案であり、必要に応じて項目の追加や削除、内容の変更を行ってください。
|
| 76 |
-
* モデルの特性に合わせて、具体的な内容を記述してください。
|
| 77 |
-
* 評価結果などを含めることで、より詳細なモデルカードを作成できます。
|
| 78 |
-
|
| 79 |
-
|
| 80 |
-
## Train
|
| 81 |
-
- Base model:Matcha_LJSpeech
|
| 82 |
-
- The train and valid split is based on mora balance-V1 and word length.
|
|
|
|
| 5 |
datasets:
|
| 6 |
- Akjava/ja005_speech_common-voice_22khz
|
| 7 |
---
|
| 8 |
+
<div class="audio-container">
|
| 9 |
+
<h4>ITA-Rectaion-010:家具商人のフィシェルは、荷車と仔馬を貸してくれた。(kagushooniNnofisheruwa,nigurumatokoumaokashItekureta.)</h4>
|
| 10 |
+
<audio controls src="https://huggingface.co/Akjava/matcha-tts_ja_single-speaker_ja005/resolve/main/examples/ita-recitation_ja005_ep2799_spk_single/utterance_010.wav
|
| 11 |
+
"></audio>
|
| 12 |
+
</div>
|
| 13 |
|
| 14 |
**モデル名:** Matcha-TTS-Japanese Single Speaker Female Voice - ja005
|
| 15 |
|
|
|
|
| 27 |
|
| 28 |
* ja005_speech_common-voice_22khz - Large
|
| 29 |
|
| 30 |
+
この音声はVAD済です。データーセットそのものから、学習に不向きな音声が除かれている場合もありますが訓練時に省いたものもあります。
|
| 31 |
+
|
| 32 |
**トレーニング方法:**
|
| 33 |
|
| 34 |
* ベースモデル: Matcha_LJSpeech
|
| 35 |
* トレーニング/検証データ分割: モーラバランスV1と文字長さに基づく80:20分割
|
| 36 |
* バッチサイズ: 80
|
| 37 |
+
* エポック数: 2799
|
| 38 |
* その他トレーニング設定: デフォルト
|
| 39 |
+
* 問題なくトレーニング終了
|
| 40 |
|
| 41 |
**モデルの性能:**
|
| 42 |
|
| 43 |
+
現状、若干の学習不足を感じる。
|
| 44 |
+
|
| 45 |
+
* 音量・ノイズ・音質共に、標準以上
|
| 46 |
+
* イントネーションが酷いところがある。若干一部音素にノイズあり(学習不足?)
|
| 47 |
+
* CER 0.065 by [jyakoTen 0.2](https://github.com/akjava/jyakoTen)
|
| 48 |
+
* mora-all出力v0.2を検証 - サ行にノイズ有り
|
| 49 |
|
| 50 |
**使用例:**
|
| 51 |
+
ほぼ同じ容量で話者多数のマルチスピーカーがあるのでシングルを使う局面は限られている。
|
| 52 |
|
| 53 |
+
* 一番音質がいいはずなので、他のトレーニング用の音を作るのには向いている。
|
| 54 |
+
* イントネーションはいまいちなので、制御が必要
|
| 55 |
|
| 56 |
**重要なチェックポイント:**
|
| 57 |
|
| 58 |
+
* [2799](https://huggingface.co/Akjava/matcha-tts_ja_single-speaker_ja005/resolve/main/runs/2024-09-14_10-10-15/checkpoints/checkpoint_epoch%3D2799.ckpt) - 最終
|
| 59 |
|
| 60 |
**既知の問題点/警告:**
|
| 61 |
|
| 62 |
+
* 若干Roboticになる可能性有り
|
| 63 |
+
* イントネーションに難あり
|
| 64 |
|
| 65 |
**今後の課題:**
|
| 66 |
|
| 67 |
+
* もう少しトレーニングが必要
|
| 68 |
|
| 69 |
**クレジット:**
|
| 70 |
|
| 71 |
+
* Shivam Mehta ([GitHub](https://github.com/shivammehta25/Matcha-TTS)) - Matcha-TTS
|
| 72 |
+
* [Mozilla Common Voice](https://commonvoice.mozilla.org/ja)
|
| 73 |
|
| 74 |
**引用情報:**
|
| 75 |
|
|
|
|
| 77 |
|
| 78 |
**その他:**
|
| 79 |
|
| 80 |
+
* 同Datasetのマルチスピーカー版など有り
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|