Akjava
/

matcha-tts_ja_single-speaker_ja005

TensorBoard

Japanese

Model card Files Files and versions

xet

Metrics Training metrics Community

Akjava commited on Sep 17, 2024

Commit

66a9e0c

verified ·

1 Parent(s): 3b29d1a

Update README.md

Browse files

Files changed (1) hide show

README.md +25 -27

README.md CHANGED Viewed

@@ -5,6 +5,11 @@ language:
 datasets:
 - Akjava/ja005_speech_common-voice_22khz
 ---
 **モデル名:**  Matcha-TTS-Japanese Single Speaker Female Voice - ja005
@@ -22,44 +27,49 @@ datasets:
 * ja005_speech_common-voice_22khz - Large
 **トレーニング方法:**
 * ベースモデル: Matcha_LJSpeech
 * トレーニング/検証データ分割: モーラバランスV1と文字長さに基づく80:20分割
 * バッチサイズ: 80
-* エポック数: [エポック数] (例: 12099)
 * その他トレーニング設定: デフォルト
-* [トレーニング中に発生した問題点や対処法] (例: バッチサイズによるフリーズ, ロボット音声, 特定音素の学習不足)
 **モデルの性能:**
-* [モデルの強み] (例: 特定話者の音声を再現, 音素の正確な再現)
-* [モデルの弱点] (例: イントネーションの不安定さ, ノイズ, 学習データにない音素の発音)
-* [客観的な評価指標] (例: MOS値, MCD値)
-* [主観的な評価結果] (例: 複数の話者の評価結果, 各話者の音声品質に関するコメント)
 **使用例:**
-* [モデルの用途] (例: 音声合成アプリケーション, 研究用途, ファインチューニング用ベースモデル)
-* [モデルの使用上の注意点] (例: 特定の音素の発音に課題, イントネーションの調整が必要)
 **重要なチェックポイント:**
-* [チェックポイント番号]: [チェックポイントの説明] (例: 5709 - 最新, 5574 - group003f-CL-V1の最終)
 **既知の問題点/警告:**
-* [モデルの既知の問題点] (例: 特定音素の発音, イントネーション, ノイズ)
-* [モデルの使用に関する警告] (例: 学習データ以外の音声合成は精度が低い可能性)
 **今後の課題:**
-* [モデルの改善点] (例: イントネーションの改善, ノイズ除去, 学習データの拡充)
 **クレジット:**
-* [使用したベースモデルの作成者] (例: Shivam Mehta (GitHub) - Matcha-TTS)
-* [使用したデータセットの作成者] (例: Mozilla Common Voice)
 **引用情報:**
@@ -67,16 +77,4 @@ datasets:
 **その他:**
-* [モデルに関する補足情報] (例: 内部コードネーム, TODOリスト)
-**注記:**
-* 上記はあくまで提案であり、必要に応じて項目の追加や削除、内容の変更を行ってください。
-* モデルの特性に合わせて、具体的な内容を記述してください。
-* 評価結果などを含めることで、より詳細なモデルカードを作成できます。
-## Train
-- Base model:Matcha_LJSpeech
-- The train and valid split is based on mora balance-V1 and word length.

 datasets:
 - Akjava/ja005_speech_common-voice_22khz
 ---
+<div class="audio-container">
+  <h4>ITA-Rectaion-010:家具商人のフィシェルは、荷車と仔馬を貸してくれた。(kagushooniNnofisheruwa,nigurumatokoumaokashItekureta.)</h4>
+  <audio controls src="https://huggingface.co/Akjava/matcha-tts_ja_single-speaker_ja005/resolve/main/examples/ita-recitation_ja005_ep2799_spk_single/utterance_010.wav
+"></audio>
+</div>
 **モデル名:**  Matcha-TTS-Japanese Single Speaker Female Voice - ja005
 * ja005_speech_common-voice_22khz - Large
+この音声はVAD済です。データーセットそのものから、学習に不向きな音声が除かれている場合もありますが訓練時に省いたものもあります。
 **トレーニング方法:**
 * ベースモデル: Matcha_LJSpeech
 * トレーニング/検証データ分割: モーラバランスV1と文字長さに基づく80:20分割
 * バッチサイズ: 80
+* エポック数:  2799
 * その他トレーニング設定: デフォルト
+* 問題なくトレーニング終了
 **モデルの性能:**
+現状、若干の学習不足を感じる。
+* 音量・ノイズ・音質共に、標準以上
+* イントネーションが酷いところがある。若干一部音素にノイズあり(学習不足?)
+* CER 0.065 by [jyakoTen 0.2](https://github.com/akjava/jyakoTen)
+* mora-all出力v0.2を検証 - サ行にノイズ有り
 **使用例:**
+ほぼ同じ容量で話者多数のマルチスピーカーがあるのでシングルを使う局面は限られている。
+* 一番音質がいいはずなので、他のトレーニング用の音を作るのには向いている。
+* イントネーションはいまいちなので、制御が必要
 **重要なチェックポイント:**
+* [2799](https://huggingface.co/Akjava/matcha-tts_ja_single-speaker_ja005/resolve/main/runs/2024-09-14_10-10-15/checkpoints/checkpoint_epoch%3D2799.ckpt) - 最終
 **既知の問題点/警告:**
+* 若干Roboticになる可能性有り
+* イントネーションに難あり
 **今後の課題:**
+* もう少しトレーニングが必要
 **クレジット:**
+* Shivam Mehta ([GitHub](https://github.com/shivammehta25/Matcha-TTS)) - Matcha-TTS
+* [Mozilla Common Voice](https://commonvoice.mozilla.org/ja)
 **引用情報:**
 **その他:**
+* 同Datasetのマルチスピーカー版など有り