Spaces:
Runtime error
Runtime error
| title: VALL‑E‑X_JP-Voice-Cloner | |
| emoji: 🎙️ | |
| colorFrom: indigo | |
| colorTo: pink | |
| sdk: gradio | |
| sdk_version: 5.25.2 | |
| app_file: app.py | |
| pinned: false | |
| license: mit | |
| short_description: 5秒の音声で話者をクローン | |
| # 🎙️ VALL‑E‑X_JP-Voice-Cloner | |
| Zero-shot 音声クローンができる日本語対応の音声合成アプリです。 | |
| 1〜3秒の音声サンプルと台本テキストを入力するだけで、 | |
| **話者の特徴を保持した新しいセリフ音声を生成**できます。 | |
| モデルは Microsoft の [VALL-E X](https://arxiv.org/pdf/2303.03926) を再現・公開した | |
| [Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X) に基づいています。 | |
| --- | |
| ## 🐾 特徴 | |
| - 🇯🇵 **日本語対応**:日本語音声の入力・出力が可能 | |
| - 🎙️ **Zero-shot Cloning**:3秒の音声と文字起こしで話者再現 | |
| - 📜 **テキスト合成**:好きな台本で喋らせられる | |
| - 🐱 **カジュアルUI**:誰でも使いやすい Gradio Web UI | |
| --- | |
| ## 🚀 使い方 | |
| 1. 左側のパネルから | |
| - クローンしたい話者の音声(WAV) | |
| - その文字起こし(必須) | |
| - 話させたい台本テキスト(任意) | |
| を入力 | |
| 2. 「🎙️ 音声生成」ボタンをクリック | |
| 3. 右側に生成音声が再生可能な状態で表示されます🎧 | |
| --- | |
| ## 💻 動作環境 | |
| - 推論には CPU でも動作可能ですが、GPU があると高速です | |
| - 利用している主なライブラリ: | |
| - `torch`, `torchaudio`, `encodec`, `gradio`, `pyopenjtalk-prebuilt`, `openai-whisper`, など | |
| --- | |
| ## 🔗 モデルについて | |
| このアプリは、[Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X) によって公開された | |
| MITライセンスのコードおよび学習済みモデル(vallex-checkpoint.pt)を利用しています。 | |
| モデルの詳細やアーキテクチャは[こちらのモデルカード](https://github.com/Plachtaa/VALL-E-X/blob/main/model-card.md)をご覧ください。 | |
| > This app uses the pretrained VALL-E X model by [Plachtaa](https://github.com/Plachtaa/VALL-E-X), released under the MIT License. | |
| --- | |
| ## 📜 ライセンス | |
| 本アプリケーションおよび構成コードは **MIT License** に基づいて公開されています。 | |
| 学習済みモデル・データセットの利用は、各リソースの元ライセンスに従ってください。 | |
| --- | |
| ## 🧠 クレジット・参考文献 | |
| - [VALL-E X 論文](https://arxiv.org/pdf/2303.03926) | |
| - [Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X) | |
| - [Facebook EnCodec](https://github.com/facebookresearch/encodec) | |
| - [OpenAI Whisper](https://github.com/openai/whisper) | |
| --- |