Spaces:

synonym
/

VALLE-X_JPVoiceCloner

Runtime error

App Files Files Community

VALLE-X_JPVoiceCloner / README.md

synonym

Update README.md

43f0406 verified 9 months ago

preview code

raw

history blame contribute delete

2.72 kB

	---
	title: VALL‑E‑X_JP-Voice-Cloner
	emoji: 🎙️
	colorFrom: indigo
	colorTo: pink
	sdk: gradio
	sdk_version: 5.25.2
	app_file: app.py
	pinned: false
	license: mit
	short_description: 5秒の音声で話者をクローン
	---

	# 🎙️ VALL‑E‑X_JP-Voice-Cloner

	Zero-shot 音声クローンができる日本語対応の音声合成アプリです。
	1〜3秒の音声サンプルと台本テキストを入力するだけで、
	話者の特徴を保持した新しいセリフ音声を生成できます。
	モデルは Microsoft の [VALL-E X](https://arxiv.org/pdf/2303.03926) を再現・公開した
	[Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X) に基づいています。

	---

	## 🐾 特徴

	- 🇯🇵 日本語対応：日本語音声の入力・出力が可能
	- 🎙️ Zero-shot Cloning：3秒の音声と文字起こしで話者再現
	- 📜 テキスト合成：好きな台本で喋らせられる
	- 🐱 カジュアルUI：誰でも使いやすい Gradio Web UI

	---

	## 🚀 使い方

	1. 左側のパネルから
	- クローンしたい話者の音声（WAV）
	- その文字起こし（必須）
	- 話させたい台本テキスト（任意）
	を入力
	2. 「🎙️ 音声生成」ボタンをクリック
	3. 右側に生成音声が再生可能な状態で表示されます🎧

	---

	## 💻 動作環境

	- 推論には CPU でも動作可能ですが、GPU があると高速です
	- 利用している主なライブラリ：
	- `torch`, `torchaudio`, `encodec`, `gradio`, `pyopenjtalk-prebuilt`, `openai-whisper`, など

	---

	## 🔗 モデルについて

	このアプリは、[Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X) によって公開された
	MITライセンスのコードおよび学習済みモデル（vallex-checkpoint.pt）を利用しています。

	モデルの詳細やアーキテクチャは[こちらのモデルカード](https://github.com/Plachtaa/VALL-E-X/blob/main/model-card.md)をご覧ください。

	> This app uses the pretrained VALL-E X model by [Plachtaa](https://github.com/Plachtaa/VALL-E-X), released under the MIT License.

	---

	## 📜 ライセンス

	本アプリケーションおよび構成コードは MIT License に基づいて公開されています。
	学習済みモデル・データセットの利用は、各リソースの元ライセンスに従ってください。

	---

	## 🧠 クレジット・参考文献

	- [VALL-E X 論文](https://arxiv.org/pdf/2303.03926)
	- [Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X)
	- [Facebook EnCodec](https://github.com/facebookresearch/encodec)
	- [OpenAI Whisper](https://github.com/openai/whisper)

	---