Spaces:
Sleeping
Sleeping
| top_md_org = """ | |
| # VALL-E X | |
| VALL-E X can synthesize high-quality personalized speech with only a 3-second enrolled recording of | |
| an unseen speaker as an acoustic prompt, even in another language for a monolingual speaker.<br> | |
| This implementation supports zero-shot, mono-lingual/cross-lingual text-to-speech functionality of three languages (English, Chinese, Japanese)<br> | |
| See this [demo](https://plachtaa.github.io/) page for more details. | |
| """ | |
| top_ja_md = """ | |
| # VALL-E X | |
| VALL-E X は、未学習の話者でも 3 秒間の音声プロンプトだけで高品質なパーソナライズ音声を合成できます。<br> | |
| 単一言語話者であっても別の言語による音声合成が可能です。<br> | |
| 本実装は英語・中国語・日本語のゼロショット単言語/クロス言語テキスト読み上げをサポートしています。 | |
| ## Reference | |
| - [github.com/Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X/tree/master#readme) | |
| - [github.com/gemelo-ai/vocos](https://github.com/gemelo-ai/vocos) | |
| """ | |
| infer_from_audio_md_org = """ | |
| Upload a speech of 3~10 seconds as the audio prompt and type in the text you'd like to synthesize.<br> | |
| The model will synthesize speech of given text with the same voice of your audio prompt.<br> | |
| The model also tends to preserve the emotion & acoustic environment of your given speech.<br> | |
| For faster inference, please use **"Make prompt"** to get a `.npz` file as the encoded audio prompt, and use it by **"Infer from prompt"** | |
| """ | |
| infer_from_audio_ja_md = """ | |
| 3〜10 秒程度の音声をプロンプトとしてアップロードし、合成したいテキストを入力してください。<br> | |
| モデルは、プロンプトと同じ声質でテキストを読み上げる音声を生成します。<br> | |
| 元の音声に含まれる感情や音響環境も比較的保持されます。<br> | |
| 推論を高速化したい場合は **"Make prompt"** で `.npz` ファイルを作成し、 **"Infer from prompt"** で利用してください。 | |
| """ | |