Spaces:

TGPro1
/

XTTS-v2

Running on Zero

TGPro1 commited on Jan 10

Commit

9bfb45c

verified ·

1 Parent(s): cb07513

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,32 +1,37 @@
 import os
 import gradio as gr
-from TTS.api import TTS
 os.environ["COQUI_TOS_AGREED"] = "1"
-print("Loading XTTS model...")
-tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
 def clone_voice(text, language, reference_audio):
-    output_path = "output.wav"
-    tts.tts_to_file(
-        text=text,
-        file_path=output_path,
-        speaker_wav=reference_audio,
-        language=language
-    )
-    return output_path
 LANGS = ["en","es","fr","de","it","pt","pl","tr","ru","nl","cs","ar","zh-cn","ja","ko","hu"]
 demo = gr.Interface(
     fn=clone_voice,
     inputs=[
-        gr.Textbox(label="Text to synthesize"),
         gr.Dropdown(choices=LANGS, value="fr", label="Language"),
-        gr.Audio(label="Reference Voice (5-30s)", type="filepath")
     ],
-    outputs=gr.Audio(label="Generated Audio"),
     title="XTTS v2 Voice Cloning"
 )

 import os
 import gradio as gr
+from TTS.tts.configs.xtts_config import XttsConfig
+from TTS.tts.models.xtts import Xtts
+from huggingface_hub import snapshot_download
 os.environ["COQUI_TOS_AGREED"] = "1"
+print("Downloading XTTS-v2 model...")
+repo_id = "XTTS-v2"
+if not os.path.exists(repo_id):
+    snapshot_download(repo_id="coqui/XTTS-v2", local_dir=repo_id, allow_patterns=["*.json", "*.pth", "*.wav"])
+print("Loading model...")
+config = XttsConfig()
+config.load_json("XTTS-v2/config.json")
+model = Xtts.init_from_config(config)
+model.load_checkpoint(config, checkpoint_dir="XTTS-v2", eval=True)
+print("Model loaded!")
 def clone_voice(text, language, reference_audio):
+    outputs = model.synthesize(text, config, speaker_wav=reference_audio, language=language)
+    return (24000, outputs["wav"])
 LANGS = ["en","es","fr","de","it","pt","pl","tr","ru","nl","cs","ar","zh-cn","ja","ko","hu"]
 demo = gr.Interface(
     fn=clone_voice,
     inputs=[
+        gr.Textbox(label="Text"),
         gr.Dropdown(choices=LANGS, value="fr", label="Language"),
+        gr.Audio(label="Reference Audio", type="filepath")
     ],
+    outputs=gr.Audio(label="Output"),
     title="XTTS v2 Voice Cloning"
 )