Spaces:

Flux9665
/

EnglishToucan

Running on Zero

App Files Files Community

Flux9665 commited on Jul 4, 2024

Commit

0ebcf15

1 Parent(s): 6faeba1

initial commit

Browse files

Files changed (7) hide show

Models/Embedding/init +0 -0
Models/ToucanTTS_Meta/init +0 -0
Models/Vocoder/init +0 -0
Preprocessing/multilinguality/iso_lookup.json +0 -0
Preprocessing/multilinguality/iso_to_fullname.json +0 -0
Utility/storage_config.py +2 -0
app.py +64 -0

Models/Embedding/init ADDED Viewed

File without changes

Models/ToucanTTS_Meta/init ADDED Viewed

File without changes

Models/Vocoder/init ADDED Viewed

File without changes

Preprocessing/multilinguality/iso_lookup.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Preprocessing/multilinguality/iso_to_fullname.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Utility/storage_config.py ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ MODELS_DIR = "Models/"
2	+ PREPROCESSING_DIR = "Corpora/"

app.py ADDED Viewed

	@@ -0,0 +1,64 @@

+import gradio as gr
+import torch.cuda
+from InferenceInterfaces.ControllableInterface import ControllableInterface
+from Utility.utils import float2pcm
+class TTSWebUI:
+    def __init__(self, gpu_id="cpu", title="Controllable Text-to-Speech with IMS Toucan", article="", available_artificial_voices=1000):
+        self.controllable_ui = ControllableInterface(gpu_id=gpu_id,
+                                                     available_artificial_voices=available_artificial_voices)
+        self.iface = gr.Interface(fn=self.read,
+                                  inputs=[gr.Textbox(lines=2,
+                                                     placeholder="write what you want the synthesis to read here...",
+                                                     value="The woods are lovely, dark and deep, but I have promises to keep, and miles to go, before I sleep.",
+                                                     label="Text input"),
+                                          gr.Slider(minimum=0, maximum=available_artificial_voices, step=1,
+                                                    value=279,
+                                                    label="Random Seed for the artificial Voice"),
+                                          gr.Slider(minimum=0.0, maximum=0.8, step=0.1, value=0.4, label="Prosody Creativity"),
+                                          gr.Slider(minimum=0.7, maximum=1.3, step=0.1, value=1.0, label="Duration Scale"),
+                                          gr.Slider(minimum=0.5, maximum=1.5, step=0.1, value=1.0, label="Pitch Variance Scale"),
+                                          gr.Slider(minimum=0.5, maximum=1.5, step=0.1, value=1.0, label="Energy Variance Scale"),
+                                          gr.Slider(minimum=-10.0, maximum=10.0, step=0.1, value=0.0, label="Femininity / Masculinity"),
+                                          gr.Slider(minimum=-10.0, maximum=10.0, step=0.1, value=0.0, label="Voice Depth")
+                                          ],
+                                  outputs=[gr.Audio(type="numpy", label="Speech"),
+                                           gr.Image(label="Visualization")],
+                                  title=title,
+                                  theme="default",
+                                  allow_flagging="never",
+                                  article=article)
+        self.iface.launch()
+    def read(self,
+             prompt,
+             voice_seed,
+             prosody_creativity,
+             duration_scaling_factor,
+             pitch_variance_scale,
+             energy_variance_scale,
+             emb1,
+             emb2
+             ):
+        sr, wav, fig = self.controllable_ui.read(prompt,
+                                                 voice_seed,
+                                                 prosody_creativity,
+                                                 duration_scaling_factor,
+                                                 1.,
+                                                 pitch_variance_scale,
+                                                 energy_variance_scale,
+                                                 emb1,
+                                                 emb2,
+                                                 0.,
+                                                 0.,
+                                                 0.,
+                                                 0.,
+                                                 -24.)
+        return (sr, float2pcm(wav)), fig
+if __name__ == '__main__':
+    TTSWebUI(gpu_id="cuda" if torch.cuda.is_available() else "cpu")