Spaces:

Flux9665
/

MassivelyMultilingualTTS

Running on T4

App Files Files

Flux9665 commited on Jun 11, 2024

Commit

fa66f8f

1 Parent(s): 97bcef9

try to figure out how ZeroGPU works

Browse files

Files changed (1) hide show

app.py +4 -40

app.py CHANGED Viewed

@@ -23,7 +23,7 @@ class ControllableInterface(torch.nn.Module):
     def __init__(self, available_artificial_voices=1000):
         super().__init__()
-        self.model = ToucanTTSInterface(device="cpu", tts_model_path="Meta")
         self.wgan = GanWrapper(os.path.join(MODELS_DIR, "Embedding", "embedding_gan.pt"), device="cpu")
         self.generated_speaker_embeds = list()
         self.available_artificial_voices = available_artificial_voices
@@ -53,11 +53,8 @@ class ControllableInterface(torch.nn.Module):
              loudness_in_db
              ):
         if self.current_language != language:
-            self.model.set_phonemizer_language(language)
             self.current_language = language
-        if self.current_accent != accent:
-            self.model.set_accent_language(accent)
-            self.current_accent = accent
         self.wgan.set_latent(voice_seed)
         controllability_vector = torch.tensor([emb_slider_1,
@@ -71,40 +68,7 @@ class ControllableInterface(torch.nn.Module):
         phones = self.model.text2phone.get_phone_string(prompt)
         if len(phones) > 1800:
-            if language == "deu":
-                prompt = "Deine Eingabe war zu lang. Bitte versuche es entweder mit einem kürzeren Text oder teile ihn in mehrere Teile auf."
-            elif language == "ell":
-                prompt = "Η εισήγησή σας ήταν πολύ μεγάλη. Παρακαλώ δοκιμάστε είτε ένα μικρότερο κείμενο είτε χωρίστε το σε διάφορα μέρη."
-            elif language == "spa":
-                prompt = "Su entrada es demasiado larga. Por favor, intente un texto más corto o divídalo en varias partes."
-            elif language == "fin":
-                prompt = "Vastauksesi oli liian pitkä. Kokeile joko lyhyempää tekstiä tai jaa se useampaan osaan."
-            elif language == "rus":
-                prompt = "Ваш текст слишком длинный. Пожалуйста, попробуйте либо сократить текст, либо разделить его на несколько частей."
-            elif language == "hun":
-                prompt = "Túl hosszú volt a bevitele. Kérjük, próbáljon meg rövidebb szöveget írni, vagy ossza több részre."
-            elif language == "nld":
-                prompt = "Uw input was te lang. Probeer een kortere tekst of splits het in verschillende delen."
-            elif language == "fra":
-                prompt = "Votre saisie était trop longue. Veuillez essayer un texte plus court ou le diviser en plusieurs parties."
-            elif language == 'pol':
-                prompt = "Twój wpis był zbyt długi. Spróbuj skrócić tekst lub podzielić go na kilka części."
-            elif language == 'por':
-                prompt = "O seu contributo foi demasiado longo. Por favor, tente um texto mais curto ou divida-o em várias partes."
-            elif language == 'ita':
-                prompt = "Il tuo input era troppo lungo. Per favore, prova un testo più corto o dividilo in più parti."
-            elif language == 'cmn':
-                prompt = "你的输入太长了。请尝试使用较短的文本或将其拆分为多个部分。"
-            elif language == 'vie':
-                prompt = "Đầu vào của bạn quá dài. Vui lòng thử một văn bản ngắn hơn hoặc chia nó thành nhiều phần."
-            else:
-                prompt = "Your input was too long. Please try either a shorter text or split it into several parts."
-                if self.current_language != "eng":
-                    self.model.set_phonemizer_language("eng")
-                    self.current_language = "eng"
-                if self.current_accent != "eng":
-                    self.model.set_accent_language("eng")
-                    self.current_accent = "eng"
         print(prompt)
         wav, sr, fig = self.model(prompt,
@@ -118,7 +82,7 @@ class ControllableInterface(torch.nn.Module):
         return sr, wav, fig
-title = "Controllable Text-to-Speech for over 7000 Languages"
 article = "Check out the IMS Toucan TTS Toolkit at https://github.com/DigitalPhonetics/IMS-Toucan"
 available_artificial_voices = 1000
 path_to_iso_list = "Preprocessing/multilinguality/iso_to_fullname.json"

     def __init__(self, available_artificial_voices=1000):
         super().__init__()
+        self.model = ToucanTTSInterface(device="cpu", tts_model_path="Meta", language="eng")
         self.wgan = GanWrapper(os.path.join(MODELS_DIR, "Embedding", "embedding_gan.pt"), device="cpu")
         self.generated_speaker_embeds = list()
         self.available_artificial_voices = available_artificial_voices
              loudness_in_db
              ):
         if self.current_language != language:
+            self.model = ToucanTTSInterface(device="cpu", tts_model_path="Meta", language=language)
             self.current_language = language
         self.wgan.set_latent(voice_seed)
         controllability_vector = torch.tensor([emb_slider_1,
         phones = self.model.text2phone.get_phone_string(prompt)
         if len(phones) > 1800:
+            return
         print(prompt)
         wav, sr, fig = self.model(prompt,
         return sr, wav, fig
+title = "🚧UNDER CONSTRUCTION🚧 Controllable Text-to-Speech for over 7000 Languages"
 article = "Check out the IMS Toucan TTS Toolkit at https://github.com/DigitalPhonetics/IMS-Toucan"
 available_artificial_voices = 1000
 path_to_iso_list = "Preprocessing/multilinguality/iso_to_fullname.json"