Spaces:

Flux9665
/

PoeticTTS

Runtime error

Flux9665 commited on Nov 3, 2022

Commit

5489b55

1 Parent(s): e30b9ac

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -38,6 +38,11 @@ class TTS_Interface:
     def __init__(self):
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
         self.utterance_cloner = UtteranceCloner(model_id="Meta", device=self.device)
         self.utterance_cloner.tts.set_language("de")
         self.acoustic_model = Aligner()
         self.acoustic_model.load_state_dict(torch.load("Models/Aligner/aligner.pt", map_location='cpu')["asr_model"])
@@ -46,7 +51,6 @@ class TTS_Interface:
         self.text = "Quellen hattest du ihm, hattest dem Flüchtigen, kühle Schatten geschenkt, und die Gestade sahen, all ihm nach, und es bebte, aus den Wellen ihr lieblich Bild."
         reference_audio = "reference_audios/2.wav"
         self.duration, self.pitch, self.energy, _, _ = self.utterance_cloner.extract_prosody(self.text, reference_audio, lang="de", on_line_fine_tune=True)
-        self.utterance_cloner.tts.text2phone.use_word_boundaries = False
         self.phones = self.utterance_cloner.tts.text2phone.get_phone_string(self.text)
         #######

     def __init__(self):
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
         self.utterance_cloner = UtteranceCloner(model_id="Meta", device=self.device)
+        # for simplicity, since we are using an oracle for this demo, and we have seen enough German data to get by without word boundaries
+        self.utterance_cloner.tf.use_word_boundaries = False
+        self.utterance_cloner.tts.text2phone.use_word_boundaries = False
         self.utterance_cloner.tts.set_language("de")
         self.acoustic_model = Aligner()
         self.acoustic_model.load_state_dict(torch.load("Models/Aligner/aligner.pt", map_location='cpu')["asr_model"])
         self.text = "Quellen hattest du ihm, hattest dem Flüchtigen, kühle Schatten geschenkt, und die Gestade sahen, all ihm nach, und es bebte, aus den Wellen ihr lieblich Bild."
         reference_audio = "reference_audios/2.wav"
         self.duration, self.pitch, self.energy, _, _ = self.utterance_cloner.extract_prosody(self.text, reference_audio, lang="de", on_line_fine_tune=True)
         self.phones = self.utterance_cloner.tts.text2phone.get_phone_string(self.text)
         #######