NeutralToucan

Running

App Files Files

Flux9665 commited on May 17, 2025

Commit

987fd27

1 Parent(s): f44a589

speed improvements and documentation

Browse files

Files changed (3) hide show

InferenceInterfaces/ControllableInterface.py +23 -23
InferenceInterfaces/ToucanTTSInterface.py +1 -1
app.py +3 -4

InferenceInterfaces/ControllableInterface.py CHANGED Viewed

@@ -59,31 +59,31 @@ class ControllableInterface:
                                                            0.0], dtype=torch.float32)
                     embedding = self.wgan.modify_embed(controllability_vector)
                     self.model.set_utterance_embedding(embedding=embedding)
-                    wav, sr, fig, pitch, energy, durations = self.model(prompt,
-                                                                        input_is_phones=True,
-                                                                        duration_scaling_factor=1.0,
-                                                                        pitch_variance_scale=1.0,
-                                                                        energy_variance_scale=1.0,
-                                                                        pause_duration_scaling_factor=1.0,
-                                                                        return_plot_as_filepath=True,
-                                                                        prosody_creativity=prosody_creativity,
-                                                                        loudness_in_db=loudness_in_db,
-                                                                        pitch=pitch,
-                                                                        energy=energy,
-                                                                        durations=durations)
                     wavs.append(wav)
-                wav = sum(wavs)/len(wavs)
         else:
             self.model.set_utterance_embedding(reference_audio)
         if not voice_seed and reference_audio is not None:
-            wav, sr, fig, pitch, energy, durations = self.model(prompt,
-                                                                input_is_phones=True,
-                                                                duration_scaling_factor=1.0,
-                                                                pitch_variance_scale=1.0,
-                                                                energy_variance_scale=1.0,
-                                                                pause_duration_scaling_factor=1.0,
-                                                                return_plot_as_filepath=True,
-                                                                prosody_creativity=prosody_creativity,
-                                                                loudness_in_db=loudness_in_db)
-        return sr, wav, fig

                                                            0.0], dtype=torch.float32)
                     embedding = self.wgan.modify_embed(controllability_vector)
                     self.model.set_utterance_embedding(embedding=embedding)
+                    wav, sr, pitch, energy, durations = self.model(prompt,
+                                                                   input_is_phones=True,
+                                                                   duration_scaling_factor=1.0,
+                                                                   pitch_variance_scale=1.0,
+                                                                   energy_variance_scale=1.0,
+                                                                   pause_duration_scaling_factor=1.0,
+                                                                   return_plot_as_filepath=False,
+                                                                   prosody_creativity=prosody_creativity,
+                                                                   loudness_in_db=loudness_in_db,
+                                                                   pitch=pitch,
+                                                                   energy=energy,
+                                                                   durations=durations)
                     wavs.append(wav)
+                wav = sum(wavs) / len(wavs)
         else:
             self.model.set_utterance_embedding(reference_audio)
         if not voice_seed and reference_audio is not None:
+            wav, sr, pitch, energy, durations = self.model(prompt,
+                                                           input_is_phones=True,
+                                                           duration_scaling_factor=1.0,
+                                                           pitch_variance_scale=1.0,
+                                                           energy_variance_scale=1.0,
+                                                           pause_duration_scaling_factor=1.0,
+                                                           return_plot_as_filepath=False,
+                                                           prosody_creativity=prosody_creativity,
+                                                           loudness_in_db=loudness_in_db)
+        return sr, wav

InferenceInterfaces/ToucanTTSInterface.py CHANGED Viewed

@@ -232,7 +232,7 @@ class ToucanTTSInterface(torch.nn.Module):
                 plt.savefig("tmp.png")
                 plt.close()
                 return wave, sr, "tmp.png", pitch, energy, durations
-        return wave, sr
     def read_to_file(self,
                      text_list,

                 plt.savefig("tmp.png")
                 plt.close()
                 return wave, sr, "tmp.png", pitch, energy, durations
+        return wave, sr, pitch, energy, durations
     def read_to_file(self,
                      text_list,

app.py CHANGED Viewed

@@ -43,8 +43,7 @@ class TTSWebUI:
                                           # gr.Slider(minimum=0.5, maximum=1.5, step=0.1, value=1.0, label="Energy Variance Scale"),
                                           # gr.Slider(minimum=-10.0, maximum=10.0, step=0.1, value=0.0, label="Voice Depth")
                                           ],
-                                  outputs=[gr.Audio(type="numpy", label="Speech"),
-                                           gr.Image(label="Visualization")],
                                   title=title,
                                   allow_flagging="never",
                                   description=article,
@@ -57,12 +56,12 @@ class TTSWebUI:
              voice_seed,
              reference_audio,
              ):
-        sr, wav, fig = self.controllable_ui.read(prompt,
                                                  reference_audio,
                                                  voice_seed,
                                                  prosody_creativity,
                                                  -24.)
-        return (sr, float2pcm(wav)), fig
 if __name__ == '__main__':

                                           # gr.Slider(minimum=0.5, maximum=1.5, step=0.1, value=1.0, label="Energy Variance Scale"),
                                           # gr.Slider(minimum=-10.0, maximum=10.0, step=0.1, value=0.0, label="Voice Depth")
                                           ],
+                                  outputs=[gr.Audio(type="numpy", label="Speech")],
                                   title=title,
                                   allow_flagging="never",
                                   description=article,
              voice_seed,
              reference_audio,
              ):
+        sr, wav = self.controllable_ui.read(prompt,
                                                  reference_audio,
                                                  voice_seed,
                                                  prosody_creativity,
                                                  -24.)
+        return (sr, float2pcm(wav))
 if __name__ == '__main__':