OpenVoice

Sleeping

App Files Files Community

Chuatury commited on Jun 5, 2025

Commit

15cc387

unverified ·

1 Parent(s): b3283e2

fix: se

Browse files

Files changed (1) hide show

app_locally.py +39 -49

app_locally.py CHANGED Viewed

@@ -53,50 +53,49 @@ def predict(prompt, speaker_wav, transform_wav):
     # initialize a empty info
     text_hint = ""
-    # first detect the input language
-    language_predicted = langid.classify(prompt)[0].strip()
-    print(f"Detected language:{language_predicted}")
-    if language_predicted not in supported_languages:
-        text_hint += f"[ERROR] The detected language {language_predicted} for your input text is not in our Supported Languages: {supported_languages}\n"
-        gr.Warning(
-            f"The detected language {language_predicted} for your input text is not in our Supported Languages: {supported_languages}"
-        )
-        return (
-            text_hint,
-            None,
-            None,
         )
-    if language_predicted == "zh":
-        tts_model = zh_base_speaker_tts
-        source_se = zh_source_se
-        language = "Chinese"
-    else:
-        tts_model = en_base_speaker_tts
-        source_se = en_source_default_se
-        language = "English"
-    # if len(prompt) < 2:
-    #     text_hint += f"[ERROR] Please give a longer prompt text \n"
-    #     gr.Warning("Please give a longer prompt text")
-    #     return (
-    #         text_hint,
-    #         None,
-    #         None,
-    #     )
-    # if len(prompt) > 200:
-    #     text_hint += f"[ERROR] Text length limited to 200 characters for this demo, please try shorter text. You can clone our open-source repo and try for your usage \n"
-    #     gr.Warning(
-    #         "Text length limited to 200 characters for this demo, please try shorter text. You can clone our open-source repo for your usage"
-    #     )
-    #     return (
-    #         text_hint,
-    #         None,
-    #         None,
-    #     )
     # note diffusion_conditioning not used on hifigan (default mode), it will be empty but need to pass it to model.inference
     try:
@@ -117,15 +116,6 @@ def predict(prompt, speaker_wav, transform_wav):
             None,
         )
-    if transform_wav is not None:
-        # if transform_wav is provided, use it as the source audio
-        src_path = transform_wav
-        text_hint += f"Using transform audio {src_path} as source audio \n"
-    else:
-        text_hint += f"Using TTS to generate source audio from the prompt text \n"
-        src_path = f"{output_dir}/tmp.wav"
-        tts_model.tts(prompt, src_path, speaker="default", language=language)
     save_path = f"{output_dir}/output.wav"
     # Run the tone color converter
     encode_message = "@MyShell"

     # initialize a empty info
     text_hint = ""
+    if transform_wav is not None:
+        # if transform_wav is provided, use it as the source audio
+        src_path = transform_wav
+        text_hint += f"Using transform audio {src_path} as source audio \n"
+        # extract source_se
+        source_se, _ = se_extractor.get_se(
+            speaker_wav,
+            tone_color_converter,
+            target_dir="processed",
+            max_length=60.0,
+            vad=True,
         )
+    else:
+        # first detect the input language
+        language_predicted = langid.classify(prompt)[0].strip()
+        print(f"Detected language:{language_predicted}")
+        if language_predicted not in supported_languages:
+            text_hint += f"[ERROR] The detected language {language_predicted} for your input text is not in our Supported Languages: {supported_languages}\n"
+            gr.Warning(
+                f"The detected language {language_predicted} for your input text is not in our Supported Languages: {supported_languages}"
+            )
+            return (
+                text_hint,
+                None,
+                None,
+            )
+        if language_predicted == "zh":
+            tts_model = zh_base_speaker_tts
+            source_se = zh_source_se
+            language = "Chinese"
+        else:
+            tts_model = en_base_speaker_tts
+            source_se = en_source_default_se
+            language = "English"
+        text_hint += f"Using TTS to generate source audio from the prompt text \n"
+        src_path = f"{output_dir}/tmp.wav"
+        tts_model.tts(prompt, src_path, speaker="default", language=language)
     # note diffusion_conditioning not used on hifigan (default mode), it will be empty but need to pass it to model.inference
     try:
             None,
         )
     save_path = f"{output_dir}/output.wav"
     # Run the tone color converter
     encode_message = "@MyShell"