Spaces:

leesenx
/

so

Running

App Files Files Community

leesenx commited on 1 day ago

Commit

7746634

verified ·

1 Parent(s): ff4e672

Update app.py

Browse files

Files changed (1) hide show

app.py +73 -48

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/usr/bin/env python3
 import os
 import time
 import uuid
 from datetime import datetime
@@ -19,9 +20,14 @@ def MyPrint(s):
     print(f"{date_time}: {s}")
-title = "# 文字转语音 (TTS)"
-description = ""
 css = """
 .result {display:flex;flex-direction:column}
@@ -34,41 +40,49 @@ css = """
 def update_model_dropdown(language: str):
     if language in language_to_models:
         choices = language_to_models[language]
         return gr.Dropdown(
             choices=choices,
             value=choices[0],
             interactive=True,
-        )
-    raise ValueError(f"Unsupported language: {language}")
 def build_html_output(s: str, style: str = "result_item_success"):
     return f"""
-    <div class='result'>
-      <div class='result_item {style}'>
-        {s}
-      </div>
-    </div>
-    """
 def process(language: str, repo_id: str, text: str, sid: str, speed: float):
     max_len = 4000
-    MyPrint(f"输入文本长度 {len(text)}: {text[:max_len]}. 说话人ID: {sid}, 语速: {speed}")
     if len(text) > max_len:
         MyPrint(f"文本过长！{len(text)}")
-        info = """
-为保证响应速度，请使用短文本进行测试。<br/>
-如需处理长文本，请在本地运行本程序。<br/>
-参考 https://k2-fsa.github.io/sherpa/onnx/
-"""
         return None, build_html_output(info)
     if sid is None or str(sid).strip() == "":
         sid = 0
     else:
         sid = int(sid)
     tts = get_pretrained_model(repo_id, speed)
@@ -77,19 +91,18 @@ def process(language: str, repo_id: str, text: str, sid: str, speed: float):
     end = time.time()
     if len(audio.samples) == 0:
-        raise ValueError(
-            "语音生成出错，请查看上方错误信息。"
-        )
     duration = len(audio.samples) / audio.sample_rate
     elapsed_seconds = end - start
     rtf = elapsed_seconds / duration
     info = f"""
-    Wave duration : {duration:.3f} s <br/>
-    Processing time: {elapsed_seconds:.3f} s <br/>
-    RTF: {elapsed_seconds:.3f}/{duration:.3f} = {rtf:.3f} <br/>
-    """
     MyPrint(info)
     MyPrint(f"\nrepo_id: {repo_id}\ntext: {text}\nsid: {sid}\nspeed: {speed}")
@@ -120,10 +133,32 @@ with demo:
         label="选择模型",
         value=language_to_models[language_choices[0]][0],
     )
     language_radio.change(
         update_model_dropdown,
         inputs=language_radio,
-        outputs=model_dropdown,
     )
     with gr.Tabs():
         with gr.TabItem("输入文本"):
@@ -134,14 +169,6 @@ with demo:
                 value="大家好，这是一个文字转语音的测试。",
                 placeholder="请输入要转换为语音的文字",
             )
-            input_sid = gr.Textbox(
-                label="说话人编号",
-                info="多说话人模型可用（编号从0开始），单说话人模型填0即可",
-                lines=1,
-                max_lines=1,
-                value="0",
-                placeholder="0",
-            )
             input_speed = gr.Slider(
                 minimum=0.1,
                 maximum=10,
@@ -153,22 +180,20 @@ with demo:
             output_audio = gr.Audio(label="生成的语音")
             output_info = gr.HTML(label="信息")
-            input_button.click(
-                process,
-                inputs=[
-                    language_radio,
-                    model_dropdown,
-                    input_text,
-                    input_sid,
-                    input_speed,
-                ],
-                outputs=[
-                    output_audio,
-                    output_info,
-                ],
-            )
-    gr.Markdown(description)
 def download_espeak_ng_data():

 #!/usr/bin/env python3
 import os
+import re
 import time
 import uuid
 from datetime import datetime
     print(f"{date_time}: {s}")
+def get_num_speakers(repo_id: str) -> int:
+    m = re.search(r"\|(\d+)\s*speaker", repo_id)
+    if m:
+        return int(m.group(1))
+    return 1
+title = "# 文字转语音 (TTS)"
 css = """
 .result {display:flex;flex-direction:column}
 def update_model_dropdown(language: str):
     if language in language_to_models:
         choices = language_to_models[language]
+        n = get_num_speakers(choices[0])
+        sid_info = f"当前模型有 {n} 个说话人，编号范围 0~{n - 1}" if n > 1 else "当前模型只有1个说话人"
         return gr.Dropdown(
             choices=choices,
             value=choices[0],
             interactive=True,
+        ), sid_info, gr.Textbox(visible=n > 1)
+    raise ValueError(f"不支持的语言: {language}")
+def update_sid_info(repo_id: str):
+    n = get_num_speakers(repo_id)
+    if n > 1:
+        return f"当前模型有 {n} 个说话人，编号范围 0~{n - 1}", gr.Textbox(visible=True)
+    return "当前模型只有1个说话人", gr.Textbox(visible=False)
 def build_html_output(s: str, style: str = "result_item_success"):
     return f"""
+<div class='result'>
+  <div class='result_item {style}'>
+    {s}
+  </div>
+</div>
+"""
 def process(language: str, repo_id: str, text: str, sid: str, speed: float):
     max_len = 4000
+    MyPrint(f"输入文本长度 {len(text)}: {text[:max_len]}. 说话人编号: {sid}, 语速: {speed}")
     if len(text) > max_len:
         MyPrint(f"文本过长！{len(text)}")
+        info = "为保证响应速度，请使用短文本进行测试。如需处理长文本，请在本地运行。"
         return None, build_html_output(info)
+    n = get_num_speakers(repo_id)
     if sid is None or str(sid).strip() == "":
         sid = 0
     else:
         sid = int(sid)
+    if n > 1 and sid >= n:
+        sid = n - 1
     tts = get_pretrained_model(repo_id, speed)
     end = time.time()
     if len(audio.samples) == 0:
+        raise ValueError("语音生成出错，请查看上方错误信息。")
     duration = len(audio.samples) / audio.sample_rate
     elapsed_seconds = end - start
     rtf = elapsed_seconds / duration
     info = f"""
+音频时长: {duration:.3f} 秒<br/>
+处理时间: {elapsed_seconds:.3f} 秒<br/>
+实时率(RTF): {rtf:.3f}<br/>
+说话人编号: {sid}
+"""
     MyPrint(info)
     MyPrint(f"\nrepo_id: {repo_id}\ntext: {text}\nsid: {sid}\nspeed: {speed}")
         label="选择模型",
         value=language_to_models[language_choices[0]][0],
     )
+    first_model = language_to_models[language_choices[0]][0]
+    first_n = get_num_speakers(first_model)
+    sid_info_text = gr.Textbox(
+        value=f"当前模型有 {first_n} 个说话人，编号范围 0~{first_n - 1}" if first_n > 1 else "当前模型只有1个说话人",
+        label="说话人信息",
+        interactive=False,
+        visible=True,
+    )
+    input_sid = gr.Textbox(
+        label="说话人编号",
+        info="编号从0开始",
+        lines=1,
+        max_lines=1,
+        value="0",
+        placeholder="0",
+        visible=first_n > 1,
+    )
     language_radio.change(
         update_model_dropdown,
         inputs=language_radio,
+        outputs=[model_dropdown, sid_info_text, input_sid],
+    )
+    model_dropdown.change(
+        update_sid_info,
+        inputs=model_dropdown,
+        outputs=[sid_info_text, input_sid],
     )
     with gr.Tabs():
         with gr.TabItem("输入文本"):
                 value="大家好，这是一个文字转语音的测试。",
                 placeholder="请输入要转换为语音的文字",
             )
             input_speed = gr.Slider(
                 minimum=0.1,
                 maximum=10,
             output_audio = gr.Audio(label="生成的语音")
             output_info = gr.HTML(label="信息")
+    input_button.click(
+        process,
+        inputs=[
+            language_radio,
+            model_dropdown,
+            input_text,
+            input_sid,
+            input_speed,
+        ],
+        outputs=[
+            output_audio,
+            output_info,
+        ],
+    )
 def download_espeak_ng_data():