MOSS-TTS-Nano

Running

App Files Files Community

Kuangwei Chen commited on 7 days ago

Commit

21ee9bf

1 Parent(s): 0b476f3

Fix frontend

Browse files

Files changed (1) hide show

app.py +66 -117

app.py CHANGED Viewed

@@ -25,7 +25,7 @@ except ImportError:
     spaces = _SpacesFallback()
-from nano_tts_runtime import DEFAULT_VOICE, NanoTTSService, build_default_voice_presets
 from text_normalization_pipeline import WeTextProcessingManager, prepare_tts_request_texts
 APP_DIR = Path(__file__).resolve().parent
@@ -37,8 +37,6 @@ DEMO_METADATA_PATH = APP_DIR / "assets" / "demo.jsonl"
 MODE_VOICE_CLONE = "voice_clone"
-_VOICE_PRESETS = build_default_voice_presets()
 @dataclass(frozen=True)
 class DemoEntry:
@@ -88,38 +86,15 @@ def load_demo_entries() -> list[DemoEntry]:
     return demo_entries
-def build_voice_choices() -> list[tuple[str, str]]:
-    preferred: list[tuple[str, str]] = []
-    fallback: list[tuple[str, str]] = []
-    for preset in _VOICE_PRESETS.values():
-        if not preset.prompt_audio_path.is_file():
-            continue
-        item = (f"{preset.name} - {preset.description}", preset.name)
-        fallback.append(item)
-        if preset.prompt_audio_path.suffix.lower() == ".wav":
-            preferred.append(item)
-    return preferred or fallback
-VOICE_CHOICES = build_voice_choices()
-DEFAULT_VOICE_VALUE = (
-    DEFAULT_VOICE
-    if any(value == DEFAULT_VOICE for _, value in VOICE_CHOICES)
-    else (VOICE_CHOICES[0][1] if VOICE_CHOICES else "")
-)
 DEMO_ENTRIES = load_demo_entries()
 DEMO_ENTRY_MAP = {entry.demo_id: entry for entry in DEMO_ENTRIES}
 DEMO_AUDIO_PATH_MAP = {str(entry.prompt_audio_path): entry for entry in DEMO_ENTRIES}
 DEMO_ENTRY_NAME_MAP = {entry.name: entry for entry in DEMO_ENTRIES}
-VOICE_FILE_TO_NAME = {
-    preset.prompt_audio_path.name: preset.name
-    for preset in _VOICE_PRESETS.values()
-    if preset.prompt_audio_path.is_file()
-}
-DEMO_CASE_CHOICES = [("Custom Input", "")] + [(entry.name, entry.demo_id) for entry in DEMO_ENTRIES]
 def parse_bool_env(name: str, default: bool) -> bool:
@@ -196,61 +171,69 @@ def preload_service() -> None:
 def render_mode_hint() -> str:
     return (
         "Current mode: **Voice Clone**  \n"
-        "Upload a reference audio file or use a built-in preset voice. Audio is returned only after full decoding."
     )
-def resolve_default_prompt_audio_path(voice: str | None) -> str | None:
-    if voice and voice in _VOICE_PRESETS:
-        preset_path = _VOICE_PRESETS[voice].prompt_audio_path
-        if preset_path.is_file():
-            return str(preset_path)
-    return None
 def resolve_effective_prompt_audio_path(
-    *,
-    voice: str,
     prompt_audio_path: str | None,
     selected_demo_audio_path: str | None,
 ) -> str | None:
     if prompt_audio_path:
-        return str(Path(prompt_audio_path).expanduser().resolve())
     if selected_demo_audio_path:
-        return str(Path(selected_demo_audio_path).expanduser().resolve())
-    return resolve_default_prompt_audio_path(voice)
 def build_prompt_source_text(
     *,
-    voice: str,
     prompt_audio_path: str | None,
     selected_demo_audio_path: str | None,
 ) -> str:
-    if prompt_audio_path:
-        return "Uploaded reference audio"
-    if selected_demo_audio_path:
-        demo_entry = DEMO_AUDIO_PATH_MAP.get(str(Path(selected_demo_audio_path).expanduser().resolve()))
         if demo_entry is not None:
-            return f"Example case: {demo_entry.name}"
-        return f"Example case: {Path(selected_demo_audio_path).name}"
-    if voice:
-        return f"Preset voice: {voice}"
-    return "No prompt source selected"
 def refresh_prompt_preview(
-    voice: str,
     prompt_audio_path: str | None,
     selected_demo_audio_path: str | None,
 ):
     preview_path = resolve_effective_prompt_audio_path(
-        voice=voice,
-        prompt_audio_path=prompt_audio_path,
-        selected_demo_audio_path=selected_demo_audio_path,
     )
     prompt_source = build_prompt_source_text(
-        voice=voice,
         prompt_audio_path=prompt_audio_path,
         selected_demo_audio_path=selected_demo_audio_path,
     )
@@ -259,46 +242,27 @@ def refresh_prompt_preview(
 def apply_demo_case_selection(
     demo_case_id: str,
-    voice: str,
     prompt_audio_path: str | None,
 ):
-    demo_case_id = normalize_demo_case_id(demo_case_id)
-    if not demo_case_id:
-        preview_path, prompt_source = refresh_prompt_preview(voice, prompt_audio_path, "")
-        return (
-            gr.update(),
-            gr.update(),
-            preview_path,
-            "",
-            gr.update(),
-            prompt_source,
-        )
-    demo_entry = DEMO_ENTRY_MAP.get(demo_case_id)
     if demo_entry is None:
-        preview_path, prompt_source = refresh_prompt_preview(voice, prompt_audio_path, "")
         return (
-            gr.update(),
             gr.update(),
             preview_path,
             "",
-            gr.update(),
             prompt_source,
         )
-    matched_voice = VOICE_FILE_TO_NAME.get(demo_entry.prompt_audio_path.name)
-    preview_path = str(demo_entry.prompt_audio_path)
-    prompt_source = build_prompt_source_text(
-        voice=matched_voice or voice,
-        prompt_audio_path=None,
-        selected_demo_audio_path=preview_path,
     )
     return (
         demo_entry.text,
-        gr.update(value=None),
-        preview_path,
         preview_path,
-        gr.update(value=matched_voice) if matched_voice else gr.update(),
         prompt_source,
     )
@@ -313,8 +277,8 @@ def validate_request(
     if not normalized_text:
         raise ValueError("Please enter text to synthesize.")
-    if not effective_prompt_audio_path and not DEFAULT_VOICE_VALUE:
-        raise ValueError("No preset voice is available. Please upload a reference audio file.")
     return normalized_text
@@ -341,9 +305,9 @@ def estimate_gpu_duration(
     **kwargs,
 ) -> int:
     text = kwargs.get("text", args[0] if len(args) > 0 else "")
-    max_new_frames = kwargs.get("max_new_frames", args[6] if len(args) > 6 else 375)
     voice_clone_max_text_tokens = (
-        kwargs.get("voice_clone_max_text_tokens", args[7] if len(args) > 7 else 75)
     )
     text_len = len(str(text or "").strip())
     estimated = 75 + (text_len // 12) + int(max_new_frames) // 8 + int(voice_clone_max_text_tokens) // 10
@@ -353,7 +317,6 @@ def estimate_gpu_duration(
 @spaces.GPU(size="large", duration=estimate_gpu_duration)
 def run_inference(
     text: str,
-    voice: str,
     prompt_audio_path: str | None,
     selected_demo_audio_path: str | None,
     enable_wetext_processing: bool,
@@ -375,9 +338,8 @@ def run_inference(
         service = get_runtime_tts_service()
         text_normalizer_manager = get_text_normalizer_manager() if enable_wetext_processing else None
         effective_prompt_audio_path = resolve_effective_prompt_audio_path(
-            voice=voice,
-            prompt_audio_path=prompt_audio_path,
-            selected_demo_audio_path=selected_demo_audio_path,
         )
         normalized_text = validate_request(
             text=text,
@@ -386,13 +348,12 @@ def run_inference(
         prepared_texts = prepare_tts_request_texts(
             text=normalized_text,
             prompt_text="",
-            voice=voice,
             enable_wetext=bool(enable_wetext_processing),
             enable_normalize_tts_text=bool(enable_normalize_tts_text),
             text_normalizer_manager=text_normalizer_manager,
         )
         prompt_source = build_prompt_source_text(
-            voice=voice,
             prompt_audio_path=prompt_audio_path,
             selected_demo_audio_path=selected_demo_audio_path,
         )
@@ -405,7 +366,7 @@ def run_inference(
         result = service.synthesize(
             text=str(prepared_texts["text"]),
             mode=MODE_VOICE_CLONE,
-            voice=voice,
             prompt_audio_path=effective_prompt_audio_path or None,
             max_new_frames=int(max_new_frames),
             voice_clone_max_text_tokens=int(voice_clone_max_text_tokens),
@@ -456,7 +417,7 @@ def build_demo():
             with gr.Column(scale=3):
                 demo_case = gr.Dropdown(
                     choices=DEMO_CASE_CHOICES,
-                    value="",
                     label="Default Case",
                     info="Select a built-in case to auto-fill the text and prompt preview.",
                     allow_custom_value=True,
@@ -464,29 +425,24 @@ def build_demo():
                 text = gr.Textbox(
                     label="Target Text",
                     lines=10,
                     placeholder="Enter the text to synthesize.",
                 )
                 mode_hint = gr.Markdown(render_mode_hint())
-                voice = gr.Dropdown(
-                    choices=VOICE_CHOICES,
-                    value=DEFAULT_VOICE_VALUE,
-                    label="Preset Voice",
-                    info="Used by default when no reference audio is uploaded.",
-                )
                 prompt_audio = gr.Audio(
-                    label="Reference Audio Upload (optional; overrides preset voice)",
                     type="filepath",
                     sources=["upload"],
                 )
                 prompt_preview = gr.Audio(
                     label="Effective Prompt Preview",
-                    value=resolve_default_prompt_audio_path(DEFAULT_VOICE_VALUE),
                     type="filepath",
                     interactive=False,
                 )
                 gr.Markdown(
-                    "Runtime device and backbone are fixed by the Space and are not user-configurable. Uploaded reference audio overrides the selected example case."
                 )
                 with gr.Accordion("Advanced Parameters", open=False):
@@ -580,28 +536,22 @@ def build_demo():
                 prompt_source = gr.Textbox(
                     label="Prompt Source",
                     value=build_prompt_source_text(
-                        voice=DEFAULT_VOICE_VALUE,
                         prompt_audio_path=None,
-                        selected_demo_audio_path=None,
                     ),
                     lines=4,
                     interactive=False,
                 )
-                selected_demo_audio_path = gr.State("")
         demo_case.change(
             fn=apply_demo_case_selection,
-            inputs=[demo_case, voice, prompt_audio],
-            outputs=[text, prompt_audio, prompt_preview, selected_demo_audio_path, voice, prompt_source],
-        )
-        voice.change(
-            fn=refresh_prompt_preview,
-            inputs=[voice, prompt_audio, selected_demo_audio_path],
-            outputs=[prompt_preview, prompt_source],
         )
         prompt_audio.change(
             fn=refresh_prompt_preview,
-            inputs=[voice, prompt_audio, selected_demo_audio_path],
             outputs=[prompt_preview, prompt_source],
         )
@@ -609,7 +559,6 @@ def build_demo():
             fn=run_inference,
             inputs=[
                 text,
-                voice,
                 prompt_audio,
                 selected_demo_audio_path,
                 enable_wetext_processing,

     spaces = _SpacesFallback()
+from nano_tts_runtime import DEFAULT_VOICE, NanoTTSService
 from text_normalization_pipeline import WeTextProcessingManager, prepare_tts_request_texts
 APP_DIR = Path(__file__).resolve().parent
 MODE_VOICE_CLONE = "voice_clone"
 @dataclass(frozen=True)
 class DemoEntry:
     return demo_entries
 DEMO_ENTRIES = load_demo_entries()
 DEMO_ENTRY_MAP = {entry.demo_id: entry for entry in DEMO_ENTRIES}
 DEMO_AUDIO_PATH_MAP = {str(entry.prompt_audio_path): entry for entry in DEMO_ENTRIES}
 DEMO_ENTRY_NAME_MAP = {entry.name: entry for entry in DEMO_ENTRIES}
+DEFAULT_DEMO_ENTRY = DEMO_ENTRIES[0] if DEMO_ENTRIES else None
+DEFAULT_DEMO_CASE_ID = DEFAULT_DEMO_ENTRY.demo_id if DEFAULT_DEMO_ENTRY is not None else ""
+DEFAULT_DEMO_AUDIO_PATH = str(DEFAULT_DEMO_ENTRY.prompt_audio_path) if DEFAULT_DEMO_ENTRY is not None else ""
+DEFAULT_DEMO_TEXT = DEFAULT_DEMO_ENTRY.text if DEFAULT_DEMO_ENTRY is not None else ""
+DEMO_CASE_CHOICES = [(entry.name, entry.demo_id) for entry in DEMO_ENTRIES]
 def parse_bool_env(name: str, default: bool) -> bool:
 def render_mode_hint() -> str:
     return (
         "Current mode: **Voice Clone**  \n"
+        "Select a Default Case or upload your own reference audio. Uploaded audio overrides the selected Default Case."
     )
+def resolve_default_demo_entry() -> DemoEntry | None:
+    return DEFAULT_DEMO_ENTRY
+def resolve_selected_demo_entry(demo_case_id: str | None) -> DemoEntry | None:
+    normalized_demo_case_id = normalize_demo_case_id(demo_case_id)
+    if normalized_demo_case_id:
+        demo_entry = DEMO_ENTRY_MAP.get(normalized_demo_case_id)
+        if demo_entry is not None:
+            return demo_entry
+    return resolve_default_demo_entry()
 def resolve_effective_prompt_audio_path(
     prompt_audio_path: str | None,
     selected_demo_audio_path: str | None,
 ) -> str | None:
     if prompt_audio_path:
+        resolved_path = Path(prompt_audio_path).expanduser().resolve()
+        if resolved_path.is_file():
+            return str(resolved_path)
     if selected_demo_audio_path:
+        resolved_path = Path(selected_demo_audio_path).expanduser().resolve()
+        if resolved_path.is_file():
+            return str(resolved_path)
+    demo_entry = resolve_default_demo_entry()
+    if demo_entry is not None:
+        return str(demo_entry.prompt_audio_path)
+    return None
 def build_prompt_source_text(
     *,
     prompt_audio_path: str | None,
     selected_demo_audio_path: str | None,
 ) -> str:
+    effective_prompt_audio_path = resolve_effective_prompt_audio_path(
+        prompt_audio_path,
+        selected_demo_audio_path,
+    )
+    if effective_prompt_audio_path:
+        if prompt_audio_path:
+            return f"Uploaded reference audio: {Path(effective_prompt_audio_path).name}"
+        demo_entry = DEMO_AUDIO_PATH_MAP.get(effective_prompt_audio_path)
         if demo_entry is not None:
+            return f"Default case: {demo_entry.name}"
+        return f"Default case: {Path(effective_prompt_audio_path).name}"
+    return "No default case available"
 def refresh_prompt_preview(
     prompt_audio_path: str | None,
     selected_demo_audio_path: str | None,
 ):
     preview_path = resolve_effective_prompt_audio_path(
+        prompt_audio_path,
+        selected_demo_audio_path,
     )
     prompt_source = build_prompt_source_text(
         prompt_audio_path=prompt_audio_path,
         selected_demo_audio_path=selected_demo_audio_path,
     )
 def apply_demo_case_selection(
     demo_case_id: str,
     prompt_audio_path: str | None,
 ):
+    demo_entry = resolve_selected_demo_entry(demo_case_id)
     if demo_entry is None:
+        preview_path, prompt_source = refresh_prompt_preview(prompt_audio_path, "")
         return (
             gr.update(),
             preview_path,
             "",
             prompt_source,
         )
+    selected_prompt_path = str(demo_entry.prompt_audio_path)
+    preview_path, prompt_source = refresh_prompt_preview(
+        prompt_audio_path,
+        selected_prompt_path,
     )
     return (
         demo_entry.text,
         preview_path,
+        selected_prompt_path,
         prompt_source,
     )
     if not normalized_text:
         raise ValueError("Please enter text to synthesize.")
+    if not effective_prompt_audio_path:
+        raise ValueError("No reference audio is available. Please select a Default Case or upload prompt audio.")
     return normalized_text
     **kwargs,
 ) -> int:
     text = kwargs.get("text", args[0] if len(args) > 0 else "")
+    max_new_frames = kwargs.get("max_new_frames", args[5] if len(args) > 5 else 375)
     voice_clone_max_text_tokens = (
+        kwargs.get("voice_clone_max_text_tokens", args[6] if len(args) > 6 else 75)
     )
     text_len = len(str(text or "").strip())
     estimated = 75 + (text_len // 12) + int(max_new_frames) // 8 + int(voice_clone_max_text_tokens) // 10
 @spaces.GPU(size="large", duration=estimate_gpu_duration)
 def run_inference(
     text: str,
     prompt_audio_path: str | None,
     selected_demo_audio_path: str | None,
     enable_wetext_processing: bool,
         service = get_runtime_tts_service()
         text_normalizer_manager = get_text_normalizer_manager() if enable_wetext_processing else None
         effective_prompt_audio_path = resolve_effective_prompt_audio_path(
+            prompt_audio_path,
+            selected_demo_audio_path,
         )
         normalized_text = validate_request(
             text=text,
         prepared_texts = prepare_tts_request_texts(
             text=normalized_text,
             prompt_text="",
+            voice=DEFAULT_VOICE,
             enable_wetext=bool(enable_wetext_processing),
             enable_normalize_tts_text=bool(enable_normalize_tts_text),
             text_normalizer_manager=text_normalizer_manager,
         )
         prompt_source = build_prompt_source_text(
             prompt_audio_path=prompt_audio_path,
             selected_demo_audio_path=selected_demo_audio_path,
         )
         result = service.synthesize(
             text=str(prepared_texts["text"]),
             mode=MODE_VOICE_CLONE,
+            voice=DEFAULT_VOICE,
             prompt_audio_path=effective_prompt_audio_path or None,
             max_new_frames=int(max_new_frames),
             voice_clone_max_text_tokens=int(voice_clone_max_text_tokens),
             with gr.Column(scale=3):
                 demo_case = gr.Dropdown(
                     choices=DEMO_CASE_CHOICES,
+                    value=DEFAULT_DEMO_CASE_ID,
                     label="Default Case",
                     info="Select a built-in case to auto-fill the text and prompt preview.",
                     allow_custom_value=True,
                 text = gr.Textbox(
                     label="Target Text",
                     lines=10,
+                    value=DEFAULT_DEMO_TEXT,
                     placeholder="Enter the text to synthesize.",
                 )
                 mode_hint = gr.Markdown(render_mode_hint())
                 prompt_audio = gr.Audio(
+                    label="Reference Audio Upload (optional; overrides Default Case)",
                     type="filepath",
                     sources=["upload"],
                 )
                 prompt_preview = gr.Audio(
                     label="Effective Prompt Preview",
+                    value=DEFAULT_DEMO_AUDIO_PATH or None,
                     type="filepath",
                     interactive=False,
                 )
                 gr.Markdown(
+                    "Runtime device and backbone are fixed by the Space and are not user-configurable. Uploaded reference audio overrides the selected Default Case."
                 )
                 with gr.Accordion("Advanced Parameters", open=False):
                 prompt_source = gr.Textbox(
                     label="Prompt Source",
                     value=build_prompt_source_text(
                         prompt_audio_path=None,
+                        selected_demo_audio_path=DEFAULT_DEMO_AUDIO_PATH or None,
                     ),
                     lines=4,
                     interactive=False,
                 )
+                selected_demo_audio_path = gr.State(DEFAULT_DEMO_AUDIO_PATH)
         demo_case.change(
             fn=apply_demo_case_selection,
+            inputs=[demo_case, prompt_audio],
+            outputs=[text, prompt_preview, selected_demo_audio_path, prompt_source],
         )
         prompt_audio.change(
             fn=refresh_prompt_preview,
+            inputs=[prompt_audio, selected_demo_audio_path],
             outputs=[prompt_preview, prompt_source],
         )
             fn=run_inference,
             inputs=[
                 text,
                 prompt_audio,
                 selected_demo_audio_path,
                 enable_wetext_processing,