SoulX-Singer

Sleeping

App Files Files Community

multimodalart HF Staff commited on Feb 9

Commit

1e61d28

verified ·

1 Parent(s): 4a3004b

Update webui.py

Browse files

Files changed (1) hide show

webui.py +251 -516

webui.py CHANGED Viewed

@@ -5,7 +5,7 @@ import shutil
 import sys
 import traceback
 from pathlib import Path
-from typing import Literal, Tuple
 import spaces
 import numpy as np
@@ -21,131 +21,8 @@ from cli.inference import build_model as build_svs_model, process as svs_process
 ROOT = Path(__file__).parent
-ENGLISH_EXAMPLE_PROMPT_AUDIO = "example/audio/en_prompt.mp3"
-ENGLISH_EXAMPLE_PROMPT_META = "example/audio/en_prompt.json"
-ENGLISH_EXAMPLE_TARGET_AUDIO = "example/audio/en_target.mp3"
-ENGLISH_EXAMPLE_TARGET_META = "example/audio/en_target.json"
-MANDARIN_EXAMPLE_PROMPT_AUDIO = "example/audio/zh_prompt.mp3"
-MANDARIN_EXAMPLE_PROMPT_META = "example/audio/zh_prompt.json"
-MANDARIN_EXAMPLE_TARGET_AUDIO = "example/audio/zh_target.mp3"
-MANDARIN_EXAMPLE_TARGET_META = "example/audio/zh_target.json"
-CANTONESE_EXAMPLE_PROMPT_AUDIO = "example/audio/yue_prompt.mp3"
-CANTONESE_EXAMPLE_PROMPT_META = "example/audio/yue_prompt.json"
-CANTONESE_EXAMPLE_TARGET_AUDIO = "example/audio/yue_target.mp3"
-CANTONESE_EXAMPLE_TARGET_META = "example/audio/yue_target.json"
-MUSIC_EXAMPLE_TARGET_AUDIO = "example/audio/music.mp3"
-MUSIC_EXAMPLE_TARGET_META = "example/audio/music.json"
-# Lyric language: value (Mandarin/Cantonese/English) is passed to PreprocessPipeline; display labels from i18n via get_lyric_lang_choices()
-# Use absolute paths so Examples load correctly (including File components for metadata)
-EXAMPLES_LIST = [
-    [
-        str(ROOT / MANDARIN_EXAMPLE_PROMPT_AUDIO),
-        str(ROOT / MANDARIN_EXAMPLE_TARGET_AUDIO),
-        str(ROOT / MANDARIN_EXAMPLE_PROMPT_META),
-        str(ROOT / MANDARIN_EXAMPLE_TARGET_META),
-        "Mandarin",
-        "Mandarin",
-        "melody",
-        False,
-        True,
-        True,
-        0,
-    ],
-    [
-        str(ROOT / MANDARIN_EXAMPLE_PROMPT_AUDIO),
-        str(ROOT / CANTONESE_EXAMPLE_TARGET_AUDIO),
-        str(ROOT / MANDARIN_EXAMPLE_PROMPT_META),
-        str(ROOT / CANTONESE_EXAMPLE_TARGET_META),
-        "Mandarin",
-        "Cantonese",
-        "melody",
-        False,
-        True,
-        True,
-        0,
-    ],
-    [
-        str(ROOT / MANDARIN_EXAMPLE_PROMPT_AUDIO),
-        str(ROOT / ENGLISH_EXAMPLE_TARGET_AUDIO),
-        str(ROOT / MANDARIN_EXAMPLE_PROMPT_META),
-        str(ROOT / ENGLISH_EXAMPLE_TARGET_META),
-        "Mandarin",
-        "English",
-        "melody",
-        False,
-        True,
-        True,
-        0,
-    ],
-    [
-        str(ROOT / MANDARIN_EXAMPLE_PROMPT_AUDIO),
-        str(ROOT / MUSIC_EXAMPLE_TARGET_AUDIO),
-        str(ROOT / MANDARIN_EXAMPLE_PROMPT_META),
-        str(ROOT / MUSIC_EXAMPLE_TARGET_META),
-        "Mandarin",
-        "Mandarin",
-        "melody",
-        False,
-        True,
-        True,
-        0,
-    ],
-]
-def _load_example(choice_value):
-    """Return 11 example values + skip_clear_count (2 when loading example so next 2 audio.change events don't clear metadata).
-    choice_value: selected dropdown string (or index in older flow); map to example index 0/1/2."""
-    if choice_value is None:
-        return [gr.update()] * 11 + [0]
-    idx = 0
-    if isinstance(choice_value, int):
-        idx = 0 if choice_value <= 0 else min(choice_value - 1, len(EXAMPLES_LIST) - 1)
-    else:
-        if choice_value == i18n("example_choice_1"):
-            idx = 1
-        elif choice_value == i18n("example_choice_2"):
-            idx = 2
-        elif choice_value == i18n("example_choice_3"):
-            idx = 3
-        elif choice_value == i18n("example_choice_4"):
-            idx = 4
-    if idx <= 0:
-        return [gr.update()] * 11 + [0]
-    list_idx = idx - 1
-    if list_idx >= len(EXAMPLES_LIST):
-        return [gr.update()] * 11 + [0]
-    row = EXAMPLES_LIST[list_idx]
-    return [
-        row[0], row[1], row[2], row[3], row[4], row[5], row[6], row[7], row[8], row[9], row[10],
-        2,  # skip_clear_metadata_count: next 2 audio.change events (prompt + target) will not clear metadata
-    ]
-def _clear_prompt_meta_unless_example(_audio, skip_count):
-    if skip_count and skip_count > 0:
-        return gr.skip(), max(0, skip_count - 1)
-    return None, 0
-def _clear_target_meta_unless_example(_audio, skip_count):
-    if skip_count and skip_count > 0:
-        return gr.skip(), max(0, skip_count - 1)
-    return None, 0
 def _get_device() -> str:
-    """Use CUDA if available, else CPU (e.g. for CI or CPU-only environments).
-    On ZeroGPU Spaces the real GPU is only attached inside @spaces.GPU, so
-    torch.cuda.is_available() returns False at module-load time.  We still
-    want models to target CUDA so they run on the GPU once it is attached.
-    """
     if torch.cuda.is_available():
         return "cuda:0"
     try:
@@ -169,7 +46,7 @@ class AppState:
         self.device = _get_device()
         self.preprocess_pipeline = PreprocessPipeline(
             device=self.device,
-            language="Mandarin",
             save_dir=str(ROOT / "outputs" / "gradio" / "_placeholder" / "transcriptions"),
             vocal_sep=True,
             max_merge_duration=60000,
@@ -199,14 +76,14 @@ class AppState:
                 audio_path=str(prompt_path),
                 vocal_sep=prompt_vocal_sep,
                 max_merge_duration=20000,
-                language=prompt_lyric_lang or "Mandarin",
             )
             self.preprocess_pipeline.save_dir = str(session_base / "transcriptions" / "target")
             self.preprocess_pipeline.run(
                 audio_path=str(target_path),
                 vocal_sep=target_vocal_sep,
                 max_merge_duration=60000,
-                language=target_lyric_lang or "Mandarin",
             )
             return True, "preprocess done"
         except Exception as e:
@@ -223,8 +100,10 @@ class AppState:
             control = "score"
         save_dir = session_base / "generated"
         save_dir.mkdir(parents=True, exist_ok=True)
         class Args:
             pass
         args = Args()
         args.device = self.device
         args.model_path = "pretrained_models/SoulX-Singer/model.pt"
@@ -258,7 +137,6 @@ class AppState:
         pitch_shift: int,
         save_dir: Path | None = None,
     ) -> Tuple[bool, str, Path | None]:
-        """Run SVS from explicit prompt wav and metadata paths."""
         if save_dir is None:
             import uuid
             save_dir = ROOT / "outputs" / "gradio" / "synthesis" / str(uuid.uuid4())[:8]
@@ -289,105 +167,65 @@ ensure_pretrained_models()
 APP_STATE = AppState()
-# i18n
-_i18n_key2lang_dict = dict(
-    display_lang_label=dict(en="Display Language", zh="显示语言"),
-    seed_label=dict(en="Seed", zh="种子"),
-    prompt_audio_label=dict(en="Prompt audio (reference voice), limit to 30 seconds", zh="Prompt 音频（参考音色），限制在 30 秒以内"),
-    target_audio_label=dict(en="Target audio (melody / lyrics source), limit to 60 seconds", zh="Target 音频（旋律/歌词来源），限制在 60 秒以内"),
-    generate_btn_label=dict(en="Start SVS", zh="开始 SVS"),
-    transcription_btn_label=dict(en="Run singing transcription", zh="开始歌声转录"),
-    synthesis_btn_label=dict(en="Run singing synthesis", zh="歌声合成"),
-    prompt_meta_label=dict(en="Prompt metadata", zh="Prompt metadata"),
-    target_meta_label=dict(en="Target metadata", zh="Target metadata"),
-    edit_tutorial_html=dict(
-        en='<p class="mb-0">Refer to <a href="https://github.com/Soul-AILab/SoulX-Singer/tree/main/preprocess#step-2-edit-in-the-midi-editor" target="_blank" rel="noopener">Edit Tutorial</a> for metadata editing (Important Note: The generated metadata may not perfectly align the singing audio with the corresponding lyrics and musical notes. For better results, we strongly recommend manually correcting the alignment. You can directly use <a href="https://huggingface.co/spaces/Soul-AILab/SoulX-Singer-Midi-Editor" target="_blank" rel="noopener">SoulX-Singer-Midi-Editor</a> to edit) </p>',
-        zh='<p class="mb-0">metadata 编辑请参考 <a href="https://github.com/Soul-AILab/SoulX-Singer/tree/main/preprocess#step-2-edit-in-the-midi-editor" target="_blank" rel="noopener">编辑教程</a> (重要提示：自动生成的 metadata 在音频与歌词、音高对齐效果通常不理想。为了获得更好的结果，我们强烈建议手动纠正对齐，否则会导致合成效果不佳。 你可以直接使用 <a href="https://huggingface.co/spaces/Soul-AILab/SoulX-Singer-Midi-Editor" target="_blank" rel="noopener">SoulX-Singer-Midi-Editor</a> 进行编辑) </p>',
-    ),
-    prompt_wav_label=dict(en="Prompt WAV (reference)", zh="Prompt WAV（参考音色）"),
-    generated_audio_label=dict(en="Generated merged audio", zh="合成结果音频"),
-    prompt_lyric_lang_label=dict(en="Prompt lyric language", zh="Prompt 歌词语种"),
-    target_lyric_lang_label=dict(en="Target lyric language", zh="Target 歌词语种"),
-    lyric_lang_mandarin=dict(en="Mandarin", zh="普通话"),
-    lyric_lang_cantonese=dict(en="Cantonese", zh="粤语"),
-    lyric_lang_english=dict(en="English", zh="英语"),
-    warn_missing_synthesis=dict(en="Please provide prompt WAV, prompt metadata, and target metadata", zh="请提供 Prompt WAV、Prompt metadata 与 Target metadata"),
-    prompt_vocal_sep_label=dict(en="Prompt vocal separation", zh="Prompt人声分离"),
-    target_vocal_sep_label=dict(en="Target vocal separation", zh="Target人声分离"),
-    auto_shift_label=dict(en="Auto pitch shift", zh="自动变调"),
-    pitch_shift_label=dict(en="Pitch shift (semitones)", zh="指定变调（半音）"),
-    control_type_label=dict(en="Control type", zh="控制类型"),
-    examples_label=dict(en="Reference examples (click to load)", zh="参考样例（点击加载）"),
-    example_choice_0=dict(en="—", zh="—"),
-    example_choice_1=dict(en="Example 1: Mandarin → Mandarin (melody), Start singing synthesis!", zh="样例 1: 普通话 → 普通话 (melody), 开���歌声合成吧!"),
-    example_choice_2=dict(en="Example 2: Mandarin → Cantonese (melody), Start singing synthesis!", zh="样例 2: 普通话 → 粤语 (melody), 开始歌声合成吧!"),
-    example_choice_3=dict(en="Example 3: Mandarin → English (melody), Start singing synthesis!", zh="样例 3: 普通话 → 英语 (melody), 开始歌声合成吧!"),
-    example_choice_4=dict(en="Example 4: Mandarin → Music (score), Start singing synthesis!", zh="样例 4: 普通话 → 音乐 (score), 开始歌声合成吧!"),
-    warn_missing_audio=dict(
-        en="Please upload both prompt audio and target audio",
-        zh="请上传 Prompt 音频与 Target 音频",
-    ),
-    # Instruction panel (workflow description)
-    instruction_title=dict(en="Usage", zh="使用说明"),
-    instruction_p1=dict(
-        en="After uploading prompt and target audio and clicking **Run singing transcription**, the system generates two metadata files (prompt and target).",
-        zh="上传 Prompt 与 Target 音频并点击「开始歌声转录」后，将生成 Prompt 与 Target 两份 metadata 文件。",
-    ),
-    instruction_p2=dict(
-        en="Auto-transcribed lyrics and notes are often misaligned. For better results, import the generated metadata into the **MIDI Editor** for manual adjustment: [SoulX-Singer-Midi-Editor](https://huggingface.co/spaces/Soul-AILab/SoulX-Singer-Midi-Editor).",
-        zh="自动转录的歌词与音高对齐效果通常不理想，建议将生成的 metadata 导入 **MIDI 编辑器** 进行手动调整：[SoulX-Singer-Midi-Editor](https://huggingface.co/spaces/Soul-AILab/SoulX-Singer-Midi-Editor)。",
-    ),
-    instruction_p3=dict(
-        en="Re-upload the adjusted metadata to the corresponding Prompt / Target Meta fields, then click **Run singing synthesis** to generate the final audio.",
-        zh="将调整后的 metadata 重新上传至对应的 Prompt / Target Meta 位置后，点击「歌声合成」开始最终生成。",
-    ),
-)
-def _detect_initial_lang() -> Literal["zh", "en"]:
-    """Detect initial UI language from server locale (browser language applied later via JS)."""
-    try:
-        import locale
-        loc = (locale.getdefaultlocale()[0] or os.environ.get("LANG", "") or "").lower()
-        return "en" if loc.startswith("en") else "zh"
-    except Exception:
-        return "zh"
-global_lang: Literal["zh", "en"] = _detect_initial_lang()
-def i18n(key: str) -> str:
-    return _i18n_key2lang_dict[key][global_lang]
-def get_lyric_lang_choices():
-    """Lyric language dropdown (display, value) for current UI language."""
-    return [
-        (i18n("lyric_lang_mandarin"), "Mandarin"),
-        (i18n("lyric_lang_cantonese"), "Cantonese"),
-        (i18n("lyric_lang_english"), "English"),
-    ]
 def _resolve_file_path(x):
-    """Gradio file input can be path string or (path, None) tuple."""
     if x is None:
         return None
     if isinstance(x, tuple):
         x = x[0]
     return x if (x and os.path.isfile(x)) else None
 @spaces.GPU
 def transcription_function(
-    prompt_audio,
-    target_audio,
-    prompt_metadata,
-    target_metadata,
-    prompt_lyric_lang: str,
-    target_lyric_lang: str,
-    prompt_vocal_sep: bool,
-    target_vocal_sep: bool,
 ):
     """Step 1: Run transcription only; output (prompt_meta_path, target_meta_path)."""
     try:
@@ -396,89 +234,108 @@ def transcription_function(
         if isinstance(target_audio, tuple):
             target_audio = target_audio[0]
         if prompt_audio is None or target_audio is None:
-            gr.Warning(message=i18n("warn_missing_audio"))
             return None, None
         prompt_meta_resolved = _resolve_file_path(prompt_metadata)
         target_meta_resolved = _resolve_file_path(target_metadata)
         use_input_metadata = prompt_meta_resolved is not None and target_meta_resolved is not None
-        session_base = _session_dir_from_target(target_audio)
-        audio_dir = session_base / "audio"
-        audio_dir.mkdir(parents=True, exist_ok=True)
-        transfer_prompt_path = audio_dir / "prompt.wav"
-        transfer_target_path = audio_dir / "target.wav"
-        SR = 44100
-        PROMPT_MAX_SEC = 30
-        TARGET_MAX_SEC = 60
-        prompt_audio_data, _ = librosa.load(prompt_audio, sr=SR, mono=True)
-        target_audio_data, _ = librosa.load(target_audio, sr=SR, mono=True)
-        prompt_audio_data = prompt_audio_data[: PROMPT_MAX_SEC * SR]
-        target_audio_data = target_audio_data[: TARGET_MAX_SEC * SR]
-        sf.write(transfer_prompt_path, prompt_audio_data, SR)
-        sf.write(transfer_target_path, target_audio_data, SR)
-        prompt_meta_path = session_base / "transcriptions" / "prompt" / "metadata.json"
-        target_meta_path = session_base / "transcriptions" / "target" / "metadata.json"
         if use_input_metadata:
             (session_base / "transcriptions" / "prompt").mkdir(parents=True, exist_ok=True)
             (session_base / "transcriptions" / "target").mkdir(parents=True, exist_ok=True)
             shutil.copy2(prompt_meta_resolved, prompt_meta_path)
             shutil.copy2(target_meta_resolved, target_meta_path)
         else:
-            ok, msg = APP_STATE.run_preprocess(
-                transfer_prompt_path,
-                transfer_target_path,
-                session_base,
-                prompt_vocal_sep=prompt_vocal_sep,
-                target_vocal_sep=target_vocal_sep,
-                prompt_lyric_lang=prompt_lyric_lang or "Mandarin",
-                target_lyric_lang=target_lyric_lang or "Mandarin",
             )
-            if not ok:
-                print(msg, file=sys.stderr, flush=True)
-                return None, None
-        prompt_meta_file = str(prompt_meta_path) if prompt_meta_path.exists() else None
-        target_meta_file = str(target_meta_path) if target_meta_path.exists() else None
-        return prompt_meta_file, target_meta_file
     except Exception:
         print(traceback.format_exc(), file=sys.stderr, flush=True)
         return None, None
 @spaces.GPU
 def synthesis_function(
     prompt_audio,
     prompt_metadata,
     target_metadata,
-    control: str,
-    auto_shift: bool,
     pitch_shift,
-    seed: int,
 ):
-    """Step 2: Run SVS from top prompt_audio + prompt_metadata + target_metadata."""
     try:
         if isinstance(prompt_audio, tuple):
             prompt_audio = prompt_audio[0]
-        prompt_wav_path = prompt_audio
         prompt_meta_path = _resolve_file_path(prompt_metadata)
         target_meta_path = _resolve_file_path(target_metadata)
-        if not prompt_wav_path or not os.path.isfile(prompt_wav_path):
-            gr.Warning(message=i18n("warn_missing_synthesis"))
-            return None
-        if not prompt_meta_path or not os.path.isfile(prompt_meta_path):
-            gr.Warning(message=i18n("warn_missing_synthesis"))
-            return None
-        if not target_meta_path or not os.path.isfile(target_meta_path):
-            gr.Warning(message=i18n("warn_missing_synthesis"))
-            return None
         if control not in ("melody", "score"):
             control = "score"
         seed = int(seed)
         torch.manual_seed(seed)
         np.random.seed(seed)
         random.seed(seed)
         ok, msg, merged = APP_STATE.run_svs_from_paths(
-            prompt_wav_path=prompt_wav_path,
             prompt_metadata_path=prompt_meta_path,
             target_metadata_path=target_meta_path,
             control=control,
@@ -487,24 +344,17 @@ def synthesis_function(
         )
         if not ok or merged is None:
             print(msg or "synthesis failed", file=sys.stderr, flush=True)
-            return None
-        return str(merged)
     except Exception:
         print(traceback.format_exc(), file=sys.stderr, flush=True)
-        return None
-def _instruction_md() -> str:
-    """Markdown content for the instruction panel (supports links)."""
-    return "\n\n".join([
-        f"**1.** {i18n('instruction_p1')}",
-        f"**2.** {i18n('instruction_p2')}",
-        f"**3.** {i18n('instruction_p3')}",
-    ])
 def render_interface() -> gr.Blocks:
-    with gr.Blocks(title="SoulX-Singer 歌声合成Demo", theme=gr.themes.Default()) as page:
         gr.HTML(
             '<div style="'
             'text-align: center; '
@@ -528,252 +378,139 @@ def render_interface() -> gr.Blocks:
             '"></div>'
             '</div>'
         )
-        # Auto-detect browser language: run after Gradio mounts
-        gr.HTML(
-            '<script type="text/javascript">'
-            '(function(){'
-            'function setLang(){'
-            'var lang=(navigator.language||navigator.userLanguage||"").toLowerCase();'
-            'if(lang.startsWith("en")){'
-            'var inputs=document.querySelectorAll("#lang_choice_radio input");'
-            'if(inputs.length>1)inputs[1].click();'
-            '}'
-            '}'
-            'if(document.readyState==="complete")setTimeout(setLang,800);'
-            'else window.addEventListener("load",function(){setTimeout(setLang,800);});'
-            '})();'
-            '</script>',
-            visible=False,
-        )
-        with gr.Row(equal_height=True):
-            lang_choice = gr.Radio(
-                choices=["中文", "English"],
-                value="中文",
-                label=i18n("display_lang_label"),
-                type="index",
-                interactive=True,
-                elem_id="lang_choice_radio",
-            )
-        # Instruction panel (usage workflow); updates on language change
-        instruction_md = gr.Markdown(f"### {i18n('instruction_title')}\n\n{_instruction_md()}")
-        # Reference examples — at the front of operations (handler registered after components exist)
-        skip_clear_metadata_count = gr.State(0)
-        with gr.Row():
-            _example_choices = [i18n("example_choice_0"), i18n("example_choice_1"), i18n("example_choice_2"), i18n("example_choice_3"), i18n("example_choice_4")]
-            example_choice = gr.Dropdown(
-                label=i18n("examples_label"),
-                choices=_example_choices,
-                value=_example_choices[0],
-                interactive=True,
-            )
-        # Step 1: Transcription (audio → metadata)
-        with gr.Row(equal_height=True):
             with gr.Column(scale=1):
                 prompt_audio = gr.Audio(
-                    label=i18n("prompt_audio_label"),
                     type="filepath",
                     editable=False,
                     interactive=True,
                 )
-            with gr.Column(scale=1):
                 target_audio = gr.Audio(
-                    label=i18n("target_audio_label"),
                     type="filepath",
                     editable=False,
                     interactive=True,
                 )
-        with gr.Row(equal_height=True):
-            prompt_lyric_lang = gr.Dropdown(
-                label=i18n("prompt_lyric_lang_label"),
-                choices=get_lyric_lang_choices(),
-                value="Mandarin",
-                interactive=True,
-                scale=1,
-            )
-            target_lyric_lang = gr.Dropdown(
-                label=i18n("target_lyric_lang_label"),
-                choices=get_lyric_lang_choices(),
-                value="Mandarin",
-                interactive=True,
-                scale=1,
-            )
-            prompt_vocal_sep = gr.Checkbox(
-                label=i18n("prompt_vocal_sep_label"),
-                value=False,
-                interactive=True,
-                scale=1,
-            )
-            target_vocal_sep = gr.Checkbox(
-                label=i18n("target_vocal_sep_label"),
-                value=True,
-                interactive=True,
-                scale=1,
-            )
-        with gr.Row():
-            transcription_btn = gr.Button(
-                value=i18n("transcription_btn_label"),
-                variant="primary",
-                size="lg",
-            )
-        # Edit tutorial link (gr.HTML supports links; component labels do not)
-        metadata_tutorial_html = gr.HTML(value=i18n("edit_tutorial_html"))
-        # Synthesis: params row, then synthesis button on next row
-        with gr.Row(equal_height=True):
-            prompt_metadata = gr.File(
-                label=i18n("prompt_meta_label"),
-                type="filepath",
-                file_types=[".json"],
-                interactive=True,
-            )
-            target_metadata = gr.File(
-                label=i18n("target_meta_label"),
-                type="filepath",
-                file_types=[".json"],
-                interactive=True,
-            )
-            control_radio = gr.Radio(
-                choices=["melody", "score"],
-                value="score",
-                label=i18n("control_type_label"),
-                scale=1,
-            )
-            auto_shift = gr.Checkbox(
-                label=i18n("auto_shift_label"),
-                value=True,
-                interactive=True,
-                scale=1,
-            )
-            pitch_shift = gr.Number(
-                label=i18n("pitch_shift_label"),
-                value=0,
-                minimum=-36,
-                maximum=36,
-                step=1,
-                interactive=True,
-                scale=1,
-            )
-            seed_input = gr.Number(
-                label=i18n("seed_label"),
-                value=12306,
-                step=1,
-                interactive=True,
-                scale=1,
-            )
-        with gr.Row():
-            synthesis_btn = gr.Button(
-                value=i18n("synthesis_btn_label"),
-                variant="primary",
-                size="lg",
-            )
-        with gr.Row():
-            output_audio = gr.Audio(
-                label=i18n("generated_audio_label"),
-                type="filepath",
-                interactive=False,
-            )
-        example_choice.change(
-            fn=_load_example,
-            inputs=[example_choice],
-            outputs=[
-                prompt_audio,
-                target_audio,
-                prompt_metadata,
-                target_metadata,
-                prompt_lyric_lang,
-                target_lyric_lang,
-                control_radio,
-                prompt_vocal_sep,
-                target_vocal_sep,
-                auto_shift,
-                pitch_shift,
-                skip_clear_metadata_count,
-            ],
-        )
-        def _change_component_language(lang):
-            global global_lang
-            global_lang = ["zh", "en"][lang]
-            choices = get_lyric_lang_choices()
-            return [
-                gr.update(label=i18n("prompt_audio_label")),
-                gr.update(label=i18n("target_audio_label")),
-                gr.update(label=i18n("prompt_lyric_lang_label"), choices=choices),
-                gr.update(label=i18n("target_lyric_lang_label"), choices=choices),
-                gr.update(label=i18n("prompt_vocal_sep_label")),
-                gr.update(label=i18n("target_vocal_sep_label")),
-                gr.update(value=i18n("transcription_btn_label")),
-                gr.update(label=i18n("prompt_meta_label")),
-                gr.update(label=i18n("target_meta_label")),
-                gr.update(value=i18n("edit_tutorial_html")),
-                gr.update(label=i18n("control_type_label")),
-                gr.update(label=i18n("auto_shift_label")),
-                gr.update(label=i18n("pitch_shift_label")),
-                gr.update(label=i18n("seed_label")),
-                gr.update(value=i18n("synthesis_btn_label")),
-                gr.update(label=i18n("generated_audio_label")),
-                gr.update(label=i18n("display_lang_label")),
-                gr.update(
-                    label=i18n("examples_label"),
-                    choices=[i18n("example_choice_0"), i18n("example_choice_1"), i18n("example_choice_2"), i18n("example_choice_3"), i18n("example_choice_4")],
-                    value=i18n("example_choice_0"),
-                ),
-                gr.update(value=f"### {i18n('instruction_title')}\n\n{_instruction_md()}"),
-            ]
-        lang_choice.change(
-            fn=_change_component_language,
-            inputs=[lang_choice],
-            outputs=[
-                prompt_audio,
-                target_audio,
-                prompt_lyric_lang,
-                target_lyric_lang,
-                prompt_vocal_sep,
-                target_vocal_sep,
-                transcription_btn,
-                prompt_metadata,
-                target_metadata,
-                metadata_tutorial_html,
-                control_radio,
-                auto_shift,
-                pitch_shift,
-                seed_input,
-                synthesis_btn,
-                output_audio,
-                lang_choice,
-                example_choice,
-                instruction_md,
-            ],
-        )
-        # Upload new prompt/target audio → clear corresponding metadata; skip clear when change came from load example
-        prompt_audio.change(
-            fn=_clear_prompt_meta_unless_example,
-            inputs=[prompt_audio, skip_clear_metadata_count],
-            outputs=[prompt_metadata, skip_clear_metadata_count],
-        )
-        target_audio.change(
-            fn=_clear_target_meta_unless_example,
-            inputs=[target_audio, skip_clear_metadata_count],
-            outputs=[target_metadata, skip_clear_metadata_count],
-        )
         transcription_btn.click(
             fn=transcription_function,
             inputs=[
-                prompt_audio,
-                target_audio,
-                prompt_metadata,
-                target_metadata,
-                prompt_lyric_lang,
-                target_lyric_lang,
-                prompt_vocal_sep,
-                target_vocal_sep,
             ],
             outputs=[prompt_metadata, target_metadata],
         )
@@ -781,15 +518,13 @@ def render_interface() -> gr.Blocks:
         synthesis_btn.click(
             fn=synthesis_function,
             inputs=[
-                prompt_audio,
-                prompt_metadata,
-                target_metadata,
-                control_radio,
-                auto_shift,
-                pitch_shift,
-                seed_input,
             ],
-            outputs=[output_audio],
         )
     return page
@@ -804,4 +539,4 @@ if __name__ == "__main__":
     page = render_interface()
     page.queue()
-    page.launch(share=args.share, server_name="0.0.0.0", server_port=args.port)

 import sys
 import traceback
 from pathlib import Path
+from typing import Tuple
 import spaces
 import numpy as np
 ROOT = Path(__file__).parent
 def _get_device() -> str:
     if torch.cuda.is_available():
         return "cuda:0"
     try:
         self.device = _get_device()
         self.preprocess_pipeline = PreprocessPipeline(
             device=self.device,
+            language="English",
             save_dir=str(ROOT / "outputs" / "gradio" / "_placeholder" / "transcriptions"),
             vocal_sep=True,
             max_merge_duration=60000,
                 audio_path=str(prompt_path),
                 vocal_sep=prompt_vocal_sep,
                 max_merge_duration=20000,
+                language=prompt_lyric_lang or "English",
             )
             self.preprocess_pipeline.save_dir = str(session_base / "transcriptions" / "target")
             self.preprocess_pipeline.run(
                 audio_path=str(target_path),
                 vocal_sep=target_vocal_sep,
                 max_merge_duration=60000,
+                language=target_lyric_lang or "English",
             )
             return True, "preprocess done"
         except Exception as e:
             control = "score"
         save_dir = session_base / "generated"
         save_dir.mkdir(parents=True, exist_ok=True)
         class Args:
             pass
         args = Args()
         args.device = self.device
         args.model_path = "pretrained_models/SoulX-Singer/model.pt"
         pitch_shift: int,
         save_dir: Path | None = None,
     ) -> Tuple[bool, str, Path | None]:
         if save_dir is None:
             import uuid
             save_dir = ROOT / "outputs" / "gradio" / "synthesis" / str(uuid.uuid4())[:8]
 APP_STATE = AppState()
 def _resolve_file_path(x):
     if x is None:
         return None
     if isinstance(x, tuple):
         x = x[0]
     return x if (x and os.path.isfile(x)) else None
+def _run_transcription_internal(
+    prompt_audio, target_audio,
+    prompt_lyric_lang, target_lyric_lang,
+    prompt_vocal_sep, target_vocal_sep,
+):
+    """Run transcription, return (prompt_meta_path, target_meta_path) or (None, None)."""
+    if isinstance(prompt_audio, tuple):
+        prompt_audio = prompt_audio[0]
+    if isinstance(target_audio, tuple):
+        target_audio = target_audio[0]
+    session_base = _session_dir_from_target(target_audio)
+    audio_dir = session_base / "audio"
+    audio_dir.mkdir(parents=True, exist_ok=True)
+    SR = 44100
+    PROMPT_MAX_SEC = 30
+    TARGET_MAX_SEC = 60
+    prompt_audio_data, _ = librosa.load(prompt_audio, sr=SR, mono=True)
+    target_audio_data, _ = librosa.load(target_audio, sr=SR, mono=True)
+    prompt_audio_data = prompt_audio_data[: PROMPT_MAX_SEC * SR]
+    target_audio_data = target_audio_data[: TARGET_MAX_SEC * SR]
+    sf.write(audio_dir / "prompt.wav", prompt_audio_data, SR)
+    sf.write(audio_dir / "target.wav", target_audio_data, SR)
+    ok, msg = APP_STATE.run_preprocess(
+        audio_dir / "prompt.wav",
+        audio_dir / "target.wav",
+        session_base,
+        prompt_vocal_sep=prompt_vocal_sep,
+        target_vocal_sep=target_vocal_sep,
+        prompt_lyric_lang=prompt_lyric_lang or "English",
+        target_lyric_lang=target_lyric_lang or "English",
+    )
+    if not ok:
+        print(msg, file=sys.stderr, flush=True)
+        return None, None
+    prompt_meta_path = session_base / "transcriptions" / "prompt" / "metadata.json"
+    target_meta_path = session_base / "transcriptions" / "target" / "metadata.json"
+    p = str(prompt_meta_path) if prompt_meta_path.exists() else None
+    t = str(target_meta_path) if target_meta_path.exists() else None
+    return p, t
 @spaces.GPU
 def transcription_function(
+    prompt_audio, target_audio,
+    prompt_metadata, target_metadata,
+    prompt_lyric_lang, target_lyric_lang,
+    prompt_vocal_sep, target_vocal_sep,
 ):
     """Step 1: Run transcription only; output (prompt_meta_path, target_meta_path)."""
     try:
         if isinstance(target_audio, tuple):
             target_audio = target_audio[0]
         if prompt_audio is None or target_audio is None:
+            gr.Warning(message="Please upload both prompt audio and target audio")
             return None, None
         prompt_meta_resolved = _resolve_file_path(prompt_metadata)
         target_meta_resolved = _resolve_file_path(target_metadata)
         use_input_metadata = prompt_meta_resolved is not None and target_meta_resolved is not None
         if use_input_metadata:
+            session_base = _session_dir_from_target(target_audio)
+            audio_dir = session_base / "audio"
+            audio_dir.mkdir(parents=True, exist_ok=True)
+            SR = 44100
+            prompt_audio_data, _ = librosa.load(prompt_audio, sr=SR, mono=True)
+            target_audio_data, _ = librosa.load(target_audio, sr=SR, mono=True)
+            prompt_audio_data = prompt_audio_data[: 30 * SR]
+            target_audio_data = target_audio_data[: 60 * SR]
+            sf.write(audio_dir / "prompt.wav", prompt_audio_data, SR)
+            sf.write(audio_dir / "target.wav", target_audio_data, SR)
+            prompt_meta_path = session_base / "transcriptions" / "prompt" / "metadata.json"
+            target_meta_path = session_base / "transcriptions" / "target" / "metadata.json"
             (session_base / "transcriptions" / "prompt").mkdir(parents=True, exist_ok=True)
             (session_base / "transcriptions" / "target").mkdir(parents=True, exist_ok=True)
             shutil.copy2(prompt_meta_resolved, prompt_meta_path)
             shutil.copy2(target_meta_resolved, target_meta_path)
+            return str(prompt_meta_path), str(target_meta_path)
         else:
+            return _run_transcription_internal(
+                prompt_audio, target_audio,
+                prompt_lyric_lang, target_lyric_lang,
+                prompt_vocal_sep, target_vocal_sep,
             )
     except Exception:
         print(traceback.format_exc(), file=sys.stderr, flush=True)
         return None, None
 @spaces.GPU
 def synthesis_function(
     prompt_audio,
+    target_audio,
     prompt_metadata,
     target_metadata,
+    control,
+    auto_shift,
     pitch_shift,
+    seed,
+    prompt_lyric_lang,
+    target_lyric_lang,
+    prompt_vocal_sep,
+    target_vocal_sep,
 ):
+    """Single-button: runs transcription first if metadata not provided, then synthesis."""
     try:
         if isinstance(prompt_audio, tuple):
             prompt_audio = prompt_audio[0]
+        if isinstance(target_audio, tuple):
+            target_audio = target_audio[0]
+        if not prompt_audio or not os.path.isfile(prompt_audio):
+            gr.Warning(message="Please upload both prompt audio and target audio")
+            return None, gr.update(), gr.update()
+        if not target_audio or not os.path.isfile(target_audio):
+            gr.Warning(message="Please upload both prompt audio and target audio")
+            return None, gr.update(), gr.update()
         prompt_meta_path = _resolve_file_path(prompt_metadata)
         target_meta_path = _resolve_file_path(target_metadata)
+        # Auto-run transcription if metadata not provided
+        if not prompt_meta_path or not target_meta_path:
+            p, t = _run_transcription_internal(
+                prompt_audio, target_audio,
+                prompt_lyric_lang, target_lyric_lang,
+                prompt_vocal_sep, target_vocal_sep,
+            )
+            if not p or not t:
+                gr.Warning(message="Transcription failed. Check your audio files.")
+                return None, gr.update(), gr.update()
+            prompt_meta_path = p
+            target_meta_path = t
+        # Prepare prompt wav
+        session_base = _session_dir_from_target(target_audio)
+        prompt_wav = session_base / "audio" / "prompt.wav"
+        if not prompt_wav.exists():
+            audio_dir = session_base / "audio"
+            audio_dir.mkdir(parents=True, exist_ok=True)
+            SR = 44100
+            data, _ = librosa.load(prompt_audio, sr=SR, mono=True)
+            data = data[: 30 * SR]
+            sf.write(prompt_wav, data, SR)
         if control not in ("melody", "score"):
             control = "score"
         seed = int(seed)
         torch.manual_seed(seed)
         np.random.seed(seed)
         random.seed(seed)
         ok, msg, merged = APP_STATE.run_svs_from_paths(
+            prompt_wav_path=str(prompt_wav),
             prompt_metadata_path=prompt_meta_path,
             target_metadata_path=target_meta_path,
             control=control,
         )
         if not ok or merged is None:
             print(msg or "synthesis failed", file=sys.stderr, flush=True)
+            return None, gr.update(), gr.update()
+        # Return generated audio + update metadata displays
+        return str(merged), prompt_meta_path, target_meta_path
     except Exception:
         print(traceback.format_exc(), file=sys.stderr, flush=True)
+        return None, gr.update(), gr.update()
 def render_interface() -> gr.Blocks:
+    with gr.Blocks(title="SoulX-Singer", theme=gr.themes.Default()) as page:
         gr.HTML(
             '<div style="'
             'text-align: center; '
             '"></div>'
             '</div>'
         )
+        with gr.Row(equal_height=False):
+            # ── Left column: inputs & controls ──
             with gr.Column(scale=1):
                 prompt_audio = gr.Audio(
+                    label="Prompt audio (reference voice), max 30s",
                     type="filepath",
                     editable=False,
                     interactive=True,
                 )
                 target_audio = gr.Audio(
+                    label="Target audio (melody / lyrics source), max 60s",
                     type="filepath",
                     editable=False,
                     interactive=True,
                 )
+                with gr.Row():
+                    control_radio = gr.Radio(
+                        choices=["melody", "score"],
+                        value="score",
+                        label="Control type",
+                        scale=1,
+                    )
+                    auto_shift = gr.Checkbox(
+                        label="Auto pitch shift",
+                        value=True,
+                        interactive=True,
+                        scale=1,
+                    )
+                with gr.Row():
+                    pitch_shift = gr.Number(
+                        label="Pitch shift (semitones)",
+                        value=0,
+                        minimum=-36,
+                        maximum=36,
+                        step=1,
+                        interactive=True,
+                        scale=1,
+                    )
+                    seed_input = gr.Number(
+                        label="Seed",
+                        value=12306,
+                        step=1,
+                        interactive=True,
+                        scale=1,
+                    )
+                synthesis_btn = gr.Button(
+                    value="🎤 Generate singing voice",
+                    variant="primary",
+                    size="lg",
+                )
+                # ── Advanced: transcription settings & metadata ──
+                with gr.Accordion("Advanced: Transcription & Metadata", open=False):
+                    gr.Markdown(
+                        "Upload your own metadata files to skip automatic transcription. "
+                        "You can use the [SoulX-Singer-Midi-Editor]"
+                        "(https://huggingface.co/spaces/Soul-AILab/SoulX-Singer-Midi-Editor) "
+                        "to edit metadata for better alignment."
+                    )
+                    with gr.Row():
+                        prompt_lyric_lang = gr.Dropdown(
+                            label="Prompt lyric language",
+                            choices=[
+                                ("Mandarin", "Mandarin"),
+                                ("Cantonese", "Cantonese"),
+                                ("English", "English"),
+                            ],
+                            value="English",
+                            interactive=True,
+                            scale=1,
+                        )
+                        target_lyric_lang = gr.Dropdown(
+                            label="Target lyric language",
+                            choices=[
+                                ("Mandarin", "Mandarin"),
+                                ("Cantonese", "Cantonese"),
+                                ("English", "English"),
+                            ],
+                            value="English",
+                            interactive=True,
+                            scale=1,
+                        )
+                    with gr.Row():
+                        prompt_vocal_sep = gr.Checkbox(
+                            label="Prompt vocal separation",
+                            value=False,
+                            interactive=True,
+                            scale=1,
+                        )
+                        target_vocal_sep = gr.Checkbox(
+                            label="Target vocal separation",
+                            value=True,
+                            interactive=True,
+                            scale=1,
+                        )
+                    transcription_btn = gr.Button(
+                        value="Run singing transcription",
+                        variant="secondary",
+                        size="lg",
+                    )
+                    with gr.Row():
+                        prompt_metadata = gr.File(
+                            label="Prompt metadata",
+                            type="filepath",
+                            file_types=[".json"],
+                            interactive=True,
+                        )
+                        target_metadata = gr.File(
+                            label="Target metadata",
+                            type="filepath",
+                            file_types=[".json"],
+                            interactive=True,
+                        )
+            # ── Right column: output ──
+            with gr.Column(scale=1):
+                output_audio = gr.Audio(
+                    label="Generated audio",
+                    type="filepath",
+                    interactive=False,
+                )
+        # ── Event handlers ──
         transcription_btn.click(
             fn=transcription_function,
             inputs=[
+                prompt_audio, target_audio,
+                prompt_metadata, target_metadata,
+                prompt_lyric_lang, target_lyric_lang,
+                prompt_vocal_sep, target_vocal_sep,
             ],
             outputs=[prompt_metadata, target_metadata],
         )
         synthesis_btn.click(
             fn=synthesis_function,
             inputs=[
+                prompt_audio, target_audio,
+                prompt_metadata, target_metadata,
+                control_radio, auto_shift, pitch_shift, seed_input,
+                prompt_lyric_lang, target_lyric_lang,
+                prompt_vocal_sep, target_vocal_sep,
             ],
+            outputs=[output_audio, prompt_metadata, target_metadata],
         )
     return page
     page = render_interface()
     page.queue()
+    page.launch(share=args.share, server_name="0.0.0.0", server_port=args.port)