Spaces:

HumeAI
/

tada

Running on Zero

App Files Files Community

sharath25 commited on Mar 12

Commit

dc3cb88

1 Parent(s): d65321c

simplify the gradio app and make it more stable

Browse files

Files changed (15) hide show

app.py +81 -272
requirements.txt +2 -1
samples/de/prompt_transcripts.json +0 -6
samples/de/segment_002.wav +0 -3
samples/de/segment_005.wav +0 -3
samples/de/segment_007.wav +0 -3
samples/de/segment_010.wav +0 -3
samples/de/synth_transcripts.json +0 -8
samples/ja/prompt_transcripts.json +0 -7
samples/ja/segment_003.wav +0 -3
samples/ja/segment_009.wav +0 -3
samples/ja/segment_013.wav +0 -3
samples/ja/segment_020.wav +0 -3
samples/ja/segment_023.wav +0 -3
samples/ja/synth_transcripts.json +0 -8

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 """
-Gradio app for TADA inference.
 Usage:
     pip install hume-tada
@@ -8,9 +8,7 @@ Usage:
     GRADIO_SHARE=1 gradio app.py
 """
-import dataclasses
 import html
-import json
 import logging
 import os
 import shutil
@@ -37,27 +35,18 @@ logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 # ---------------------------------------------------------------------------
-# Preset samples & transcripts
 # ---------------------------------------------------------------------------
 _script_dir = os.path.dirname(os.path.abspath(__file__))
 _SAMPLES_DIR = os.path.join(_script_dir, "samples")
 _AUDIO_EXTENSIONS = (".wav", ".mp3", ".flac")
-LANGUAGE_MAP = {
-    "English": None,
-    "German": "de",
-    "Japanese": "ja",
-}
-_CODE_TO_LANG_DIR = {None: "en", "de": "de", "ja": "ja"}
-def _discover_preset_samples(lang_code: str | None = None) -> dict[str, str]:
-    """Return {display_name: absolute_path} for audio files in the language's samples/ subdir."""
     presets: dict[str, str] = {}
-    lang_dir = _CODE_TO_LANG_DIR.get(lang_code, "en")
-    search_dir = os.path.join(_SAMPLES_DIR, lang_dir)
     if not os.path.isdir(search_dir):
         return presets
     for fname in sorted(os.listdir(search_dir)):
@@ -66,108 +55,56 @@ def _discover_preset_samples(lang_code: str | None = None) -> dict[str, str]:
     return presets
-def _load_preset_transcripts(lang_code: str | None = None) -> dict[str, str]:
-    """Load preset transcripts from synth_transcripts.json in the language's sample dir."""
-    lang_dir = _CODE_TO_LANG_DIR.get(lang_code, "en")
-    candidate = os.path.join(_SAMPLES_DIR, lang_dir, "synth_transcripts.json")
     if os.path.isfile(candidate):
         with open(candidate) as f:
             return json.load(f)
     return {}
-def _load_prompt_transcripts(lang_code: str | None = None) -> dict[str, str]:
-    """Load prompt transcripts from prompt_transcripts.json in the language's sample dir.
-    Returns {audio_filename: transcript} for providing ground-truth text to the encoder
-    instead of relying on ASR (which may not support the target language).
-    """
-    lang_dir = _CODE_TO_LANG_DIR.get(lang_code, "en")
-    candidate = os.path.join(_SAMPLES_DIR, lang_dir, "prompt_transcripts.json")
     if os.path.isfile(candidate):
         with open(candidate) as f:
             return json.load(f)
     return {}
-# Initialize with English samples
-_PRESET_SAMPLES = _discover_preset_samples(None)
-_PRESET_TRANSCRIPTS = _load_preset_transcripts(None)
-_PROMPT_TRANSCRIPTS = _load_prompt_transcripts(None)
 logger.info("Discovered %d preset audio samples, %d transcripts", len(_PRESET_SAMPLES), len(_PRESET_TRANSCRIPTS))
 # ---------------------------------------------------------------------------
-# Global model state
 # ---------------------------------------------------------------------------
-_MODEL_CHOICES = ["HumeAI/tada-1b", "HumeAI/tada-3b-ml"]
-_DEFAULT_MODEL = "HumeAI/tada-3b-ml"
-_MULTILINGUAL_MODELS = {"HumeAI/tada-3b-ml"}
-def _language_choices_for_model(model_name: str) -> list[str]:
-    """Return the list of language display names available for the given model."""
-    if model_name in _MULTILINGUAL_MODELS:
-        return list(LANGUAGE_MAP.keys())
-    return ["English"]
-_encoder_cache: dict[str | None, Encoder] = {}
-_model: TadaForCausalLM | None = None
-_current_model_name: str = ""
-_current_language: str | None = None
 _device = "cuda"
-def _move_encoder_output(output: EncoderOutput, device: str) -> EncoderOutput:
-    """Move all tensor fields of an EncoderOutput to the given device."""
-    kwargs = {}
-    for f in dataclasses.fields(output):
-        val = getattr(output, f.name)
-        if isinstance(val, torch.Tensor):
-            kwargs[f.name] = val.to(device)
-        else:
-            kwargs[f.name] = val
-    return EncoderOutput(**kwargs)
-def get_encoder(language_code: str | None = None) -> Encoder:
-    """Get or create an Encoder for the given language, with caching."""
-    if language_code not in _encoder_cache:
-        _encoder_cache[language_code] = Encoder.from_pretrained(
-            "HumeAI/tada-codec", language=language_code
-        ).to(_device)
-    return _encoder_cache[language_code]
-def _get_device_info() -> str:
-    if torch.cuda.is_available():
-        names = [torch.cuda.get_device_name(i) for i in range(torch.cuda.device_count())]
-        return f"CUDA - {', '.join(names)}"
-    if torch.backends.mps.is_available():
-        return "MPS (Apple Silicon)"
-    return "CPU (ZeroGPU provides GPU during inference)"
-def load_models(model_name: str = _DEFAULT_MODEL) -> str:
-    """Load encoder and TADA model. Returns a status string."""
-    global _model, _current_model_name
-    if _model is not None and _current_model_name == model_name:
-        return f"Loaded: {model_name} on {_get_device_info()}"
-    if _model is not None:
-        del _model
-        _model = None
-    get_encoder(_current_language)
-    logger.info("Loading %s ...", model_name)
-    _model = TadaForCausalLM.from_pretrained(model_name)
-    _current_model_name = model_name
-    status = f"Loaded: {model_name} on {_get_device_info()}"
-    logger.info(status)
-    return status
 # ---------------------------------------------------------------------------
@@ -175,26 +112,6 @@ def load_models(model_name: str = _DEFAULT_MODEL) -> str:
 # ---------------------------------------------------------------------------
-def _encode_prompt(audio_path: str | None, language_code: str | None = None, prompt_text: str | None = None) -> EncoderOutput:
-    """Encode an audio file into an EncoderOutput prompt (or return an empty one).
-    If *prompt_text* is provided it is passed to the encoder for forced alignment,
-    bypassing the built-in ASR transcription (which is English-only).
-    """
-    if audio_path is None or audio_path == "":
-        return EncoderOutput.empty(_device)
-    encoder = get_encoder(language_code)
-    audio, sample_rate = torchaudio.load(audio_path)
-    audio = audio.mean(dim=0, keepdim=True)  # mono
-    audio = audio / audio.abs().max().clamp(min=1e-8) * 0.95
-    audio = audio.to(_device)
-    text_kwarg = [prompt_text] if prompt_text else None
-    prompt = encoder(audio, text=text_kwarg, sample_rate=sample_rate)
-    return prompt
 def _decode_tokens_individually(tokenizer, token_ids: list[int]) -> list[str]:
     """Decode a list of token IDs into per-token strings, handling multi-byte characters."""
     labels: list[str] = []
@@ -206,13 +123,12 @@ def _decode_tokens_individually(tokenizer, token_ids: list[int]) -> list[str]:
     return labels
-def _format_token_alignment(prompt: EncoderOutput, language_code: str | None = None) -> str:
     """Build an HTML string: dots in grey, tokens as bold coloured spans."""
     if prompt.text_tokens is None or prompt.token_positions is None:
         return ""
-    encoder = get_encoder(language_code)
-    tokenizer = encoder.tokenizer
     n_tokens = (
         int(prompt.text_tokens_len[0].item()) if prompt.text_tokens_len is not None else prompt.text_tokens.shape[1]
     )
@@ -245,44 +161,9 @@ def _format_token_alignment(prompt: EncoderOutput, language_code: str | None = N
     )
-@gpu_decorator
-@torch.inference_mode()
-def process_prompt(audio_path: str | None, language: str = "English") -> tuple[str, EncoderOutput | None]:
-    """Encode the voice prompt and return (alignment_html, prompt_on_cpu)."""
-    global _current_language
-    language_code = LANGUAGE_MAP.get(language)
-    _current_language = language_code
-    _encoder = get_encoder(language_code)
-    _encoder.to(_device)
-    if audio_path is None or audio_path == "":
-        return "No audio provided (zero-shot mode).", None
-    try:
-        # Look up prompt transcript for preset samples (avoids English-only ASR for non-English audio)
-        prompt_text = None
-        if audio_path:
-            audio_fname = os.path.basename(audio_path)
-            # Check both the original filename and the preset-prefixed temp name
-            for key in (audio_fname, audio_fname.replace("tada_preset_", "")):
-                if key in _PROMPT_TRANSCRIPTS:
-                    prompt_text = _PROMPT_TRANSCRIPTS[key]
-                    break
-        prompt = _encode_prompt(audio_path, language_code, prompt_text=prompt_text)
-        alignment_html = _format_token_alignment(prompt, language_code)
-        # Move to CPU for gr.State serialization (ZeroGPU compatibility)
-        prompt_cpu = _move_encoder_output(prompt, "cpu")
-        return alignment_html, prompt_cpu
-    except Exception as e:
-        logger.exception("Prompt processing failed")
-        raise gr.Error(f"Prompt processing failed: {e}")
 def _decode_byte_tokens(raw_tokens: list[str]) -> list[str]:
     """Decode GPT-2 byte-level token strings into proper Unicode per-token labels."""
-    if not raw_tokens or _model is None:
         return raw_tokens
     try:
         tokenizer = _model.tokenizer
@@ -324,9 +205,15 @@ def _format_step_logs(step_logs: list[dict], audio_duration: float, wall_time: f
     )
 @gpu_decorator(duration=120)
 @torch.inference_mode()
-def generate_speech(
     text: str,
     num_extra_steps: float = 0,
     noise_temperature: float = 0.9,
@@ -340,22 +227,43 @@ def generate_speech(
     spkr_verification_weight: float = 1.0,
     speed_up_factor: float = 0.0,
     normalize_text: bool = True,
-    cached_prompt: EncoderOutput | None = None,
-) -> tuple[str | None, str]:
-    """Run TADA generation using the provided prompt and return (wav_path, alignment_html)."""
-    if _model is None:
-        raise gr.Error("Models are not loaded. Click 'Load Model' first.")
-    if cached_prompt is None:
-        raise gr.Error("Please upload audio and click 'Process Prompt' first.")
     _model.to(_device)
     _model.decoder.to(_device)
     try:
-        prompt = _move_encoder_output(cached_prompt, _device)
         logger.info("Generating speech for text: %s", text)
-        # speed_up_factor: 0 means disabled (None)
         suf = float(speed_up_factor) if speed_up_factor > 0 else None
         t0 = time.time()
@@ -391,28 +299,24 @@ def generate_speech(
         audio_duration = wav.shape[-1] / 24_000
-        # Extract only text-to-speak step_logs, reconstructing any prefilled (missing) entries
         all_logs = output.step_logs or []
-        if _model is not None and text and output.input_text_ids is not None:
             input_ids = output.input_text_ids[0]
             seq_len = input_ids.shape[0]
             n_eos = _model.config.shift_acoustic
-            # Count text-to-speak tokens (same logic as generate())
             normalized = normalize_text_fn(text) if normalize_text else text
             n_text_tokens = len(_model.tokenizer.encode(normalized, add_special_tokens=False))
             text_end = seq_len - n_eos
             text_start = text_end - n_text_tokens
-            # Build a step -> log lookup from existing step_logs
             log_by_step = {e["step"]: e for e in all_logs}
-            # Collect text-token entries, filling in any missing prefilled steps
             text_logs = []
             for s in range(text_start, text_end):
                 if s in log_by_step:
                     text_logs.append(log_by_step[s])
                 else:
-                    # Prefilled step — reconstruct from input_text_ids
                     token_id = input_ids[s].item()
                     token_str = _model.tokenizer.convert_ids_to_tokens([token_id])[0]
                     text_logs.append({
@@ -430,7 +334,7 @@ def generate_speech(
             generated_logs = all_logs
         generated_html = _format_step_logs(generated_logs, audio_duration, wall_time)
-        return tmp_path, generated_html
     except gr.Error:
         raise
@@ -454,38 +358,9 @@ def build_ui() -> gr.Blocks:
         ),
     ) as demo:
         gr.Markdown("# TADA - Text-Acoustic Dual Alignment LLM")
-        prompt_state = gr.State(value=None)
         with gr.Row(equal_height=False):
             with gr.Column(scale=1):
-                with gr.Row():
-                    model_dropdown = gr.Dropdown(
-                        choices=_MODEL_CHOICES,
-                        value=_current_model_name or _DEFAULT_MODEL,
-                        label="Model",
-                        scale=3,
-                    )
-                    load_btn = gr.Button("Load Model", scale=1)
-                load_status = gr.Textbox(label="Model Status", interactive=False, show_label=False)
-                language_dd = gr.Dropdown(
-                    choices=list(LANGUAGE_MAP.keys()),
-                    value="English",
-                    label="Language",
-                    info="Selects the aligner for prompt encoding",
-                )
-                def _on_model_selected(model_name: str):
-                    """Update language choices when model changes."""
-                    choices = _language_choices_for_model(model_name)
-                    return gr.update(choices=choices, value="English")
-                model_dropdown.change(
-                    fn=_on_model_selected,
-                    inputs=[model_dropdown],
-                    outputs=[language_dd],
-                )
                 with gr.Accordion("Text Settings", open=False):
                     num_extra_steps = gr.Slider(
                         minimum=0, maximum=200, value=0, step=1,
@@ -580,25 +455,8 @@ def build_ui() -> gr.Blocks:
                     outputs=[audio_input],
                 )
-                def _on_language_changed(language: str):
-                    """Update preset samples and transcripts when language changes."""
-                    lang_code = LANGUAGE_MAP.get(language)
-                    samples = _discover_preset_samples(lang_code)
-                    new_preset_choices = ["None (zero-shot)"] + list(samples.keys())
-                    global _PRESET_SAMPLES, _PRESET_TRANSCRIPTS, _PROMPT_TRANSCRIPTS
-                    _PRESET_SAMPLES = samples
-                    _PRESET_TRANSCRIPTS = _load_preset_transcripts(lang_code)
-                    _PROMPT_TRANSCRIPTS = _load_prompt_transcripts(lang_code)
-                    new_transcript_choices = ["(custom)"] + list(_PRESET_TRANSCRIPTS.keys())
-                    first_sample = new_preset_choices[1] if len(new_preset_choices) > 1 else "None (zero-shot)"
-                    return (
-                        gr.update(choices=new_preset_choices, value=first_sample),
-                        gr.update(choices=new_transcript_choices, value="(custom)"),
-                    )
-                process_prompt_btn = gr.Button("Process Prompt", variant="secondary", size="sm")
-                with gr.Accordion("Token Alignment", open=True):
-                    prompt_alignment = gr.HTML(value="Upload audio and click <b>Process Prompt</b> before generating.")
             with gr.Column(scale=2):
                 _default_transcript = "emo_interest_sentences"
@@ -630,52 +488,6 @@ def build_ui() -> gr.Blocks:
                 generate_btn = gr.Button("Generate", variant="primary", size="lg")
-                # --- Wire language change to update presets + re-process prompt ---
-                language_dd.change(
-                    fn=_on_language_changed,
-                    inputs=[language_dd],
-                    outputs=[preset_dropdown, transcript_dropdown],
-                )
-                # --- Shared chain: show "Processing..." -> encode -> restore button ---
-                def _wire_process_prompt(event):
-                    """Chain process_prompt onto any event."""
-                    event.then(
-                        fn=lambda: (gr.update(value="Processing...", interactive=False), ""),
-                        inputs=[],
-                        outputs=[process_prompt_btn, prompt_alignment],
-                    ).then(
-                        fn=process_prompt,
-                        inputs=[audio_input, language_dd],
-                        outputs=[prompt_alignment, prompt_state],
-                    ).then(
-                        fn=lambda: gr.update(value="Process Prompt", interactive=True),
-                        inputs=[],
-                        outputs=[process_prompt_btn],
-                    )
-                # Manual click
-                _wire_process_prompt(process_prompt_btn.click(fn=lambda: None, inputs=[], outputs=[]))
-                # Load model (no auto-process; user must click Process Prompt)
-                load_btn.click(
-                    fn=lambda: (gr.update(interactive=False), "Loading model..."),
-                    inputs=[],
-                    outputs=[load_btn, load_status],
-                ).then(
-                    fn=load_models,
-                    inputs=[model_dropdown],
-                    outputs=[load_status],
-                ).then(
-                    fn=lambda: gr.update(interactive=True),
-                    inputs=[],
-                    outputs=[load_btn],
-                )
                 # --- Output ---
                 audio_output = gr.Audio(label="Generated Audio")
                 with gr.Accordion("Generated Alignment", open=False):
@@ -683,6 +495,7 @@ def build_ui() -> gr.Blocks:
                 # Wire up generate button
                 all_inputs = [
                     text_input,
                     num_extra_steps,
                     noise_temperature,
@@ -696,13 +509,12 @@ def build_ui() -> gr.Blocks:
                     spkr_verification_weight,
                     speed_up_factor,
                     normalize_text_cb,
-                    prompt_state,
                 ]
                 generate_btn.click(
-                    fn=generate_speech,
                     inputs=all_inputs,
-                    outputs=[audio_output, generated_text_display],
                 )
     return demo
@@ -715,9 +527,6 @@ def build_ui() -> gr.Blocks:
 _share = os.environ.get("GRADIO_SHARE", "").lower() in ("1", "true", "yes")
 _port = int(os.environ.get("GRADIO_PORT", "7860"))
-# Auto-load models on startup
-load_models()
 # `demo` at module scope so the `gradio` CLI / HF Spaces can discover it.
 demo = build_ui()

 """
+Gradio app for TADA inference (English-only, single model).
 Usage:
     pip install hume-tada
     GRADIO_SHARE=1 gradio app.py
 """
 import html
 import logging
 import os
 import shutil
 logger = logging.getLogger(__name__)
 # ---------------------------------------------------------------------------
+# Preset samples & transcripts (English only)
 # ---------------------------------------------------------------------------
 _script_dir = os.path.dirname(os.path.abspath(__file__))
 _SAMPLES_DIR = os.path.join(_script_dir, "samples")
 _AUDIO_EXTENSIONS = (".wav", ".mp3", ".flac")
+def _discover_preset_samples() -> dict[str, str]:
+    """Return {display_name: absolute_path} for audio files in samples/en/."""
     presets: dict[str, str] = {}
+    search_dir = os.path.join(_SAMPLES_DIR, "en")
     if not os.path.isdir(search_dir):
         return presets
     for fname in sorted(os.listdir(search_dir)):
     return presets
+def _load_preset_transcripts() -> dict[str, str]:
+    """Load preset transcripts from synth_transcripts.json."""
+    import json
+    candidate = os.path.join(_SAMPLES_DIR, "en", "synth_transcripts.json")
     if os.path.isfile(candidate):
         with open(candidate) as f:
             return json.load(f)
     return {}
+def _load_prompt_transcripts() -> dict[str, str]:
+    """Load prompt transcripts from prompt_transcripts.json."""
+    import json
+    candidate = os.path.join(_SAMPLES_DIR, "en", "prompt_transcripts.json")
     if os.path.isfile(candidate):
         with open(candidate) as f:
             return json.load(f)
     return {}
+_PRESET_SAMPLES = _discover_preset_samples()
+_PRESET_TRANSCRIPTS = _load_preset_transcripts()
+_PROMPT_TRANSCRIPTS = _load_prompt_transcripts()
 logger.info("Discovered %d preset audio samples, %d transcripts", len(_PRESET_SAMPLES), len(_PRESET_TRANSCRIPTS))
 # ---------------------------------------------------------------------------
+# Global model state — single model, single encoder
 # ---------------------------------------------------------------------------
+_MODEL_NAME = "HumeAI/tada-3b-ml"
 _device = "cuda"
+def _validate_no_meta_tensors(model, name: str = "model"):
+    """Raise if any parameter is on the meta device (not materialised)."""
+    for param_name, param in model.named_parameters():
+        if param.device.type == "meta":
+            raise RuntimeError(
+                f"{name} has meta-device parameter: {param_name}. "
+                "Pass low_cpu_mem_usage=False to from_pretrained()."
+            )
+logger.info("Loading encoder ...")
+_encoder = Encoder.from_pretrained("HumeAI/tada-codec", language=None, low_cpu_mem_usage=False).to(_device)
+_validate_no_meta_tensors(_encoder, "Encoder")
+logger.info("Loading %s ...", _MODEL_NAME)
+_model = TadaForCausalLM.from_pretrained(_MODEL_NAME, low_cpu_mem_usage=False)
+_validate_no_meta_tensors(_model, "TadaForCausalLM")
+logger.info("Models loaded.")
 # ---------------------------------------------------------------------------
 # ---------------------------------------------------------------------------
 def _decode_tokens_individually(tokenizer, token_ids: list[int]) -> list[str]:
     """Decode a list of token IDs into per-token strings, handling multi-byte characters."""
     labels: list[str] = []
     return labels
+def _format_token_alignment(prompt: EncoderOutput) -> str:
     """Build an HTML string: dots in grey, tokens as bold coloured spans."""
     if prompt.text_tokens is None or prompt.token_positions is None:
         return ""
+    tokenizer = _encoder.tokenizer
     n_tokens = (
         int(prompt.text_tokens_len[0].item()) if prompt.text_tokens_len is not None else prompt.text_tokens.shape[1]
     )
     )
 def _decode_byte_tokens(raw_tokens: list[str]) -> list[str]:
     """Decode GPT-2 byte-level token strings into proper Unicode per-token labels."""
+    if not raw_tokens:
         return raw_tokens
     try:
         tokenizer = _model.tokenizer
     )
+# ---------------------------------------------------------------------------
+# Single generate function (merged prompt encoding + generation)
+# ---------------------------------------------------------------------------
 @gpu_decorator(duration=120)
 @torch.inference_mode()
+def generate(
+    audio_path: str | None,
     text: str,
     num_extra_steps: float = 0,
     noise_temperature: float = 0.9,
     spkr_verification_weight: float = 1.0,
     speed_up_factor: float = 0.0,
     normalize_text: bool = True,
+) -> tuple[str | None, str, str]:
+    """Encode prompt + generate speech in a single GPU call.
+    Returns (wav_path, prompt_alignment_html, generated_alignment_html).
+    """
+    # Move model + encoder to GPU
+    _encoder.to(_device)
     _model.to(_device)
     _model.decoder.to(_device)
+    # --- Encode prompt ---
+    if audio_path is None or audio_path == "":
+        prompt = EncoderOutput.empty(_device)
+        prompt_html = "No audio provided (zero-shot mode)."
+    else:
+        audio, sample_rate = torchaudio.load(audio_path)
+        audio = audio.mean(dim=0, keepdim=True)  # mono
+        audio = audio / audio.abs().max().clamp(min=1e-8) * 0.95
+        audio = audio.to(_device)
+        # Look up prompt transcript for preset samples
+        prompt_text = None
+        if audio_path:
+            audio_fname = os.path.basename(audio_path)
+            for key in (audio_fname, audio_fname.replace("tada_preset_", "")):
+                if key in _PROMPT_TRANSCRIPTS:
+                    prompt_text = _PROMPT_TRANSCRIPTS[key]
+                    break
+        text_kwarg = [prompt_text] if prompt_text else None
+        prompt = _encoder(audio, text=text_kwarg, sample_rate=sample_rate)
+        prompt_html = _format_token_alignment(prompt)
+    # --- Generate speech ---
     try:
         logger.info("Generating speech for text: %s", text)
         suf = float(speed_up_factor) if speed_up_factor > 0 else None
         t0 = time.time()
         audio_duration = wav.shape[-1] / 24_000
+        # Extract text-to-speak step_logs
         all_logs = output.step_logs or []
+        if text and output.input_text_ids is not None:
             input_ids = output.input_text_ids[0]
             seq_len = input_ids.shape[0]
             n_eos = _model.config.shift_acoustic
             normalized = normalize_text_fn(text) if normalize_text else text
             n_text_tokens = len(_model.tokenizer.encode(normalized, add_special_tokens=False))
             text_end = seq_len - n_eos
             text_start = text_end - n_text_tokens
             log_by_step = {e["step"]: e for e in all_logs}
             text_logs = []
             for s in range(text_start, text_end):
                 if s in log_by_step:
                     text_logs.append(log_by_step[s])
                 else:
                     token_id = input_ids[s].item()
                     token_str = _model.tokenizer.convert_ids_to_tokens([token_id])[0]
                     text_logs.append({
             generated_logs = all_logs
         generated_html = _format_step_logs(generated_logs, audio_duration, wall_time)
+        return tmp_path, prompt_html, generated_html
     except gr.Error:
         raise
         ),
     ) as demo:
         gr.Markdown("# TADA - Text-Acoustic Dual Alignment LLM")
         with gr.Row(equal_height=False):
             with gr.Column(scale=1):
                 with gr.Accordion("Text Settings", open=False):
                     num_extra_steps = gr.Slider(
                         minimum=0, maximum=200, value=0, step=1,
                     outputs=[audio_input],
                 )
+                with gr.Accordion("Prompt Token Alignment", open=True):
+                    prompt_alignment = gr.HTML(value="Generate to see prompt alignment.")
             with gr.Column(scale=2):
                 _default_transcript = "emo_interest_sentences"
                 generate_btn = gr.Button("Generate", variant="primary", size="lg")
                 # --- Output ---
                 audio_output = gr.Audio(label="Generated Audio")
                 with gr.Accordion("Generated Alignment", open=False):
                 # Wire up generate button
                 all_inputs = [
+                    audio_input,
                     text_input,
                     num_extra_steps,
                     noise_temperature,
                     spkr_verification_weight,
                     speed_up_factor,
                     normalize_text_cb,
                 ]
                 generate_btn.click(
+                    fn=generate,
                     inputs=all_inputs,
+                    outputs=[audio_output, prompt_alignment, generated_text_display],
                 )
     return demo
 _share = os.environ.get("GRADIO_SHARE", "").lower() in ("1", "true", "yes")
 _port = int(os.environ.get("GRADIO_PORT", "7860"))
 # `demo` at module scope so the `gradio` CLI / HF Spaces can discover it.
 demo = build_ui()

requirements.txt CHANGED Viewed

@@ -1,5 +1,6 @@
-hume-tada==0.1.6
 descript-audio-codec
 transformers==4.57.3
 gradio==6.5.1
 spaces

+hume-tada==0.1.7
 descript-audio-codec
 transformers==4.57.3
 gradio==6.5.1
+accelerate==1.6.0
 spaces

samples/de/prompt_transcripts.json DELETED Viewed

@@ -1,6 +0,0 @@
-{
-  "segment_002.wav": "Patsy, mich nennst du Tarsuin, Rika ist Rika, Ma, kannst du Miss McAllis? Neferra, korrigierte seine Mutter. Und Due, fügte sein Vater hinzu. Nennen, also, Neferra und Due. Tarsuin deutete sicherheitshalber auf seine Eltern.",
-  "segment_005.wav": "Die regionale UNIQA Generalagentur. Vertrauen, Versichern, Vorsorgen. Als Ihre Versicherungsagentur vor Ort bieten wir maßgeschneiderte Versicherungslösungen. Sowohl für den Privat- als auch für den Geschäftskunden.",
-  "segment_007.wav": "Ja, also interessanterweise finde ich meine Position gar nicht so kritisch, sondern es ist halt eine typisch gesundheitswissenschaftliche Position. Die schaut halt sehr auf das ganze Bild, also versucht irgendwie alle Parameter im Blick zu haben. Und jetzt nicht nur das virale Geschehen, sondern ich schaue durchaus auch auf ökonomische Dinge, obwohl ich jetzt kein Ökonom bin, aber Wirtschaft und Arbeitslosigkeit hängen halt sehr eng mit Gesundheit zusammen.",
-  "segment_010.wav": "Und ja, wie gesagt, diesen Beitrag hier kann ich euch empfehlen von transparentberaten.de. Ist kostenloses Streaming illegal? Könnt ihr es einfach nochmal durchlesen. Das ist so pauschal einfach, was das heißt. Also ich meine, falls irgendjemand hier Angst hat oder sich denkt, ja, aber vielleicht ist es ja doch legal. Nein, es ist nicht. Und hier könnt ihr es nochmal nachlesen. Aber ja."
-}

samples/de/segment_002.wav DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e938f9cafef1ab7969dca137a1dbebd919593bc0881ce04ada9872c379c1eddd
-size 513078

samples/de/segment_005.wav DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d233c8afaa7d9f5a1edb4949ef67f8d08a6eca9e977d6c2285d83b88c6efee97
-size 486078

samples/de/segment_007.wav DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:05068225f5fb75350af2f39a3fbcb0b32cbac4d07790ee29b9f52b33b5f0e5a0
-size 1533138

samples/de/segment_010.wav DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e749c6f2128ebaf60ba33b6a585434529383e7f8f09552ba74dacc1163946c7c
-size 585436

samples/de/synth_transcripts.json DELETED Viewed

@@ -1,8 +0,0 @@
-{
-  "casual_conversation": "Also, ich muss dir unbedingt erzählen, was mir gestern passiert ist. Ich war im Supermarkt, ganz normal einkaufen, und plötzlich steht mein alter Schulfreund vor mir. Den hab ich bestimmt zehn Jahre nicht gesehen! Wir haben dann einfach eine halbe Stunde im Gang gestanden und gequatscht, während die anderen Leute an uns vorbeigeschoben haben. Er wohnt jetzt in München und arbeitet bei so einem Start-up, irgendwas mit erneuerbaren Energien. Wir haben Nummern ausgetauscht und wollen uns nächste Woche auf einen Kaffee treffen. Ist schon verrückt, wie das Leben manchmal so spielt, oder?",
-  "storytelling": "Meine Oma hat mir als Kind immer diese eine Geschichte erzählt, von einem kleinen Fuchs, der sich im Schwarzwald verlaufen hat. Der Fuchs war noch ganz jung und hatte sich zu weit von seiner Familie entfernt. Es wurde dunkel und er konnte den Weg nicht mehr finden. Aber dann hat er eine alte Eule getroffen, die oben in einer riesigen Eiche saß. Die Eule hat ihm gesagt, er soll einfach dem Bach folgen, denn der führt immer nach Hause. Und tatsächlich, der kleine Fuchs ist am Wasser entlanggelaufen und hat seine Familie wiedergefunden. Ich fand die Geschichte damals so beruhigend, und ehrlich gesagt, denke ich heute noch manchmal daran, wenn ich mich irgendwo verloren fühle.",
-  "news_report": "In Berlin haben heute Tausende Menschen für mehr Klimaschutz demonstriert. Der Protestzug bewegte sich vom Brandenburger Tor bis zum Regierungsviertel, wo die Teilnehmer konkrete Maßnahmen gegen den Klimawandel forderten. Die Polizei schätzte die Zahl der Demonstranten auf etwa fünfzehntausend. Organisatoren sprachen von deutlich mehr Teilnehmern. Die Bundesregierung reagierte mit einer Erklärung, in der sie die Bedeutung des Klimaschutzes betonte und auf bereits beschlossene Maßnahmen verwies. Weitere Demonstrationen sind für das kommende Wochenende in Hamburg und München angekündigt.",
-  "emotional_reflection": "Manchmal frage ich mich, ob ich die richtigen Entscheidungen getroffen hab, weißt du? Nicht, dass ich unglücklich bin oder so, aber es gibt diese Momente, wo man einfach nachdenkt. Letztes Jahr bin ich umgezogen, neue Stadt, neuer Job, und am Anfang war alles aufregend. Aber dann kommen die ruhigen Abende, wo man alleine in der Wohnung sitzt und merkt, dass man hier noch niemanden richtig kennt. Es wird besser, ganz langsam. Ich hab angefangen, in einen Sportverein zu gehen, und die Leute da sind echt nett. Es braucht halt einfach Zeit, sich irgendwo zu Hause zu fühlen. Das vergisst man manchmal.",
-  "travel_experience": "Letzten Sommer sind wir mit dem Zug durch die Schweiz gefahren, und ich muss sagen, das war einer der schönsten Urlaube, die ich je hatte. Wir haben den Bernina Express genommen, dieser Zug, der über die Alpen fährt. Die Aussicht war einfach unglaublich, überall schneebedeckte Gipfel und türkisfarbene Seen. In Luzern haben wir dann zwei Tage verbracht und sind auf den Pilatus gewandert. Oben war es so klar, dass man gefühlt bis nach Italien gucken konnte. Abends haben wir in so einem kleinen Restaurant Käsefondue gegessen, und das war so gut, dass wir am nächsten Abend nochmal hingegangen sind.",
-  "food_and_cooking": "Ich hab am Wochenende zum ersten Mal versucht, Sauerteigbrot selbst zu backen, und Mann, das ist echt eine Wissenschaft für sich. Allein den Sauerteig-Starter zu machen, hat fünf Tage gedauert. Jeden Tag füttern, umrühren, warten. Und dann der Teig selbst, der musste zwölf Stunden gehen, dann nochmal falten, dann nochmal vier Stunden. Aber als ich das Brot dann aus dem Ofen geholt hab und diese perfekte Kruste gesehen hab, das war schon ein tolles Gefühl. Innen war es schön luftig mit großen Poren. Mein Mitbewohner meinte, es schmeckt besser als vom Bäcker. Das war wahrscheinlich übertrieben, aber trotzdem hat mich das richtig gefreut."
-}

samples/ja/prompt_transcripts.json DELETED Viewed

@@ -1,7 +0,0 @@
-{
-  "segment_003.wav": "じゃあ日本語もメロディーみたいな感じで覚えるで何言ってるか分かんないときはなんかタカタカとかサカサカとかカタカタって言ってればいいんですよ日本語って大体そういう音だから",
-  "segment_009.wav": "でもその部分は言わないでAさんはねなんか僕が話すといつもね嫌な顔するんですよとか言っちゃうと",
-  "segment_013.wav": "私も基本的にそうなんですね。でもその普通の日常をどうやったら楽しくすることができるかなって考えた時に、1日1回何か新しいことをしたらいいんじゃないかなと思いました。本当にちっちゃいことでいいです。",
-  "segment_020.wav": "それでも自民党を守ろうとする人、安倍さんを守ろうとする人たちは鼻で笑うんでしょうね。そんな人らが最近はようラジオ出てはりますよね。で、はーはーって言ってますよね。",
-  "segment_023.wav": "このムキムキのお兄さんがいるし バーだし少し高そうだと思いますよねこのバーの料金設定は良心的でした まあそんなに高くなかったです"
-}

samples/ja/segment_003.wav DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:bb1a6756a6850fb93c30443fc2b2ffcaae21da94c5557ad0e85313e00136c1df
-size 371598

samples/ja/segment_009.wav DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d8840d4f51ba1ae3d0feaa46562684aa2f9087b3a2401c04b1f0071525a0afe3
-size 335958

samples/ja/segment_013.wav DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:831c1f12d699579c9a9912b8a6c4998706a126ac735a1d0a277cccf59b61bf0a
-size 1361418

samples/ja/segment_020.wav DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b8df94013091664f51214e9d8873fb8a085e5b7c8b05eb6f2dfd01d46d024fb8
-size 592996

samples/ja/segment_023.wav DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e150c51e33ac04d7f828ba3c07f787be3f9e6c11f7184ec39181ca870ad57834
-size 410478

samples/ja/synth_transcripts.json DELETED Viewed

@@ -1,8 +0,0 @@
-{
-  "casual_conversation": "いやー、最近ちょっとバタバタしててさ、なかなか連絡できなくてごめんね。先週末やっと時間できたから、久しぶりに駅前のカフェに行ったんだけど、あそこリニューアルしたの知ってた？内装がすごくおしゃれになってて、メニューも全然変わっててびっくりしちゃった。抹茶のティラミスっていう新しいデザートがあって、それがもう本当においしくて。写真撮ったから今度見せるね。あ、そうだ、来週の土曜日空いてる？もし良かったら一緒に行かない？",
-  "storytelling": "子供の頃、おばあちゃんの家の裏に大きな竹林があってね、夏になると毎日そこで遊んでたんだ。ある日、竹林の奥の方に行ったら、見たことない小さな祠を見つけたの。苔がびっしり生えてて、すごく古い感じだった。おばあちゃんに聞いたら、昔この辺りに住んでいた人たちが水の神様を祀ってたらしいんだよね。それからなんか、その場所が特別に感じられて、雨の日もこっそり見に行ったりしてた。今思うと、あれが冒険心みたいなものの始まりだったのかもしれないなぁ。",
-  "news_report": "本日未明、北海道の広い範囲で記録的な大雪が観測されました。札幌市では24時間で60センチの降雪を記録し、交通機関に大きな影響が出ています。JR北海道は始発から運転を見合わせており、新千歳空港でも100便以上が欠航となっています。気象庁によりますと、この大雪は明日の昼頃まで続く見込みで、引き続き不要不急の外出を控えるよう呼びかけています。特に屋根の雪下ろしの際には十分な注意が必要だということです。",
-  "emotional_reflection": "最近さ、ふと立ち止まって考えることがあるんだよね。毎日忙しくて、目の前のことをこなすのに精一杯で、大事なことを見落としてないかなって。この前、昔の友達から急に連絡が来て、「元気？」ってたった一言だったんだけど、それだけですごく嬉しくて。人とのつながりって、当たり前じゃないんだなって改めて思ったんだ。もっと自分から連絡取るようにしなきゃなって。忙しいって言い訳にしちゃダメだよね、本当に。",
-  "travel_experience": "去年の秋に京都に行ったんだけど、もう紅葉がすごくてさ。嵐山のトロッコ列車に乗ったら、窓の外が一面真っ赤で、まるで絵の中に入ったみたいだった。途中で列車がゆっくり停まるポイントがあって、そこで写真撮れるんだけど、みんな一斉にカメラ構えるのがちょっと面白かった。その後、嵯峨野の竹林を歩いたんだけど、人が多くても不思議と静かな感じがするんだよね。風で竹がさわさわ揺れる音がすごく心地よくて、しばらくぼーっと立ってた。",
-  "food_and_cooking": "昨日初めて本格的なラーメンを作ってみたんだけど、スープがもう大変でさ。豚骨を8時間煮込んだんだよ、8時間だよ？途中で何回もアクを取って、火加減調整して。でもその甲斐があって、すっごく濃厚な白濁スープができたの。麺は製麺機がないから買ったやつなんだけど、チャーシューは自分で作った。醤油と味醂と生姜で煮込んで、最後にバーナーで炙ったらお店みたいな仕上がりになって感動しちゃった。次は味噌ラーメンに挑戦しようかな。"
-}