MultilanguageCloner

Build error

App Files Files Community

oicui commited on Nov 29, 2025

Commit

f8b6238

verified ·

1 Parent(s): c22869a

Upload app.py

Browse files

Files changed (1) hide show

app.py +200 -0

app.py ADDED Viewed

	@@ -0,0 +1,200 @@

+import random
+import re
+import numpy as np
+import torch
+import torchaudio
+from src.chatterbox.mtl_tts import ChatterboxMultilingualTTS, SUPPORTED_LANGUAGES
+import gradio as gr
+import spaces
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+print(f"🚀 Running on device: {DEVICE}")
+MODEL = None
+LANGUAGE_CONFIG = {
+    "ar": {"audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/ar_f/ar_prompts2.flac",
+           "text": "في الشهر الماضي، وصلنا إلى معلم جديد بمليارين من المشاهدات على قناتنا على يوتيوب."},
+    "en": {"audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/en_f1.flac",
+           "text": "Last month, we reached a new milestone with two billion views on our YouTube channel."},
+    "fr": {"audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/fr_f1.flac",
+           "text": "Le mois dernier, nous avons atteint un nouveau jalon avec deux milliards de vues sur notre chaîne YouTube."},
+    "hi": {"audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/hi_f1.flac",
+           "text": "पिछले महीने हमने एक नया मील का पत्थर छुआ: हमारे YouTube चैनल पर दो अरब व्यूज़।"},
+    "tr": {"audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/tr_m.flac",
+           "text": "Geçen ay YouTube kanalımızda iki milyar görüntüleme ile yeni bir dönüm noktasına ulaştık."},
+    "zh": {"audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/zh_f2.flac",
+           "text": "上个月，我们达到了一个新的里程碑。 我们的YouTube频道观看次数达到了二十亿次，这绝对令人难以置信。"},
+}
+def default_audio_for_ui(lang: str) -> str | None:
+    return LANGUAGE_CONFIG.get(lang, {}).get("audio")
+def default_text_for_ui(lang: str) -> str:
+    return LANGUAGE_CONFIG.get(lang, {}).get("text", "")
+def get_supported_languages_display() -> str:
+    items = [f"**{name}** (`{code}`)" for code, name in sorted(SUPPORTED_LANGUAGES.items())]
+    mid = len(items)//2
+    return f"### 🌍 Supported Languages ({len(SUPPORTED_LANGUAGES)} total)\n" \
+           f"{' • '.join(items[:mid])}\n\n{' • '.join(items[mid:])}"
+def get_or_load_model():
+    global MODEL
+    if MODEL is None:
+        print("Model not loaded, initializing...")
+        MODEL = ChatterboxMultilingualTTS.from_pretrained(DEVICE)
+        if hasattr(MODEL, "to"):
+            MODEL.to(DEVICE)
+        print(f"✅ Model loaded successfully on {DEVICE}")
+    return MODEL
+try:
+    get_or_load_model()
+except Exception as e:
+    print(f"CRITICAL: Failed to load model. Error: {e}")
+def set_seed(seed: int):
+    torch.manual_seed(seed)
+    if DEVICE == "cuda":
+        torch.cuda.manual_seed(seed)
+        torch.cuda.manual_seed_all(seed)
+    random.seed(seed)
+    np.random.seed(seed)
+def resolve_audio_prompt(language_id: str, provided_path: str | None) -> str | None:
+    if provided_path and str(provided_path).strip():
+        return provided_path
+    return LANGUAGE_CONFIG.get(language_id, {}).get("audio")
+# --- text splitter ---
+def split_text_into_chunks(text: str, max_chars: int = 500) -> list[str]:
+    text = re.sub(r"\s+", " ", text.strip())
+    if len(text) <= max_chars:
+        return [text]
+    sentences = re.split(r'(?<=[.!?।،])\s+', text)
+    chunks, current_chunk = [], ""
+    for sent in sentences:
+        if len(current_chunk) + len(sent) < max_chars:
+            current_chunk += " " + sent
+        else:
+            chunks.append(current_chunk.strip())
+            current_chunk = sent
+    if current_chunk:
+        chunks.append(current_chunk.strip())
+    return [c for c in chunks if c]
+@spaces.GPU
+def generate_tts_audio(
+    text_input: str,
+    language_id: str,
+    audio_prompt_path_input: str = None,
+    exaggeration_input: float = 0.5,
+    temperature_input: float = 0.8,
+    seed_num_input: int = 0,
+    cfgw_input: float = 0.5
+):
+    current_model = get_or_load_model()
+    if current_model is None:
+        raise RuntimeError("TTS model not loaded.")
+    # --- SEED LOGIC ---
+    if seed_num_input == 0:
+        seed_num_input = random.randint(1, 2**32 - 1)
+        print(f"🌱 Random seed generated: {seed_num_input}")
+    else:
+        print(f"🌱 Using provided seed: {seed_num_input}")
+    set_seed(int(seed_num_input))
+    chosen_prompt = audio_prompt_path_input or default_audio_for_ui(language_id)
+    generate_kwargs = {
+        "exaggeration": exaggeration_input,
+        "temperature": temperature_input,
+        "cfg_weight": cfgw_input,
+    }
+    if chosen_prompt:
+        generate_kwargs["audio_prompt_path"] = chosen_prompt
+    chunks = split_text_into_chunks(text_input)
+    all_audio = []
+    for chunk in chunks:
+        wav = current_model.generate(chunk, language_id=language_id, **generate_kwargs)
+        all_audio.append(wav.squeeze(0).cpu())
+    final_audio = torch.cat(all_audio, dim=-1)
+    # RETURN AUDIO + SEED
+    return (current_model.sr, final_audio.numpy()), str(seed_num_input)
+# ============================
+#  GRADIO UI
+# ============================
+with gr.Blocks() as demo:
+    gr.Markdown("""
+    # 🎙️ Multi Language Realistic Voice Cloner
+    Generate long-form multilingual speech with reference audio styling and auto-chunking.
+    """)
+    gr.Markdown(get_supported_languages_display())
+    with gr.Row():
+        with gr.Column():
+            initial_lang = "en"
+            text = gr.Textbox(
+                value=default_text_for_ui(initial_lang),
+                label="Text to synthesize",
+                lines=8
+            )
+            language_id = gr.Dropdown(
+                choices=list(ChatterboxMultilingualTTS.get_supported_languages().keys()),
+                value=initial_lang,
+                label="Language"
+            )
+            ref_wav = gr.Audio(
+                sources=["upload", "microphone"],
+                type="filepath",
+                label="Reference Audio (Optional)",
+                value=default_audio_for_ui(initial_lang)
+            )
+            exaggeration = gr.Slider(0.25, 2, step=.05, label="Exaggeration", value=.5)
+            cfg_weight = gr.Slider(0.2, 1, step=.05, label="CFG Weight", value=0.5)
+            with gr.Accordion("Advanced", open=False):
+                seed_num = gr.Number(value=0, label="Random Seed (0=random)")
+                temp = gr.Slider(0.05, 5, step=.05, label="Temperature", value=.8)
+            run_btn = gr.Button("Generate", variant="primary")
+        # OUTPUT COLUMN
+        with gr.Column():
+            audio_output = gr.Audio(label="Output Audio")
+            seed_output = gr.Textbox(label="Seed Used", interactive=False)
+        def on_lang_change(lang, current_ref, current_text):
+            return default_audio_for_ui(lang), default_text_for_ui(lang)
+        language_id.change(
+            fn=on_lang_change,
+            inputs=[language_id, ref_wav, text],
+            outputs=[ref_wav, text],
+            show_progress=False
+        )
+    # CONNECT BUTTON
+    run_btn.click(
+        fn=generate_tts_audio,
+        inputs=[text, language_id, ref_wav, exaggeration, temp, seed_num, cfg_weight],
+        outputs=[audio_output, seed_output],
+    )
+demo.launch(mcp_server=True, share=True)