Chatterbox-Multilingual-TTS-API

Sleeping

App Files Files Community

rahul7star commited on Jan 7

Commit

167c3f4

verified ·

1 Parent(s): ee61b54

Update app.py

Browse files

Files changed (1) hide show

app.py +78 -114

app.py CHANGED Viewed

@@ -22,34 +22,12 @@ torch.load = _cpu_only_torch_load
 LANGUAGE_CONFIG = {
-    "ar": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/ar_f/ar_prompts2.flac",
-        "text": "في الشهر الماضي، وصلنا إلى معلم جديد بمليارين من المشاهدات على قناتنا على يوتيوب."
-    },
-    "da": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/da_m1.flac",
-        "text": "Sidste måned nåede vi en ny milepæl med to milliarder visninger på vores YouTube-kanal."
-    },
-    "de": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/de_f1.flac",
-        "text": "Letzten Monat haben wir einen neuen Meilenstein erreicht: zwei Milliarden Aufrufe auf unserem YouTube-Kanal."
-    },
-    "el": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/el_m.flac",
-        "text": "Τον περασμένο μήνα, φτάσαμε σε ένα νέο ορόσημο με δύο δισεκατομμύρια προβολές στο κανάλι μας στο YouTube."
-    },
     "en": {
         "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/en_f1.flac",
         "text": "Last month, we reached a new milestone with two billion views on our YouTube channel."
     },
-    "es": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/es_f1.flac",
-        "text": "El mes pasado alcanzamos un nuevo hito: dos mil millones de visualizaciones en nuestro canal de YouTube."
-    },
-    "fi": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/fi_m.flac",
-        "text": "Viime kuussa saavutimme uuden virstanpylvään kahden miljardin katselukerran kanssa YouTube-kanavallamme."
-    },
     "fr": {
         "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/fr_f1.flac",
         "text": "Le mois dernier, nous avons atteint un nouveau jalon avec deux milliards de vues sur notre chaîne YouTube."
@@ -62,58 +40,7 @@ LANGUAGE_CONFIG = {
         "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/hi_f1.flac",
         "text": "पिछले महीने हमने एक नया मील का पत्थर छुआ: हमारे YouTube चैनल पर दो अरब व्यूज़।"
     },
-    "it": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/it_m1.flac",
-        "text": "Il mese scorso abbiamo raggiunto un nuovo traguardo: due miliardi di visualizzazioni sul nostro canale YouTube."
-    },
-    "ja": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/ja/ja_prompts1.flac",
-        "text": "先月、私たちのYouTubeチャンネルで二十億回の再生回数という新たなマイルストーンに到達しました。"
-    },
-    "ko": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/ko_f.flac",
-        "text": "지난달 우리는 유튜브 채널에서 이십억 조회수라는 새로운 이정표에 도달했습니다."
-    },
-    "ms": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/ms_f.flac",
-        "text": "Bulan lepas, kami mencapai pencapaian baru dengan dua bilion tontonan di saluran YouTube kami."
-    },
-    "nl": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/nl_m.flac",
-        "text": "Vorige maand bereikten we een nieuwe mijlpaal met twee miljard weergaven op ons YouTube-kanaal."
-    },
-    "no": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/no_f1.flac",
-        "text": "Forrige måned nådde vi en ny milepæl med to milliarder visninger på YouTube-kanalen vår."
-    },
-    "pl": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/pl_m.flac",
-        "text": "W zeszłym miesiącu osiągnęliśmy nowy kamień milowy z dwoma miliardami wyświetleń na naszym kanale YouTube."
-    },
-    "pt": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/pt_m1.flac",
-        "text": "No mês passado, alcançámos um novo marco: dois mil milhões de visualizações no nosso canal do YouTube."
-    },
-    "ru": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/ru_m.flac",
-        "text": "В прошлом месяце мы достигли нового рубежа: два миллиарда просмотров на нашем YouTube-канале."
-    },
-    "sv": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/sv_f.flac",
-        "text": "Förra månaden nådde vi en ny milstolpe med två miljarder visningar på vår YouTube-kanal."
-    },
-    "sw": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/sw_m.flac",
-        "text": "Mwezi uliopita, tulifika hatua mpya ya maoni ya bilioni mbili kweny kituo chetu cha YouTube."
-    },
-    "tr": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/tr_m.flac",
-        "text": "Geçen ay YouTube kanalımızda iki milyar görüntüleme ile yeni bir dönüm noktasına ulaştık."
-    },
-    "zh": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/zh_f2.flac",
-        "text": "上个月，我们达到了一个新的里程碑。 我们的YouTube频道观看次数达到了二十亿次，这绝对令人难以置信。"
-    },
 }
 # --- UI Helpers ---
@@ -143,29 +70,6 @@ def get_supported_languages_display() -> str:
 {line2}
 """
-def format_for_singing(lyrics: str) -> str:
-    """
-    Encode melody directly into text for Chatterbox.
-    NO instructions. ONLY singable text.
-    """
-    lines = []
-    for line in lyrics.splitlines():
-        line = line.strip()
-        if not line:
-            continue
-        # simple vowel stretching
-        line = (
-            line.replace("a", "aa")
-                .replace("e", "ee")
-                .replace("i", "ii")
-                .replace("o", "oo")
-                .replace("u", "uu")
-        )
-        lines.append(f"{line} ♪ ...")
-    return "\n".join(lines)
 DEVICE = "cpu"
@@ -228,6 +132,39 @@ def resolve_audio_prompt(language_id: str, provided_path: str | None) -> str | N
 def generate_tts_audio(
     text_input: str,
     lyrics_input: str,
@@ -244,7 +181,7 @@ def generate_tts_audio(
     if current_model is None:
         raise RuntimeError("TTS model is not loaded.")
-    if seed_num_input != 0:
         set_seed(int(seed_num_input))
     chosen_prompt = audio_prompt_path_input or default_audio_for_ui(language_id)
@@ -258,13 +195,21 @@ def generate_tts_audio(
     if chosen_prompt:
         generate_kwargs["audio_prompt_path"] = chosen_prompt
-    # 🔀 Choose Speak vs Sing text
-    if mode == "Sing 🎵" and lyrics_input.strip():
         final_text = format_for_singing(lyrics_input)
     else:
         final_text = text_input
-    # 🔒 CPU-safe inference
     with torch.no_grad():
         wav = current_model.generate(
             final_text[:300],
@@ -276,11 +221,14 @@ def generate_tts_audio(
     return current_model.sr, wav
 with gr.Blocks() as demo:
     gr.Markdown(
         """
         # Chatterbox Multilingual Demo
-        Generate high-quality multilingual speech from text or lyrics (sing mode).
         """
     )
@@ -298,13 +246,13 @@ with gr.Blocks() as demo:
             text = gr.Textbox(
                 value=default_text_for_ui(initial_lang),
-                label="Text (Speak mode)",
                 max_lines=4
             )
             lyrics = gr.Textbox(
-                label="Lyrics (Sing mode)",
-                placeholder="Paste lyrics here (one line per verse)",
                 max_lines=10
             )
@@ -322,36 +270,52 @@ with gr.Blocks() as demo:
             )
             exaggeration = gr.Slider(
-                0.25, 2, step=0.05,
                 label="Exaggeration",
                 value=0.5
             )
             cfg_weight = gr.Slider(
-                0.2, 1, step=0.05,
                 label="CFG / Pace",
                 value=0.5
             )
             with gr.Accordion("More options", open=False):
                 seed_num = gr.Number(value=0, label="Random seed (0 = random)")
-                temp = gr.Slider(0.05, 5, step=0.05, label="Temperature", value=0.8)
             run_btn = gr.Button("Generate", variant="primary")
         with gr.Column():
             audio_output = gr.Audio(label="Output Audio")
-    # 🎛️ Auto-tune sliders for Sing mode
     def on_mode_change(mode):
         if mode == "Sing 🎵":
-            return 1.25, 1.0, 0.45
-        return 0.5, 0.8, 0.5
     mode.change(
         fn=on_mode_change,
         inputs=mode,
-        outputs=[exaggeration, temp, cfg_weight],
         show_progress=False
     )

 LANGUAGE_CONFIG = {
     "en": {
         "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/en_f1.flac",
         "text": "Last month, we reached a new milestone with two billion views on our YouTube channel."
     },
     "fr": {
         "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/fr_f1.flac",
         "text": "Le mois dernier, nous avons atteint un nouveau jalon avec deux milliards de vues sur notre chaîne YouTube."
         "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/hi_f1.flac",
         "text": "पिछले महीने हमने एक नया मील का पत्थर छुआ: हमारे YouTube चैनल पर दो अरब व्यूज़।"
     },
 }
 # --- UI Helpers ---
 {line2}
 """
 DEVICE = "cpu"
+# ===============================
+# Singing formatter (TEXT ONLY)
+# ===============================
+def format_for_singing(lyrics: str) -> str:
+    """
+    Encode melody directly into text for Chatterbox.
+    NO instructions. ONLY singable text.
+    """
+    lines = []
+    for line in lyrics.splitlines():
+        line = line.strip()
+        if not line:
+            continue
+        # Light vowel stretching (safe, readable)
+        line = (
+            line.replace("a", "aa")
+                .replace("e", "ee")
+                .replace("i", "ii")
+                .replace("o", "oo")
+                .replace("u", "uu")
+        )
+        # Add rhythm + pause
+        lines.append(f"{line} ♪ ...")
+    return "\n".join(lines)
+# ===============================
+# TTS generator (FIXED)
+# ===============================
 def generate_tts_audio(
     text_input: str,
     lyrics_input: str,
     if current_model is None:
         raise RuntimeError("TTS model is not loaded.")
+    if seed_num_input and seed_num_input != 0:
         set_seed(int(seed_num_input))
     chosen_prompt = audio_prompt_path_input or default_audio_for_ui(language_id)
     if chosen_prompt:
         generate_kwargs["audio_prompt_path"] = chosen_prompt
+    # ===============================
+    # STRICT MODE TOGGLE (IMPORTANT)
+    # ===============================
+    if mode == "Sing 🎵":
+        if not lyrics_input.strip():
+            raise gr.Error("Please enter lyrics for Sing mode.")
         final_text = format_for_singing(lyrics_input)
     else:
+        if not text_input.strip():
+            raise gr.Error("Please enter text for Speak mode.")
         final_text = text_input
+    # ===============================
+    # CPU-safe inference
+    # ===============================
     with torch.no_grad():
         wav = current_model.generate(
             final_text[:300],
     return current_model.sr, wav
+# ===============================
+# GRADIO UI
+# ===============================
 with gr.Blocks() as demo:
     gr.Markdown(
         """
         # Chatterbox Multilingual Demo
+        Speak or sing text using Chatterbox (CPU-only).
         """
     )
             text = gr.Textbox(
                 value=default_text_for_ui(initial_lang),
+                label="Text (Speak mode only)",
                 max_lines=4
             )
             lyrics = gr.Textbox(
+                label="Lyrics (Sing mode only)",
+                placeholder="Paste singable lyrics (one line per phrase)",
                 max_lines=10
             )
             )
             exaggeration = gr.Slider(
+                0.25, 2.0, step=0.05,
                 label="Exaggeration",
                 value=0.5
             )
             cfg_weight = gr.Slider(
+                0.2, 1.0, step=0.05,
                 label="CFG / Pace",
                 value=0.5
             )
             with gr.Accordion("More options", open=False):
                 seed_num = gr.Number(value=0, label="Random seed (0 = random)")
+                temp = gr.Slider(0.05, 5.0, step=0.05, label="Temperature", value=0.8)
             run_btn = gr.Button("Generate", variant="primary")
         with gr.Column():
             audio_output = gr.Audio(label="Output Audio")
+    # ===============================
+    # AUTO-TUNE FOR SING MODE
+    # ===============================
     def on_mode_change(mode):
         if mode == "Sing 🎵":
+            return (
+                gr.update(visible=False),  # hide text
+                gr.update(visible=True),   # show lyrics
+                1.3,                       # exaggeration
+                1.0,                       # temperature
+                0.45                       # cfg
+            )
+        else:
+            return (
+                gr.update(visible=True),
+                gr.update(visible=False),
+                0.5,
+                0.8,
+                0.5
+            )
     mode.change(
         fn=on_mode_change,
         inputs=mode,
+        outputs=[text, lyrics, exaggeration, temp, cfg_weight],
         show_progress=False
     )