MultilanguageCloner

Build error

App Files Files Community

tahirturk commited on Oct 30, 2025

Commit

a9bcfd7

1 Parent(s): 30c1824

changes

Browse files

Files changed (1) hide show

app.py +20 -94

app.py CHANGED Viewed

@@ -3,28 +3,15 @@ import re
 import numpy as np
 import torch
 import torchaudio
-import warnings
-import importlib
 from src.chatterbox.mtl_tts import ChatterboxMultilingualTTS, SUPPORTED_LANGUAGES
 import gradio as gr
 import spaces
-# ===========================================
-# ✅ Environment & Warnings Cleanup
-# ===========================================
-warnings.filterwarnings("ignore", category=UserWarning)
-warnings.filterwarnings("ignore", category=FutureWarning)
-torch.set_printoptions(precision=4, sci_mode=False)
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"🚀 Running on device: {DEVICE}")
 MODEL = None
-# ===========================================
-# ✅ Default Language Configurations
-# ===========================================
 LANGUAGE_CONFIG = {
     "ar": {"audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/ar_f/ar_prompts2.flac",
            "text": "في الشهر الماضي، وصلنا إلى معلم جديد بمليارين من المشاهدات على قناتنا على يوتيوب."},
@@ -40,88 +27,33 @@ LANGUAGE_CONFIG = {
            "text": "上个月，我们达到了一个新的里程碑。 我们的YouTube频道观看次数达到了二十亿次，这绝对令人难以置信。"},
 }
 def default_audio_for_ui(lang: str) -> str | None:
     return LANGUAGE_CONFIG.get(lang, {}).get("audio")
 def default_text_for_ui(lang: str) -> str:
     return LANGUAGE_CONFIG.get(lang, {}).get("text", "")
 def get_supported_languages_display() -> str:
     items = [f"**{name}** (`{code}`)" for code, name in sorted(SUPPORTED_LANGUAGES.items())]
-    mid = len(items) // 2
     return f"### 🌍 Supported Languages ({len(SUPPORTED_LANGUAGES)} total)\n" \
            f"{' • '.join(items[:mid])}\n\n{' • '.join(items[mid:])}"
-# ===========================================
-# ✅ Smart & Safe Model Loader
-# ===========================================
 def get_or_load_model():
     global MODEL
     if MODEL is None:
-        print("🔄 Loading TTS model...")
-        # Try to detect transformers version
-        try:
-            import transformers
-            tf_version = transformers.__version__
-        except Exception:
-            tf_version = "unknown"
-        # Detect whether attn_implementation is supported
-        supports_attn = False
-        try:
-            from inspect import signature
-            sig = signature(ChatterboxMultilingualTTS.from_pretrained)
-            supports_attn = "attn_implementation" in sig.parameters
-        except Exception:
-            pass
-        try:
-            if supports_attn:
-                print(f"⚙️ Using Transformers v{tf_version} with attn_implementation='eager'")
-                MODEL = ChatterboxMultilingualTTS.from_pretrained(DEVICE, attn_implementation="eager")
-            else:
-                print(f"⚙️ Using Transformers v{tf_version} (attn_implementation not supported)")
-                MODEL = ChatterboxMultilingualTTS.from_pretrained(DEVICE)
-        except TypeError:
-            print("⚠️ Fallback: attn_implementation not accepted — loading default config")
-            MODEL = ChatterboxMultilingualTTS.from_pretrained(DEVICE)
-        except RuntimeError as e:
-            # Handle out-of-memory and auto CPU fallback
-            if "CUDA out of memory" in str(e) or "CUDA error" in str(e):
-                print("💡 GPU memory insufficient. Falling back to CPU...")
-                global DEVICE
-                DEVICE = "cpu"
-                MODEL = ChatterboxMultilingualTTS.from_pretrained(DEVICE)
-            else:
-                raise e
-        except Exception as e:
-            print(f"❌ Model loading failed: {e}")
-            raise
-        # Move to appropriate device
         if hasattr(MODEL, "to"):
             MODEL.to(DEVICE)
-        # Optional flatten for RNN memory warning
-        if hasattr(MODEL, "rnn") and hasattr(MODEL.rnn, "flatten_parameters"):
-            try:
-                MODEL.rnn.flatten_parameters()
-            except Exception:
-                pass
         print(f"✅ Model loaded successfully on {DEVICE}")
-        print(f"💡 Attention mode: {'eager' if supports_attn else 'default'}")
     return MODEL
-# ===========================================
-# ✅ Helper Utilities
-# ===========================================
 def set_seed(seed: int):
     torch.manual_seed(seed)
     if DEVICE == "cuda":
@@ -130,18 +62,16 @@ def set_seed(seed: int):
     random.seed(seed)
     np.random.seed(seed)
 def resolve_audio_prompt(language_id: str, provided_path: str | None) -> str | None:
     if provided_path and str(provided_path).strip():
         return provided_path
     return LANGUAGE_CONFIG.get(language_id, {}).get("audio")
 # ✅ Text chunking helper
 def split_text_into_chunks(text: str, max_chars: int = 500) -> list[str]:
     """
-    Split text into manageable chunks (300–500 characters),
-    breaking on sentence boundaries.
     """
     text = re.sub(r"\s+", " ", text.strip())
     if len(text) <= max_chars:
@@ -161,10 +91,6 @@ def split_text_into_chunks(text: str, max_chars: int = 500) -> list[str]:
     return [c for c in chunks if c]
-# ===========================================
-# ✅ TTS Generation
-# ===========================================
 @spaces.GPU
 def generate_tts_audio(
     text_input: str,
@@ -183,7 +109,7 @@ def generate_tts_audio(
     if seed_num_input != 0:
         set_seed(int(seed_num_input))
-    print(f"\n🗣 Generating speech — text length: {len(text_input)}")
     chosen_prompt = audio_prompt_path_input or default_audio_for_ui(language_id)
     generate_kwargs = {
@@ -195,30 +121,30 @@ def generate_tts_audio(
         generate_kwargs["audio_prompt_path"] = chosen_prompt
         print(f"🎧 Using reference: {chosen_prompt}")
     else:
-        print("🎙 Using default neutral voice (no reference).")
     chunks = split_text_into_chunks(text_input)
-    print(f"🪄 Text split into {len(chunks)} chunks")
     all_audio = []
     for i, chunk in enumerate(chunks):
-        print(f"🔹 Generating chunk {i + 1}/{len(chunks)} ({len(chunk)} chars)...")
         wav = current_model.generate(chunk, language_id=language_id, **generate_kwargs)
         all_audio.append(wav.squeeze(0).cpu())
     final_audio = torch.cat(all_audio, dim=-1)
-    print("✅ Audio generation complete.\n")
     return (current_model.sr, final_audio.numpy())
-# ===========================================
-# ✅ Gradio UI
-# ===========================================
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🎙️ Multi Language Realistic Voice Cloner
     Generate long-form multilingual speech with reference audio styling and auto-chunking support.
-    **By Tahir Turk**
     """)
     gr.Markdown(get_supported_languages_display())
@@ -270,4 +196,4 @@ with gr.Blocks() as demo:
         outputs=[audio_output],
     )
-demo.launch(mcp_server=True, share=True)

 import numpy as np
 import torch
 import torchaudio
 from src.chatterbox.mtl_tts import ChatterboxMultilingualTTS, SUPPORTED_LANGUAGES
 import gradio as gr
 import spaces
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"🚀 Running on device: {DEVICE}")
 MODEL = None
 LANGUAGE_CONFIG = {
     "ar": {"audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/ar_f/ar_prompts2.flac",
            "text": "في الشهر الماضي، وصلنا إلى معلم جديد بمليارين من المشاهدات على قناتنا على يوتيوب."},
            "text": "上个月，我们达到了一个新的里程碑。 我们的YouTube频道观看次数达到了二十亿次，这绝对令人难以置信。"},
 }
 def default_audio_for_ui(lang: str) -> str | None:
     return LANGUAGE_CONFIG.get(lang, {}).get("audio")
 def default_text_for_ui(lang: str) -> str:
     return LANGUAGE_CONFIG.get(lang, {}).get("text", "")
 def get_supported_languages_display() -> str:
     items = [f"**{name}** (`{code}`)" for code, name in sorted(SUPPORTED_LANGUAGES.items())]
+    mid = len(items)//2
     return f"### 🌍 Supported Languages ({len(SUPPORTED_LANGUAGES)} total)\n" \
            f"{' • '.join(items[:mid])}\n\n{' • '.join(items[mid:])}"
 def get_or_load_model():
     global MODEL
     if MODEL is None:
+        print("Model not loaded, initializing...")
+        MODEL = ChatterboxMultilingualTTS.from_pretrained(DEVICE)
         if hasattr(MODEL, "to"):
             MODEL.to(DEVICE)
         print(f"✅ Model loaded successfully on {DEVICE}")
     return MODEL
+try:
+    get_or_load_model()
+except Exception as e:
+    print(f"CRITICAL: Failed to load model. Error: {e}")
 def set_seed(seed: int):
     torch.manual_seed(seed)
     if DEVICE == "cuda":
     random.seed(seed)
     np.random.seed(seed)
 def resolve_audio_prompt(language_id: str, provided_path: str | None) -> str | None:
     if provided_path and str(provided_path).strip():
         return provided_path
     return LANGUAGE_CONFIG.get(language_id, {}).get("audio")
 # ✅ Text chunking helper
 def split_text_into_chunks(text: str, max_chars: int = 500) -> list[str]:
     """
+    Split text into manageable chunks around 300 characters each,
+    breaking on sentence boundaries (., ?, !, etc.).
     """
     text = re.sub(r"\s+", " ", text.strip())
     if len(text) <= max_chars:
     return [c for c in chunks if c]
 @spaces.GPU
 def generate_tts_audio(
     text_input: str,
     if seed_num_input != 0:
         set_seed(int(seed_num_input))
+    print(f"🗣 Generating audio for text length={len(text_input)}")
     chosen_prompt = audio_prompt_path_input or default_audio_for_ui(language_id)
     generate_kwargs = {
         generate_kwargs["audio_prompt_path"] = chosen_prompt
         print(f"🎧 Using reference: {chosen_prompt}")
     else:
+        print("No reference provided, using default voice.")
+    # ✅ Split text into manageable chunks
     chunks = split_text_into_chunks(text_input)
+    print(f"🪄 Split text into {len(chunks)} chunks")
     all_audio = []
     for i, chunk in enumerate(chunks):
+        print(f"🔹 Generating chunk {i+1}/{len(chunks)} ({len(chunk)} chars)")
         wav = current_model.generate(chunk, language_id=language_id, **generate_kwargs)
         all_audio.append(wav.squeeze(0).cpu())
+    # ✅ Concatenate all audio segments
     final_audio = torch.cat(all_audio, dim=-1)
+    print("✅ Audio generation complete.")
     return (current_model.sr, final_audio.numpy())
+# === Gradio Interface ===
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🎙️ Multi Language Realistic Voice Cloner
     Generate long-form multilingual speech with reference audio styling and auto-chunking support.
+                By Tahir Turk
     """)
     gr.Markdown(get_supported_languages_display())
         outputs=[audio_output],
     )
+demo.launch(mcp_server=True, share=True)