MultilanguageCloner

Build error

App Files Files Community

oicui commited on Dec 10, 2025

Commit

51caa9d

verified ·

1 Parent(s): f8b6238

Update app.py

Browse files

Files changed (1) hide show

app.py +105 -17

app.py CHANGED Viewed

@@ -36,8 +36,10 @@ def default_text_for_ui(lang: str) -> str:
 def get_supported_languages_display() -> str:
     items = [f"**{name}** (`{code}`)" for code, name in sorted(SUPPORTED_LANGUAGES.items())]
     mid = len(items)//2
-    return f"### 🌍 Supported Languages ({len(SUPPORTED_LANGUAGES)} total)\n" \
-           f"{' • '.join(items[:mid])}\n\n{' • '.join(items[mid:])}"
 def get_or_load_model():
     global MODEL
@@ -67,27 +69,104 @@ def resolve_audio_prompt(language_id: str, provided_path: str | None) -> str | N
         return provided_path
     return LANGUAGE_CONFIG.get(language_id, {}).get("audio")
-# --- text splitter ---
-def split_text_into_chunks(text: str, max_chars: int = 500) -> list[str]:
     text = re.sub(r"\s+", " ", text.strip())
     if len(text) <= max_chars:
         return [text]
-    sentences = re.split(r'(?<=[.!?।،])\s+', text)
-    chunks, current_chunk = [], ""
     for sent in sentences:
-        if len(current_chunk) + len(sent) < max_chars:
-            current_chunk += " " + sent
         else:
-            chunks.append(current_chunk.strip())
-            current_chunk = sent
-    if current_chunk:
-        chunks.append(current_chunk.strip())
     return [c for c in chunks if c]
 @spaces.GPU
 def generate_tts_audio(
     text_input: str,
@@ -121,14 +200,23 @@ def generate_tts_audio(
     if chosen_prompt:
         generate_kwargs["audio_prompt_path"] = chosen_prompt
-    chunks = split_text_into_chunks(text_input)
-    all_audio = []
-    for chunk in chunks:
         wav = current_model.generate(chunk, language_id=language_id, **generate_kwargs)
         all_audio.append(wav.squeeze(0).cpu())
-    final_audio = torch.cat(all_audio, dim=-1)
     # RETURN AUDIO + SEED
     return (current_model.sr, final_audio.numpy()), str(seed_num_input)
@@ -142,7 +230,7 @@ def generate_tts_audio(
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🎙️ Multi Language Realistic Voice Cloner
-    Generate long-form multilingual speech with reference audio styling and auto-chunking.
     """)
     gr.Markdown(get_supported_languages_display())

 def get_supported_languages_display() -> str:
     items = [f"**{name}** (`{code}`)" for code, name in sorted(SUPPORTED_LANGUAGES.items())]
     mid = len(items)//2
+    return (
+        f"### 🌍 Supported Languages ({len(SUPPORTED_LANGUAGES)} total)\n"
+        f"{' • '.join(items[:mid])}\n\n{' • '.join(items[mid:])}"
+    )
 def get_or_load_model():
     global MODEL
         return provided_path
     return LANGUAGE_CONFIG.get(language_id, {}).get("audio")
+# ============================
+#  SMART CHUNKING (TỐI ƯU)
+# ============================
+def smart_chunk_text(text: str, max_chars: int = 500) -> list[str]:
+    """
+    Chia text thành các đoạn (chunk) ngắn:
+    - Ưu tiên tách theo câu.
+    - Nếu câu quá dài thì tách tiếp theo từ.
+    - Gộp nhiều câu nhỏ vào 1 chunk để giảm số lần gọi model.
+    """
+    # Normalize khoảng trắng
     text = re.sub(r"\s+", " ", text.strip())
+    if not text:
+        return []
     if len(text) <= max_chars:
         return [text]
+    # Hỗ trợ nhiều dấu câu đa ngôn ngữ: . ! ? … ؟ ، : ؛ ।
+    sentences = re.split(r'(?<=[\.!\?…؟،:؛।])\s+', text)
+    chunks: list[str] = []
+    current = ""
     for sent in sentences:
+        sent = sent.strip()
+        if not sent:
+            continue
+        # Nếu bản thân câu đã dài hơn max_chars -> chia mềm theo từ
+        if len(sent) > max_chars:
+            words = sent.split()
+            temp = ""
+            for w in words:
+                if len(temp) + len(w) + 1 > max_chars:
+                    if temp:
+                        chunks.append(temp.strip())
+                    temp = ""
+                temp += w + " "
+            if temp:
+                chunks.append(temp.strip())
+            continue
+        # Nếu gộp thêm câu mà vẫn không vượt max_chars -> gộp chung
+        if len(current) + len(sent) + 1 <= max_chars:
+            current += sent + " "
         else:
+            if current:
+                chunks.append(current.strip())
+            current = sent + " "
+    if current:
+        chunks.append(current.strip())
     return [c for c in chunks if c]
+def concat_audio_torch(chunks: list[torch.Tensor],
+                       crossfade_ms: int = 10,
+                       sr: int = 24000) -> torch.Tensor:
+    """
+    Nối nhiều đoạn audio (1D tensor) bằng crossfade nhẹ để tránh tiếng "click".
+    """
+    if not chunks:
+        return torch.empty(0)
+    if len(chunks) == 1 or crossfade_ms <= 0:
+        return torch.cat(chunks, dim=-1)
+    output = chunks[0]
+    crossfade = int(crossfade_ms * sr / 1000)
+    for i in range(1, len(chunks)):
+        a = output
+        b = chunks[i]
+        # Đảm bảo crossfade không lớn hơn độ dài đoạn
+        cf = min(crossfade, a.shape[-1], b.shape[-1])
+        if cf <= 0:
+            output = torch.cat([a, b], dim=-1)
+            continue
+        fade_out = torch.linspace(1.0, 0.0, steps=cf, device=a.device, dtype=a.dtype)
+        fade_in = torch.linspace(0.0, 1.0, steps=cf, device=b.device, dtype=b.dtype)
+        a_tail = a[..., -cf:] * fade_out
+        b_head = b[..., :cf] * fade_in
+        mixed = a_tail + b_head
+        a_main = a[..., :-cf]
+        b_rest = b[..., cf:]
+        output = torch.cat([a_main, mixed, b_rest], dim=-1)
+    return output
 @spaces.GPU
 def generate_tts_audio(
     text_input: str,
     if chosen_prompt:
         generate_kwargs["audio_prompt_path"] = chosen_prompt
+    # 💡 DÙNG SMART CHUNKING TỐI ƯU
+    chunks = smart_chunk_text(text_input, max_chars=500)
+    print(f"📚 Total chunks: {len(chunks)}")
+    all_audio: list[torch.Tensor] = []
+    for idx, chunk in enumerate(chunks, start=1):
+        print(f"🎧 Rendering chunk {idx}/{len(chunks)} (len={len(chunk)} chars)")
         wav = current_model.generate(chunk, language_id=language_id, **generate_kwargs)
         all_audio.append(wav.squeeze(0).cpu())
+    # 🔗 NỐI AUDIO VỚI CROSSFADE NHẸ
+    final_audio = concat_audio_torch(
+        all_audio,
+        crossfade_ms=12,
+        sr=current_model.sr
+    )
     # RETURN AUDIO + SEED
     return (current_model.sr, final_audio.numpy()), str(seed_num_input)
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🎙️ Multi Language Realistic Voice Cloner
+    Generate long-form multilingual speech with reference audio styling and smart chunking (crossfaded).
     """)
     gr.Markdown(get_supported_languages_display())