TTS-Demo

Sleeping

App Files Files Community

CVNSS commited on 15 days ago

Commit

740c387

verified ·

1 Parent(s): 7c8d39b

Update app.py

Browse files

Files changed (1) hide show

app.py +125 -203

app.py CHANGED Viewed

@@ -2,227 +2,188 @@
 # -*- coding: utf-8 -*-
 """
-CVNSS4.0 Vietnamese TTS Studio (Fixed & Auto-Healing Version)
-- Fix: SyntaxError Dropdown
-- Fix: NameError SynthesizerTrn (Auto download src)
 """
 import os
 import sys
 import json
 import time
 import glob
 import re
-import hashlib
-import tempfile
-import subprocess
 import shutil
 from pathlib import Path
 import torch
 import numpy as np
 import soundfile as sf
 import gradio as gr
 # =========================================================
-# 0) AUTO-HEALING: DOWNLOAD MISSING CORE MODULES
 # =========================================================
 def setup_environment():
     """Tự động tải thư mục src nếu bị thiếu"""
     if not os.path.exists("src"):
-        print("🔄 Phát hiện thiếu thư mục 'src'. Đang tải mã nguồn cốt lõi (Core Modules)...")
         try:
-            # Clone repo chứa src từ HuggingFace Space gốc
             subprocess.run(
                 ["git", "clone", "https://huggingface.co/spaces/valtecAI-team/valtec-vietnamese-tts", "temp_repo"],
                 check=True
             )
-            # Di chuyển thư mục src ra ngoài
             if os.path.exists("temp_repo/src"):
                 shutil.move("temp_repo/src", "./src")
                 print("✅ Đã cài đặt xong 'src'.")
             else:
                 print("❌ Không tìm thấy 'src' trong repo đã tải.")
-            # Dọn dẹp
             shutil.rmtree("temp_repo", ignore_errors=True)
         except Exception as e:
             print(f"❌ Lỗi khi tải mã nguồn: {e}")
-            print("⚠️ Vui lòng kiểm tra kết nối mạng hoặc cài đặt git.")
-# Chạy setup trước khi import
 setup_environment()
 # Add src to path
 sys.path.insert(0, str(Path(__file__).parent))
-# Import core modules (Bây giờ sẽ không bị lỗi nữa)
 try:
     from src.vietnamese.text_processor import process_vietnamese_text
     from src.vietnamese.phonemizer import text_to_phonemes, VIPHONEME_AVAILABLE
     from src.models.synthesizer import SynthesizerTrn
-    from src.text.symbols import symbols
     print("✅ Core modules imported successfully.")
 except ImportError as e:
-    print(f"🔥 Critical Import Error: {e}")
-    print("⚠️ Cấu trúc file vẫn chưa đúng. Hãy đảm bảo thư mục 'src' nằm cùng cấp với app.py")
-    # Define dummy classes to prevent immediate crash, allow UI to show error
     VIPHONEME_AVAILABLE = False
     symbols = []
     SynthesizerTrn = None
 # =========================================================
-# 1) SYSTEM CONFIGURATION & CSS
 # =========================================================
 NEON_CSS = r"""
-:root {
-    --bg-dark: #0f172a;
-    --bg-panel: rgba(30, 41, 59, 0.7);
-    --line: rgba(148, 163, 184, 0.1);
-    --text-primary: #e2e8f0;
-    --neon-cyan: #06b6d4;
-    --neon-accent: #38bdf8;
-    --radius-lg: 16px;
-    --radius-sm: 8px;
-    --input-bg: #f1f5f9;
-    --input-text: #0f4c81;
-    --input-placeholder: #64748b;
-}
-body, .gradio-container, .app {
-    background: radial-gradient(circle at 50% 0%, #1e293b 0%, #0f172a 100%) !important;
-    color: var(--text-primary) !important;
-    font-family: 'Inter', 'Segoe UI', sans-serif;
-}
-.panelNeon {
-    border: 1px solid rgba(255,255,255,0.08);
-    border-radius: var(--radius-lg);
-    background: var(--bg-panel);
-    backdrop-filter: blur(12px);
-    box-shadow: 0 4px 6px -1px rgba(0, 0, 0, 0.1), 0 2px 4px -1px rgba(0, 0, 0, 0.06);
-    padding: 20px;
-    margin-bottom: 20px;
-}
-.panelNeon textarea, .panelNeon input[type="text"] {
-    background: var(--input-bg) !important;
-    color: var(--input-text) !important;
-    border: 2px solid transparent !important;
-    border-radius: var(--radius-sm) !important;
-    font-weight: 500 !important;
-    font-size: 1rem !important;
-    padding: 12px !important;
-}
-button.primary, .gr-button-primary {
-    background: linear-gradient(135deg, #06b6d4 0%, #3b82f6 100%) !important;
-    border: none !important;
-    color: white !important;
-    font-weight: 700 !important;
-}
-.statusCard {
-    background: rgba(15, 23, 42, 0.6);
-    border-radius: var(--radius-sm);
-    padding: 16px;
-    border: 1px solid rgba(255,255,255,0.05);
-}
-.pill {
-    display: inline-flex;
-    align-items: center;
-    padding: 4px 12px;
-    border-radius: 99px;
-    background: rgba(56, 189, 248, 0.1);
-    color: #38bdf8;
-    border: 1px solid rgba(56, 189, 248, 0.2);
-    font-size: 0.8rem;
-    font-weight: 600;
-    margin-right: 6px;
-}
-.alert { padding: 12px; border-radius: 8px; margin-top: 12px; font-size: 0.9rem; }
-.alertOk { background: rgba(34, 197, 94, 0.1); color: #4ade80; border: 1px solid rgba(34, 197, 94, 0.2); }
-.alertWarn { background: rgba(234, 179, 8, 0.1); color: #facc15; border: 1px solid rgba(234, 179, 8, 0.2); }
 """
 # =========================================================
-# 2) UTILITIES & HELPERS
 # =========================================================
-def check_viphoneme():
-    if not VIPHONEME_AVAILABLE:
-        print("⚠️ Viphoneme not available.")
-        return False
-    return True
-def md5_key(*parts: str) -> str:
-    return hashlib.md5("|".join(parts).encode("utf-8")).hexdigest()
 # =========================================================
-# 3) CORE ENGINE WRAPPER
 # =========================================================
 class TTSManager:
     def __init__(self):
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
         print(f"🔧 Initializing TTS on {self.device}...")
-        # Check dependency again
         if SynthesizerTrn is None:
-             raise ImportError("Class SynthesizerTrn chưa được định nghĩa. Kiểm tra lại thư mục src.")
-        self.model_dir = self._get_model_dir()
         self.ckpt_path = find_latest_checkpoint(self.model_dir, "G")
         self.cfg_path = os.path.join(self.model_dir, "config.json")
-        if not self.ckpt_path:
-            raise FileNotFoundError(f"No checkpoint found in {self.model_dir}")
         self.tts = VietnameseTTS(self.ckpt_path, self.cfg_path, self.device)
         self.temp_dir = Path(tempfile.gettempdir()) / "neon_tts_cache"
         self.temp_dir.mkdir(parents=True, exist_ok=True)
-    def _get_model_dir(self):
-        return download_model()
-    def synthesize(self, text, speaker, speed, noise_scale, noise_scale_w, sdp_ratio):
         try:
-            if not text or not text.strip():
-                return None, "⚠️ Empty input"
-            key = md5_key(speaker, f"{speed:.2f}", text[:20], str(len(text)))
             out_path = self.temp_dir / f"{key}.wav"
-            if out_path.exists():
-                return str(out_path), "✅ Cached (From history)"
-            audio, sr = self.tts.synthesize(
-                text=text, speaker=speaker, length_scale=speed,
-                noise_scale=noise_scale, noise_scale_w=noise_scale_w, sdp_ratio=sdp_ratio
-            )
             sf.write(str(out_path), audio, sr)
-            return str(out_path), "✅ Generated successfully"
         except Exception as e:
-            return None, f"❌ Error: {str(e)}"
-# =========================================================
-# 4) MODEL LOGIC
-# =========================================================
-def find_latest_checkpoint(model_dir, prefix="G"):
-    pattern = os.path.join(model_dir, f"{prefix}*.pth")
-    checkpoints = glob.glob(pattern)
-    if not checkpoints: return None
-    checkpoints.sort(key=lambda x: int(re.search(rf"{prefix}(\d+)\.pth", x).group(1)) if re.search(rf"{prefix}(\d+)\.pth", x) else 0, reverse=True)
-    return checkpoints[0]
-def download_model():
-    from huggingface_hub import snapshot_download
-    hf_repo = "valtecAI-team/valtec-tts-pretrained"
-    cache_base = Path(os.environ.get("XDG_CACHE_HOME", Path.home() / ".cache"))
-    if os.name == "nt": cache_base = Path(os.environ.get("LOCALAPPDATA", Path.home() / "AppData" / "Local"))
-    model_dir = cache_base / "valtec_tts" / "models" / "vits-vietnamese"
-    if (model_dir / "config.json").exists() and list(model_dir.glob("G_*.pth")):
-        return str(model_dir)
-    print(f"⬇️ Downloading {hf_repo}...")
-    snapshot_download(repo_id=hf_repo, local_dir=str(model_dir))
-    return str(model_dir)
 class VietnameseTTS:
     def __init__(self, ckpt, cfg, device="cpu"):
@@ -230,9 +191,7 @@ class VietnameseTTS:
         with open(cfg, "r", encoding="utf-8") as f: self.config = json.load(f)
         self.spk2id = self.config["data"]["spk2id"]
         self.speakers = list(self.spk2id.keys())
-        self._load(ckpt)
-    def _load(self, ckpt):
         self.model = SynthesizerTrn(
             len(symbols),
             self.config["data"]["filter_length"] // 2 + 1,
@@ -240,11 +199,12 @@ class VietnameseTTS:
             n_speakers=self.config["data"]["n_speakers"],
             **self.config["model"]
         ).to(self.device)
         state = torch.load(ckpt, map_location=self.device)["model"]
         self.model.load_state_dict({k.replace("module.", ""): v for k,v in state.items()}, strict=False)
         self.model.eval()
-    def synthesize(self, text, speaker, **kwargs):
         from src.text import cleaned_text_to_sequence
         from src.nn import commons
@@ -265,83 +225,45 @@ class VietnameseTTS:
         with torch.no_grad():
             bert = torch.zeros(1024, len(phone_ids)).unsqueeze(0).to(self.device)
             ja_bert = torch.zeros(768, len(phone_ids)).unsqueeze(0).to(self.device)
-            outputs = self.model.infer(x, x_len, sid, tone, lang, bert, ja_bert, **kwargs)
             audio = outputs[0][0,0].detach().cpu().numpy()
         return audio, self.config["data"]["sampling_rate"]
 # =========================================================
-# 5) UI CONSTRUCTION
 # =========================================================
 def create_ui(manager: TTSManager):
-    def ui_header():
-        return gr.HTML("""
-        <div style="border-bottom: 1px solid rgba(255,255,255,0.08); padding-bottom: 20px; margin-bottom: 25px;">
-            <h1 style="color: #38bdf8; margin:0; font-weight:800; font-size: 2rem;">🎛️ CVNSS4.0 TTS Studio</h1>
-            <div style="color: #94a3b8; font-size: 1rem;">Fix: Auto-Healing Source • Expert Mode</div>
-        </div>
-        """)
-    def ui_status_render(text, speaker, speed, dur, msg):
-        return f"""
-        <div class="statusCard">
-            <div style="display:flex; flex-wrap:wrap; gap:8px;">
-                <span class="pill">🎤 {speaker}</span>
-                <span class="pill">⚡ {speed}x</span>
-                <span class="pill">⏱️ {dur:.2f}s</span>
-            </div>
-            <div class="alert {'alertOk' if '✅' in msg else 'alertWarn'}">{msg}</div>
-        </div>
-        """
-    def run_inference(text, speaker, speed):
-        start_t = time.time()
-        audio_path, msg = manager.synthesize(text, speaker, speed, 0.667, 0.8, 0.2)
-        duration = time.time() - start_t
-        html_status = ui_status_render(text, speaker, speed, duration, msg)
-        return audio_path, html_status
-    with gr.Blocks(css=NEON_CSS, title="Neon TTS Expert") as app:
-        ui_header()
-        with gr.Tabs():
-            with gr.Tab("⚡ Chế độ Nhanh"):
-                with gr.Row():
-                    with gr.Column(scale=2):
-                        with gr.Group(elem_classes=["panelNeon"]):
-                            gr.HTML('<div class="panelTitle">📝 Văn bản đầu vào</div>')
-                            txt_basic = gr.Textbox(show_label=False, lines=5, placeholder="Nhập văn bản tiếng Việt...", value="Xin chào, hệ thống đã tự động sửa lỗi thiếu file nguồn.")
-                            with gr.Row():
-                                # === FIX DROPDOWN HERE ===
-                                spk_basic = gr.Dropdown(
-                                    choices=manager.tts.speakers,
-                                    value=manager.tts.speakers[0] if manager.tts.speakers else None,
-                                    label="Người đọc",
-                                    interactive=True,
-                                    scale=2
-                                )
-                                speed_basic = gr.Slider(0.1, 2.0, 1.0, 0.1, label="Tốc độ", scale=2)
-                            btn_basic = gr.Button("🔊 Đọc Ngay", variant="primary")
-                    with gr.Column(scale=1):
-                         with gr.Group(elem_classes=["panelNeon"]):
-                            gr.HTML('<div class="panelTitle">🎧 Kết quả</div>')
-                            out_audio = gr.Audio(label="Audio Output", type="filepath")
-                            out_status = gr.HTML()
-                btn_basic.click(run_inference, [txt_basic, spk_basic, speed_basic], [out_audio, out_status])
     return app
 # =========================================================
-# 6) MAIN EXECUTION
 # =========================================================
 if __name__ == "__main__":
     try:
         manager = TTSManager()
-        check_viphoneme()
         app = create_ui(manager)
-        print("🚀 Launching App...")
         app.launch()
     except Exception as e:
-        print(f"🔥 Critical Start Error: {e}")

 # -*- coding: utf-8 -*-
 """
+CVNSS4.0 Vietnamese TTS Studio
+- Fix: Python 3.12 Compatibility (Missing 'imp' module)
+- Fix: Auto-download 'src'
 """
 import os
 import sys
+import types
+import importlib
+import importlib.util
+import hashlib
+import tempfile
 import json
 import time
 import glob
 import re
 import shutil
+import subprocess
 from pathlib import Path
+# =========================================================
+# 0) CRITICAL PATCH: FIX PYTHON 3.12 'imp' ERROR
+# =========================================================
+# Python 3.12 đã xóa module 'imp', nhưng code TTS cũ vẫn gọi nó.
+# Đoạn code này tạo ra một module 'imp' giả để đánh lừa hệ thống.
+try:
+    import imp
+except ImportError:
+    print("🔧 Đang vá lỗi tương thích Python 3.12+ (Mocking 'imp' module)...")
+    imp = types.ModuleType('imp')
+    imp.new_module = types.ModuleType
+    imp.reload = importlib.reload
+    # Hàm find_module giả lập (thường được dùng trong code cũ)
+    def _find_module(name, path=None):
+        spec = importlib.util.find_spec(name, path)
+        if spec is None:
+            raise ImportError(f"No module named {name}")
+        return (None, spec.origin, ("", "", 0)) # Trả về tuple giả
+    imp.find_module = _find_module
+    # Hàm load_module giả lập
+    def _load_module(name, file, pathname, description):
+        spec = importlib.util.spec_from_file_location(name, pathname)
+        module = importlib.util.module_from_spec(spec)
+        spec.loader.exec_module(module)
+        sys.modules[name] = module
+        return module
+    imp.load_module = _load_module
+    sys.modules['imp'] = imp
+    print("✅ Đã vá xong module 'imp'.")
+# Các import nặng khác sau khi đã vá lỗi
 import torch
 import numpy as np
 import soundfile as sf
 import gradio as gr
 # =========================================================
+# 1) AUTO-HEALING: DOWNLOAD MISSING CORE MODULES
 # =========================================================
 def setup_environment():
     """Tự động tải thư mục src nếu bị thiếu"""
     if not os.path.exists("src"):
+        print("🔄 Phát hiện thiếu thư mục 'src'. Đang tải mã nguồn cốt lõi...")
         try:
+            # Clone repo chứa src
             subprocess.run(
                 ["git", "clone", "https://huggingface.co/spaces/valtecAI-team/valtec-vietnamese-tts", "temp_repo"],
                 check=True
             )
+            # Di chuyển thư mục src
             if os.path.exists("temp_repo/src"):
+                if os.path.exists("src"): shutil.rmtree("src") # Xóa cũ nếu lỗi
                 shutil.move("temp_repo/src", "./src")
                 print("✅ Đã cài đặt xong 'src'.")
             else:
                 print("❌ Không tìm thấy 'src' trong repo đã tải.")
             shutil.rmtree("temp_repo", ignore_errors=True)
         except Exception as e:
             print(f"❌ Lỗi khi tải mã nguồn: {e}")
+# Chạy setup
 setup_environment()
 # Add src to path
 sys.path.insert(0, str(Path(__file__).parent))
+# Import core modules
 try:
+    # Import theo thứ tự để tránh lỗi vòng lặp
+    from src.text.symbols import symbols
     from src.vietnamese.text_processor import process_vietnamese_text
     from src.vietnamese.phonemizer import text_to_phonemes, VIPHONEME_AVAILABLE
     from src.models.synthesizer import SynthesizerTrn
     print("✅ Core modules imported successfully.")
 except ImportError as e:
+    print(f"🔥 Vẫn còn lỗi Import: {e}")
+    # Fallback objects
     VIPHONEME_AVAILABLE = False
     symbols = []
     SynthesizerTrn = None
 # =========================================================
+# 2) SYSTEM CONFIGURATION & CSS
 # =========================================================
 NEON_CSS = r"""
+:root { --bg-dark: #0f172a; --text-primary: #e2e8f0; --neon-cyan: #06b6d4; }
+body, .gradio-container, .app { background: radial-gradient(circle at 50% 0%, #1e293b 0%, #0f172a 100%) !important; color: white !important; }
+.panelNeon { background: rgba(30, 41, 59, 0.7); border: 1px solid rgba(255,255,255,0.08); border-radius: 16px; padding: 20px; margin-bottom: 20px; }
+.panelNeon textarea, .panelNeon input, .panelNeon select { background: #f1f5f9 !important; color: #0f4c81 !important; font-weight: 500; }
+button.primary { background: linear-gradient(135deg, #06b6d4 0%, #3b82f6 100%) !important; color: white; font-weight: bold; border: none; }
 """
 # =========================================================
+# 3) UTILITIES
 # =========================================================
+def md5_key(*parts): return hashlib.md5("|".join(parts).encode("utf-8")).hexdigest()
+def find_latest_checkpoint(model_dir, prefix="G"):
+    pattern = os.path.join(model_dir, f"{prefix}*.pth")
+    checkpoints = glob.glob(pattern)
+    if not checkpoints: return None
+    checkpoints.sort(key=lambda x: int(re.search(rf"{prefix}(\d+)\.pth", x).group(1)) if re.search(rf"{prefix}(\d+)\.pth", x) else 0, reverse=True)
+    return checkpoints[0]
+def download_model():
+    from huggingface_hub import snapshot_download
+    hf_repo = "valtecAI-team/valtec-tts-pretrained"
+    cache_base = Path(os.environ.get("XDG_CACHE_HOME", Path.home() / ".cache"))
+    if os.name == "nt": cache_base = Path(os.environ.get("LOCALAPPDATA", Path.home() / "AppData" / "Local"))
+    model_dir = cache_base / "valtec_tts" / "models" / "vits-vietnamese"
+    if (model_dir / "config.json").exists() and list(model_dir.glob("G_*.pth")):
+        return str(model_dir)
+    print(f"⬇️ Downloading Model {hf_repo}...")
+    try:
+        snapshot_download(repo_id=hf_repo, local_dir=str(model_dir))
+        return str(model_dir)
+    except Exception as e:
+        print(f"Lỗi tải model: {e}")
+        return str(model_dir) # Trả về đường dẫn dù lỗi để tránh crash ngay
 # =========================================================
+# 4) MANAGER & MODEL WRAPPER
 # =========================================================
 class TTSManager:
     def __init__(self):
         self.device = "cuda" if torch.cuda.is_available() else "cpu"
         print(f"🔧 Initializing TTS on {self.device}...")
         if SynthesizerTrn is None:
+             raise RuntimeError("Lỗi nghiêm trọng: Không thể tải class SynthesizerTrn do lỗi import.")
+        self.model_dir = download_model()
         self.ckpt_path = find_latest_checkpoint(self.model_dir, "G")
         self.cfg_path = os.path.join(self.model_dir, "config.json")
+        if not self.ckpt_path or not os.path.exists(self.cfg_path):
+            raise FileNotFoundError("Không tìm thấy Model Checkpoint hoặc Config.")
         self.tts = VietnameseTTS(self.ckpt_path, self.cfg_path, self.device)
         self.temp_dir = Path(tempfile.gettempdir()) / "neon_tts_cache"
         self.temp_dir.mkdir(parents=True, exist_ok=True)
+    def synthesize(self, text, speaker, speed):
         try:
+            if not text: return None, "⚠️ Chưa nhập nội dung"
+            key = md5_key(speaker, str(speed), text[:30])
             out_path = self.temp_dir / f"{key}.wav"
+            if out_path.exists(): return str(out_path), "✅ Lấy từ Cache"
+            audio, sr = self.tts.synthesize(text, speaker, speed)
             sf.write(str(out_path), audio, sr)
+            return str(out_path), "✅ Tạo thành công"
         except Exception as e:
+            return None, f"❌ Lỗi: {str(e)}"
 class VietnameseTTS:
     def __init__(self, ckpt, cfg, device="cpu"):
         with open(cfg, "r", encoding="utf-8") as f: self.config = json.load(f)
         self.spk2id = self.config["data"]["spk2id"]
         self.speakers = list(self.spk2id.keys())
         self.model = SynthesizerTrn(
             len(symbols),
             self.config["data"]["filter_length"] // 2 + 1,
             n_speakers=self.config["data"]["n_speakers"],
             **self.config["model"]
         ).to(self.device)
         state = torch.load(ckpt, map_location=self.device)["model"]
         self.model.load_state_dict({k.replace("module.", ""): v for k,v in state.items()}, strict=False)
         self.model.eval()
+    def synthesize(self, text, speaker, speed):
         from src.text import cleaned_text_to_sequence
         from src.nn import commons
         with torch.no_grad():
             bert = torch.zeros(1024, len(phone_ids)).unsqueeze(0).to(self.device)
             ja_bert = torch.zeros(768, len(phone_ids)).unsqueeze(0).to(self.device)
+            outputs = self.model.infer(x, x_len, sid, tone, lang, bert, ja_bert, noise_scale=0.667, noise_scale_w=0.8, length_scale=speed)
             audio = outputs[0][0,0].detach().cpu().numpy()
         return audio, self.config["data"]["sampling_rate"]
 # =========================================================
+# 5) UI
 # =========================================================
 def create_ui(manager: TTSManager):
+    def run(text, spk, spd):
+        start = time.time()
+        path, msg = manager.synthesize(text, spk, spd)
+        dur = time.time() - start
+        return path, f"<div style='padding:10px; color:#38bdf8'>⏱️ {dur:.2f}s | {msg}</div>"
+    with gr.Blocks(css=NEON_CSS, title="Fixed TTS") as app:
+        gr.Markdown("## 🎛️ CVNSS4.0 TTS (Python 3.12 Patched)")
+        with gr.Row():
+            with gr.Column():
+                with gr.Group(elem_classes=["panelNeon"]):
+                    txt = gr.Textbox(label="Văn bản", value="Xin chào, hệ thống đã sửa lỗi thư viện imp.", lines=4)
+                    spk = gr.Dropdown(choices=manager.tts.speakers, value=manager.tts.speakers[0], label="Người đọc")
+                    spd = gr.Slider(0.5, 2.0, 1.0, step=0.1, label="Tốc độ")
+                    btn = gr.Button("Đọc ngay", variant="primary")
+            with gr.Column():
+                out_audio = gr.Audio(label="Audio", type="filepath")
+                out_msg = gr.HTML()
+        btn.click(run, [txt, spk, spd], [out_audio, out_msg])
     return app
 # =========================================================
+# 6) MAIN
 # =========================================================
 if __name__ == "__main__":
     try:
         manager = TTSManager()
         app = create_ui(manager)
         app.launch()
     except Exception as e:
+        print(f"🔥 Lỗi khởi động cuối cùng: {e}")