Spaces:

stephenhoang
/

ttsStyleTTS2

Sleeping

App Files Files Community

stephenhoang commited on Jan 24

Commit

079aad4

verified ·

1 Parent(s): fc5f72b

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -78

app.py CHANGED Viewed

@@ -1,5 +1,3 @@
 import os
 import json
 import tempfile
@@ -9,26 +7,22 @@ import gradio as gr
 import numpy as np
 import soundfile as sf
 import torch
 from inference import StyleTTS2
 # =========================
-# CONFIG: CHINH 2 DUONG DAN NAY
 # =========================
-DATA_ROOT = "./demo_data"
 SPEAKER2REFS_PATH = os.path.join(DATA_ROOT, "speaker2refs.json")
-# Repo StyleTTS2-lite-vi (neu app.py nam trong repo thi de "./")
-repo_dir = "./"
-config_path = os.path.join(repo_dir, "Models", "config.yaml")
-# models_path = os.path.join(repo_dir, "Models", "Finetune", "epoch_00000.pth")
-from huggingface_hub import hf_hub_download
 CKPT_REPO = "stephenhoang/ttsStyleTTS2-ms152"
 models_path = hf_hub_download(repo_id=CKPT_REPO, filename="epoch_00000.pth")
 config_path = hf_hub_download(repo_id=CKPT_REPO, filename="config.yaml")
 device = "cuda" if torch.cuda.is_available() else "cpu"
 # =========================
@@ -44,10 +38,18 @@ SPEAKER_CHOICES = sorted(SPEAKER2REFS.keys())
 if not SPEAKER_CHOICES:
     raise RuntimeError("speaker2refs.json is empty (no speakers found).")
-def _abs_audio(p: str) -> str:
-    # p trong json đang là "demo_data/refs/id_k.wav" => join theo repo root
-    return p if os.path.isabs(p) else os.path.join(repo_dir, p)
 # =========================
 # LOAD MODEL
@@ -55,8 +57,7 @@ def _abs_audio(p: str) -> str:
 model = StyleTTS2(config_path, models_path).eval().to(device)
 # =========================
-# STYLE CACHE (giam lag khi gen nhieu lan cung speaker)
-# key = (speaker, denoise, avg_style)
 # =========================
 STYLE_CACHE = {}
 STYLE_CACHE_MAX = 64
@@ -72,7 +73,6 @@ def _cache_set(key, val):
         STYLE_CACHE.pop(next(iter(STYLE_CACHE)))
     STYLE_CACHE[key] = val
 @torch.inference_mode()
 def synth_one_speaker(speaker_name: str, text_prompt: str,
                       denoise: float, avg_style: bool, stabilize: bool):
@@ -80,66 +80,73 @@ def synth_one_speaker(speaker_name: str, text_prompt: str,
         if not speaker_name:
             return None, "Bạn chưa chọn speaker."
-        spk = SPEAKER2REFS.get(speaker_name)
-        if not isinstance(spk, dict):
-            return None, f"Speaker '{speaker_name}' không đúng format trong speaker2refs.json."
-        ref_rel = spk.get("path")
-        if not ref_rel:
-            return None, f"Speaker '{speaker_name}' thiếu field 'path' trong speaker2refs.json."
-        ref_path = _abs_audio(ref_rel)
         if not os.path.isfile(ref_path):
             return None, f"Ref audio not found: {ref_path}"
         if not text_prompt or not text_prompt.strip():
             return None, "Bạn chưa nhập text."
-        spk_lang = spk.get("lang", "vi")
-        spk_speed = float(spk.get("speed", 1.0))
-        # speakers dict phải dùng key đúng speaker_name (vd "id_73")
         speakers = {
-            speaker_name: {"path": ref_path, "lang": spk_lang, "speed": spk_speed}
         }
         cache_key = (speaker_name, float(denoise), bool(avg_style))
         styles = _cache_get(cache_key)
         if styles is None:
-            styles = model.get_styles(speakers, denoise, avg_style)
             _cache_set(cache_key, styles)
         text_prompt = text_prompt.strip()
-        # Nếu user không tự thêm tag speaker, tự thêm [id_k]
         if "[id_" not in text_prompt:
-            text_prompt = f"[{speaker_name}] " + text_prompt
-        # default_speaker cũng phải là speaker đang chọn
-        r = model.generate(text_prompt, styles, stabilize, 18, f"[{speaker_name}]")
-        dur = len(r) / 24000
-        print("GEN_SAMPLES=", len(r), "DUR_SEC=", dur)
-        r = np.asarray(r, dtype=np.float32)
-        m = float(np.max(np.abs(r))) if r.size else 0.0
-        if m > 1e-9:
-            r = r / m
         out_f = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
         out_path = out_f.name
         out_f.close()
-        sf.write(out_path, r, samplerate=24000)
         status = (
             "OK\n"
             f"speaker: {speaker_name}\n"
-            f"ref: {ref_rel}\n"
             f"device: {device}"
         )
         return out_path, status
     except Exception:
         return None, traceback.format_exc()
 # =========================
 # GRADIO UI
 # =========================
@@ -160,48 +167,21 @@ with gr.Blocks() as demo:
     )
     with gr.Row():
-        denoise = gr.Slider(0.0, 1.0, step=0.1, value=0.6, label="Denoise Strength")
         avg_style = gr.Checkbox(label="Use Average Styles", value=True)
         stabilize = gr.Checkbox(label="Stabilize Speaking Speed", value=True)
     gen_button = gr.Button("Generate")
     synthesized_audio = gr.Audio(label="Generated Audio", type="filepath")
-    status = gr.Textbox(label="Status", lines=4, interactive=False)
     gen_button.click(
         fn=synth_one_speaker,
         inputs=[speaker_name, text_prompt, denoise, avg_style, stabilize],
-        outputs=[synthesized_audio, status]
     )
-import os
-import time
-PORT = int(os.environ.get("PORT", "7860"))
-if __name__ == "__main__":
-    # queue() không truyền kwargs để khỏi lệch version
-    try:
-        demo.queue()
-    except Exception:
-        pass
-    # launch() với fallback theo version
-    try:
-        demo.launch(
-            server_name="0.0.0.0",
-            server_port=PORT,
-            show_error=True,
-            ssr_mode=False,
-            prevent_thread_lock=False,  # nếu hỗ trợ thì sẽ block luôn
-        )
-    except TypeError:
-        # gradio cũ không có ssr_mode / prevent_thread_lock
-        demo.launch(
-            server_name="0.0.0.0",
-            server_port=PORT,
-            show_error=True,
-        )
-    # nếu launch() không block (một số build), giữ process sống
-    while True:
-        time.sleep(3600)

 import os
 import json
 import tempfile
 import numpy as np
 import soundfile as sf
 import torch
+from huggingface_hub import hf_hub_download
 from inference import StyleTTS2
 # =========================
+# PATHS
 # =========================
+SPACE_ROOT = os.path.dirname(os.path.abspath(__file__))
+DATA_ROOT = os.path.join(SPACE_ROOT, "demo_data")
 SPEAKER2REFS_PATH = os.path.join(DATA_ROOT, "speaker2refs.json")
+# Model repo (ckpt + config)
 CKPT_REPO = "stephenhoang/ttsStyleTTS2-ms152"
 models_path = hf_hub_download(repo_id=CKPT_REPO, filename="epoch_00000.pth")
 config_path = hf_hub_download(repo_id=CKPT_REPO, filename="config.yaml")
 device = "cuda" if torch.cuda.is_available() else "cpu"
 # =========================
 if not SPEAKER_CHOICES:
     raise RuntimeError("speaker2refs.json is empty (no speakers found).")
+def _abs_ref_path(p: str) -> str:
+    """
+    Hỗ trợ cả 2 kiểu:
+      - "refs/id_1.wav"
+      - "demo_data/refs/id_1.wav"
+    """
+    p = p.lstrip("./")
+    if os.path.isabs(p):
+        return p
+    if p.startswith("demo_data/"):
+        return os.path.join(SPACE_ROOT, p)
+    return os.path.join(DATA_ROOT, p)
 # =========================
 # LOAD MODEL
 model = StyleTTS2(config_path, models_path).eval().to(device)
 # =========================
+# STYLE CACHE
 # =========================
 STYLE_CACHE = {}
 STYLE_CACHE_MAX = 64
         STYLE_CACHE.pop(next(iter(STYLE_CACHE)))
     STYLE_CACHE[key] = val
 @torch.inference_mode()
 def synth_one_speaker(speaker_name: str, text_prompt: str,
                       denoise: float, avg_style: bool, stabilize: bool):
         if not speaker_name:
             return None, "Bạn chưa chọn speaker."
+        info = SPEAKER2REFS.get(speaker_name, None)
+        if info is None:
+            return None, f"Speaker '{speaker_name}' không tồn tại trong speaker2refs.json."
+        # info là dict: {"path":..., "lang":..., "speed":..., ...}
+        if not isinstance(info, dict) or "path" not in info:
+            return None, f"Format speaker2refs.json sai cho speaker '{speaker_name}'. Expect dict có field 'path'."
+        ref_path = _abs_ref_path(info["path"])
+        lang = info.get("lang", "vi")
+        speed = float(info.get("speed", 1.0))
         if not os.path.isfile(ref_path):
             return None, f"Ref audio not found: {ref_path}"
         if not text_prompt or not text_prompt.strip():
             return None, "Bạn chưa nhập text."
         speakers = {
+            "id_1": {"path": ref_path, "lang": lang, "speed": speed}
         }
         cache_key = (speaker_name, float(denoise), bool(avg_style))
         styles = _cache_get(cache_key)
         if styles is None:
+            styles = model.get_styles(speakers, denoise=denoise, avg_style=avg_style)
             _cache_set(cache_key, styles)
         text_prompt = text_prompt.strip()
         if "[id_" not in text_prompt:
+            text_prompt = "[id_1] " + text_prompt
+        wav = model.generate(
+            text_prompt,
+            styles,
+            stabilize=stabilize,
+            n_merge=18,
+            default_speaker="[id_1]"
+        )
+        wav = np.asarray(wav, dtype=np.float32)
+        if wav.size == 0:
+            return None, "Model output rỗng (0 samples). Kiểm tra phonemizer/espeak và tokenization."
+        # normalize (không làm mất tiếng)
+        peak = float(np.max(np.abs(wav)))
+        if peak > 1e-6:
+            wav = wav / peak
         out_f = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
         out_path = out_f.name
         out_f.close()
+        sf.write(out_path, wav, samplerate=24000)
         status = (
             "OK\n"
             f"speaker: {speaker_name}\n"
+            f"ref: {ref_path}\n"
+            f"lang: {lang}, speed: {speed}\n"
+            f"samples: {wav.shape[0]}, sec: {wav.shape[0]/24000:.3f}\n"
             f"device: {device}"
         )
         return out_path, status
     except Exception:
         return None, traceback.format_exc()
 # =========================
 # GRADIO UI
 # =========================
     )
     with gr.Row():
+        denoise = gr.Slider(0.0, 1.0, step=0.1, value=0.3, label="Denoise Strength")
         avg_style = gr.Checkbox(label="Use Average Styles", value=True)
         stabilize = gr.Checkbox(label="Stabilize Speaking Speed", value=True)
     gen_button = gr.Button("Generate")
     synthesized_audio = gr.Audio(label="Generated Audio", type="filepath")
+    status = gr.Textbox(label="Status", lines=6, interactive=False)
     gen_button.click(
         fn=synth_one_speaker,
         inputs=[speaker_name, text_prompt, denoise, avg_style, stabilize],
+        outputs=[synthesized_audio, status],
+        concurrency_limit=1,
     )
+# Gradio: dùng queue() chuẩn, không dùng concurrency_count
+demo.queue(max_size=8, default_concurrency_limit=1)  # theo docs :contentReference[oaicite:2]{index=2}
+demo.launch()