Spaces:

nxhong
/

vixtts-api

Build error

App Files Files Community

nxhong commited on Oct 29, 2025

Commit

8538350

verified ·

1 Parent(s): f9affcb

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -30

app.py CHANGED Viewed

@@ -2,74 +2,114 @@ import os
 import torch
 import torchaudio
 import gradio as gr
 from huggingface_hub import snapshot_download, hf_hub_download
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
 # ========== LOAD MODEL ==========
 checkpoint_dir = "model/"
 repo_id = "capleaf/viXTTS"
 os.makedirs(checkpoint_dir, exist_ok=True)
-required = ["model.pth", "config.json", "vocab.json", "speakers_xtts.pth"]
-if not all(x in os.listdir(checkpoint_dir) for x in required):
     snapshot_download(repo_id=repo_id, local_dir=checkpoint_dir)
     hf_hub_download("coqui/XTTS-v2", "speakers_xtts.pth", local_dir=checkpoint_dir)
 config = XttsConfig()
-config.load_json(f"{checkpoint_dir}/config.json")
 MODEL = Xtts.init_from_config(config)
 MODEL.load_checkpoint(config, checkpoint_dir=checkpoint_dir, use_deepspeed=False)
-# ✅ Force CPU
 MODEL.cpu()
 MODEL.gpt.float()
 MODEL.hifi_gan.float()
 torch.set_num_threads(4)
 torch.backends.mkldnn.enabled = True
 # ========== TTS FUNCTION ==========
-def predict(text, ref_audio):
-    if not text:
-        return None, "⚠️ Nhập nội dung đi."
     gpt_latent, spk_embed = MODEL.get_conditioning_latents(
         audio_path=ref_audio,
         gpt_cond_len=18,
         gpt_cond_chunk_len=4,
-        max_ref_length=50,
     )
     out = MODEL.inference(
-        text,
-        "vi",
-        gpt_latent,
-        spk_embed,
-        enable_text_splitting=False,
-        temperature=0.7,
-        repetition_penalty=3.0,
     )
     wav = torch.tensor(out["wav"]).unsqueeze(0)
     torchaudio.save("output.wav", wav, 24000)
-    return "output.wav", "✅ Xong rồi!"
-# ========== GRADIO UI ==========
-with gr.Blocks() as demo:
-    gr.Markdown("### 🇻🇳 ViXTTS - CPU Optimized (HuggingFace)")
-    text_in = gr.Textbox(label="Văn bản", value="Xin chào! Đây là giọng nói tiếng Việt.")
-    ref_in = gr.Audio(label="Giọng mẫu", type="filepath", value="model/samples/nu-luu-loat.wav")
-    speak_btn = gr.Button("🎙️ Tạo giọng")
-    audio_out = gr.Audio(label="Kết quả", autoplay=True)
-    info_out  = gr.Textbox(label="Trạng thái", interactive=False)
-    speak_btn.click(predict, inputs=[text_in, ref_in], outputs=[audio_out, info_out])
-demo.launch()

 import torch
 import torchaudio
 import gradio as gr
+from fastapi import FastAPI
+from fastapi.responses import FileResponse
+import uvicorn
+import threading
 from huggingface_hub import snapshot_download, hf_hub_download
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
 # ========== LOAD MODEL ==========
 checkpoint_dir = "model/"
 repo_id = "capleaf/viXTTS"
 os.makedirs(checkpoint_dir, exist_ok=True)
+required_files = ["model.pth", "config.json", "vocab.json", "speakers_xtts.pth"]
+if not all(f in os.listdir(checkpoint_dir) for f in required_files):
     snapshot_download(repo_id=repo_id, local_dir=checkpoint_dir)
     hf_hub_download("coqui/XTTS-v2", "speakers_xtts.pth", local_dir=checkpoint_dir)
 config = XttsConfig()
+config.load_json(os.path.join(checkpoint_dir, "config.json"))
 MODEL = Xtts.init_from_config(config)
 MODEL.load_checkpoint(config, checkpoint_dir=checkpoint_dir, use_deepspeed=False)
+# ✅ CPU only
 MODEL.cpu()
 MODEL.gpt.float()
 MODEL.hifi_gan.float()
 torch.set_num_threads(4)
 torch.backends.mkldnn.enabled = True
+# Ngôn ngữ hỗ trợ
+LANGS = ["vi", "en", "zh-cn", "ja", "ko"]
 # ========== TTS FUNCTION ==========
+def predict(text, language, ref_audio):
+    if not text.strip():
+        return None, "⚠️ Nhập nội dung."
+    if language not in LANGS:
+        return None, f"❌ Ngôn ngữ '{language}' không được hỗ trợ."
     gpt_latent, spk_embed = MODEL.get_conditioning_latents(
         audio_path=ref_audio,
         gpt_cond_len=18,
         gpt_cond_chunk_len=4,
+        max_ref_length=50
     )
     out = MODEL.inference(
+        text=text,
+        language=language,
+        gpt_cond_latent=gpt_latent,
+        speaker_embedding=spk_embed,
+        temperature=0.65,
+        repetition_penalty=2.5,
+        enable_text_splitting=False
     )
     wav = torch.tensor(out["wav"]).unsqueeze(0)
     torchaudio.save("output.wav", wav, 24000)
+    return "output.wav", "✅ Hoàn tất!"
+# ========== FASTAPI ==========
+api_app = FastAPI()
+@api_app.post("/api/speak")
+def speak_api(text: str = "Xin chào!", language: str = "vi"):
+    ref_audio = "model/samples/nu-luu-loat.wav"
+    audio_path, _ = predict(text, language, ref_audio)
+    return FileResponse(audio_path, media_type="audio/wav")
+# ========== GRADIO UI ==========
+with gr.Blocks(title="🇻🇳 Vietnamese TTS - CPU") as demo:
+    gr.Markdown("## 🎙️ Text to Speech (ViXTTS)")
+    with gr.Row():
+        with gr.Column(scale=1):
+            input_text = gr.Textbox(
+                label="Văn bản",
+                value="Xin chào! Tôi là mô hình tạo giọng nói tiếng Việt.",
+                lines=4
+            )
+            lang_dd = gr.Dropdown(
+                label="Ngôn ngữ",
+                choices=LANGS,
+                value="vi"
+            )
+            ref_audio = gr.Audio(
+                label="Giọng mẫu (reference)",
+                type="filepath",
+                value="model/samples/nu-luu-loat.wav"
+            )
+            tts_button = gr.Button("🎙️ Tạo giọng", variant="primary")
+        with gr.Column(scale=1):
+            output_audio = gr.Audio(label="Kết quả", autoplay=True)
+            output_info = gr.Textbox(label="Trạng thái", interactive=False)
+    tts_button.click(
+        predict,
+        inputs=[input_text, lang_dd, ref_audio],
+        outputs=[output_audio, output_info],
+    )
+# ========== CHẠY SONG SONG API + GRADIO ==========
+if __name__ == "__main__":
+    def run_api():
+        uvicorn.run(api_app, host="0.0.0.0", port=8000)
+    threading.Thread(target=run_api, daemon=True).start()
+    demo.launch(server_name="0.0.0.0", server_port=7860)