Spaces:

nxhong
/

vixtts-api

Build error

App Files Files Community

nxhong commited on Oct 29, 2025

Commit

f1134ba

verified ·

1 Parent(s): 968620b

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -57

app.py CHANGED Viewed

@@ -1,16 +1,17 @@
 import os
 import torch
 import torchaudio
 import gradio as gr
 from fastapi import FastAPI
 from fastapi.responses import FileResponse
-import uvicorn
-import threading
 from huggingface_hub import snapshot_download, hf_hub_download
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
-# ========== LOAD MODEL ==========
 checkpoint_dir = "model/"
 repo_id = "capleaf/viXTTS"
 os.makedirs(checkpoint_dir, exist_ok=True)
@@ -25,30 +26,19 @@ config.load_json(os.path.join(checkpoint_dir, "config.json"))
 MODEL = Xtts.init_from_config(config)
 MODEL.load_checkpoint(config, checkpoint_dir=checkpoint_dir, use_deepspeed=False)
-# ✅ CPU only
 MODEL.cpu()
 MODEL.gpt.float()
 torch.set_num_threads(4)
 torch.backends.mkldnn.enabled = True
-# Ngôn ngữ hỗ trợ
 LANGS = ["vi", "en", "zh-cn", "ja", "ko"]
-# ========== TTS FUNCTION ==========
-def predict(text, language, ref_audio):
-    if not text.strip():
-        return None, "⚠️ Nhập nội dung."
-    if language not in LANGS:
-        return None, f"❌ Ngôn ngữ '{language}' không được hỗ trợ."
     gpt_latent, spk_embed = MODEL.get_conditioning_latents(
-        audio_path=ref_audio,
-        gpt_cond_len=18,
-        gpt_cond_chunk_len=4,
-        max_ref_length=50
     )
     out = MODEL.inference(
         text=text,
         language=language,
@@ -58,57 +48,55 @@ def predict(text, language, ref_audio):
         repetition_penalty=2.5,
         enable_text_splitting=False
     )
     wav = torch.tensor(out["wav"]).unsqueeze(0)
     torchaudio.save("output.wav", wav, 24000)
-    return "output.wav", "✅ Hoàn tất!"
-# ========== FASTAPI ==========
 api_app = FastAPI()
 @api_app.post("/api/speak")
-def speak_api(text: str = "Xin chào!", language: str = "vi"):
-    ref_audio = "model/samples/nu-luu-loat.wav"
-    audio_path, _ = predict(text, language, ref_audio)
-    return FileResponse(audio_path, media_type="audio/wav")
-# ========== GRADIO UI ==========
-with gr.Blocks(title="🇻🇳 Vietnamese TTS - CPU") as demo:
-    gr.Markdown("## 🎙️ Text to Speech (ViXTTS)")
     with gr.Row():
         with gr.Column(scale=1):
-            input_text = gr.Textbox(
-                label="Văn bản",
-                value="Xin chào! Tôi là mô hình tạo giọng nói tiếng Việt.",
-                lines=4
-            )
-            lang_dd = gr.Dropdown(
-                label="Ngôn ngữ",
-                choices=LANGS,
-                value="vi"
-            )
-            ref_audio = gr.Audio(
-                label="Giọng mẫu (reference)",
-                type="filepath",
-                value="model/samples/nu-luu-loat.wav"
-            )
-            tts_button = gr.Button("🎙️ Tạo giọng", variant="primary")
         with gr.Column(scale=1):
-            output_audio = gr.Audio(label="Kết quả", autoplay=True)
-            output_info = gr.Textbox(label="Trạng thái", interactive=False)
-    tts_button.click(
-        predict,
-        inputs=[input_text, lang_dd, ref_audio],
-        outputs=[output_audio, output_info],
-    )
-# ========== CHẠY SONG SONG API + GRADIO ==========
 if __name__ == "__main__":
-    def run_api():
-        uvicorn.run(api_app, host="0.0.0.0", port=8000)
-    threading.Thread(target=run_api, daemon=True).start()
     demo.launch(server_name="0.0.0.0", server_port=7860)

 import os
 import torch
 import torchaudio
+import threading
 import gradio as gr
+import requests
 from fastapi import FastAPI
 from fastapi.responses import FileResponse
 from huggingface_hub import snapshot_download, hf_hub_download
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
+import uvicorn
+# ===== MODEL SETUP =====
 checkpoint_dir = "model/"
 repo_id = "capleaf/viXTTS"
 os.makedirs(checkpoint_dir, exist_ok=True)
 MODEL = Xtts.init_from_config(config)
 MODEL.load_checkpoint(config, checkpoint_dir=checkpoint_dir, use_deepspeed=False)
+# CPU-only
 MODEL.cpu()
 MODEL.gpt.float()
 torch.set_num_threads(4)
 torch.backends.mkldnn.enabled = True
 LANGS = ["vi", "en", "zh-cn", "ja", "ko"]
+# ===== TTS FUNCTION =====
+def tts_fn(text, language, ref_audio):
     gpt_latent, spk_embed = MODEL.get_conditioning_latents(
+        audio_path=ref_audio, gpt_cond_len=18, gpt_cond_chunk_len=4, max_ref_length=50
     )
     out = MODEL.inference(
         text=text,
         language=language,
         repetition_penalty=2.5,
         enable_text_splitting=False
     )
     wav = torch.tensor(out["wav"]).unsqueeze(0)
     torchaudio.save("output.wav", wav, 24000)
+    return "output.wav"
+# ===== FASTAPI SERVER =====
 api_app = FastAPI()
 @api_app.post("/api/speak")
+def speak_api(text: str, language: str = "vi", ref_audio: str = "model/samples/nu-luu-loat.wav"):
+    try:
+        path = tts_fn(text, language, ref_audio)
+        return FileResponse(path, media_type="audio/wav")
+    except Exception as e:
+        return {"error": str(e)}
+# ===== GRADIO CLIENT (gọi API nội bộ) =====
+def gradio_client(text, language, ref_audio):
+    try:
+        r = requests.post(
+            "http://127.0.0.1:8000/api/speak",
+            params={"text": text, "language": language, "ref_audio": ref_audio}
+        )
+        if r.status_code == 200:
+            with open("voice.wav", "wb") as f:
+                f.write(r.content)
+            return "voice.wav", "✅ Hoàn tất!"
+        else:
+            return None, f"❌ Lỗi API: {r.status_code}"
+    except Exception as e:
+        return None, f"❌ Lỗi: {str(e)}"
+# ===== GRADIO UI =====
+with gr.Blocks(title="ViXTTS - Gradio + API") as demo:
+    gr.Markdown("## 🎙️ Vietnamese TTS - CPU (Spaces HuggingFace)")
     with gr.Row():
         with gr.Column(scale=1):
+            text_in = gr.Textbox(label="Văn bản", value="Xin chào!", lines=4)
+            lang_dd = gr.Dropdown(label="Ngôn ngữ", choices=LANGS, value="vi")
+            ref_audio = gr.Audio(label="Giọng mẫu", type="filepath", value="model/samples/nu-luu-loat.wav")
+            btn = gr.Button("🎧 Tạo giọng")
         with gr.Column(scale=1):
+            audio_out = gr.Audio(label="Kết quả", autoplay=True)
+            info_out = gr.Textbox(label="Trạng thái", interactive=False)
+    btn.click(gradio_client, inputs=[text_in, lang_dd, ref_audio], outputs=[audio_out, info_out])
+# ===== CHẠY SONG SONG API + GRADIO =====
 if __name__ == "__main__":
+    threading.Thread(target=lambda: uvicorn.run(api_app, host="0.0.0.0", port=8000), daemon=True).start()
     demo.launch(server_name="0.0.0.0", server_port=7860)