Spaces:

nxhong
/

vixtts-api

Sleeping

nxhong commited on Oct 29, 2025

Commit

f9affcb

verified ·

1 Parent(s): 40ff39d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -22,10 +22,11 @@ config.load_json(f"{checkpoint_dir}/config.json")
 MODEL = Xtts.init_from_config(config)
 MODEL.load_checkpoint(config, checkpoint_dir=checkpoint_dir, use_deepspeed=False)
-# Force CPU + optimize for CPU inference
 MODEL.cpu()
-MODEL.model_gpt.float()
-MODEL.vocoder.float()
 torch.set_num_threads(4)
 torch.backends.mkldnn.enabled = True
@@ -35,10 +36,9 @@ def predict(text, ref_audio):
     if not text:
         return None, "⚠️ Nhập nội dung đi."
-    # extract voice features
     gpt_latent, spk_embed = MODEL.get_conditioning_latents(
         audio_path=ref_audio,
-        gpt_cond_len=18,   # ↓ giảm còn 18 → nhanh hơn ~30%
         gpt_cond_chunk_len=4,
         max_ref_length=50,
     )
@@ -48,7 +48,7 @@ def predict(text, ref_audio):
         "vi",
         gpt_latent,
         spk_embed,
-        enable_text_splitting=False,   # ✅ chạy nhanh hơn
         temperature=0.7,
         repetition_penalty=3.0,
     )
@@ -58,11 +58,11 @@ def predict(text, ref_audio):
     return "output.wav", "✅ Xong rồi!"
-# ========== GRADIO UI (cũng là API) ==========
 with gr.Blocks() as demo:
     gr.Markdown("### 🇻🇳 ViXTTS - CPU Optimized (HuggingFace)")
-    text_in = gr.Textbox(label="Văn bản", value="Xin chào, đây là giọng nói tiếng Việt.")
     ref_in = gr.Audio(label="Giọng mẫu", type="filepath", value="model/samples/nu-luu-loat.wav")
     speak_btn = gr.Button("🎙️ Tạo giọng")

 MODEL = Xtts.init_from_config(config)
 MODEL.load_checkpoint(config, checkpoint_dir=checkpoint_dir, use_deepspeed=False)
+# ✅ Force CPU
 MODEL.cpu()
+MODEL.gpt.float()
+MODEL.hifi_gan.float()
 torch.set_num_threads(4)
 torch.backends.mkldnn.enabled = True
     if not text:
         return None, "⚠️ Nhập nội dung đi."
     gpt_latent, spk_embed = MODEL.get_conditioning_latents(
         audio_path=ref_audio,
+        gpt_cond_len=18,
         gpt_cond_chunk_len=4,
         max_ref_length=50,
     )
         "vi",
         gpt_latent,
         spk_embed,
+        enable_text_splitting=False,
         temperature=0.7,
         repetition_penalty=3.0,
     )
     return "output.wav", "✅ Xong rồi!"
+# ========== GRADIO UI ==========
 with gr.Blocks() as demo:
     gr.Markdown("### 🇻🇳 ViXTTS - CPU Optimized (HuggingFace)")
+    text_in = gr.Textbox(label="Văn bản", value="Xin chào! Đây là giọng nói tiếng Việt.")
     ref_in = gr.Audio(label="Giọng mẫu", type="filepath", value="model/samples/nu-luu-loat.wav")
     speak_btn = gr.Button("🎙️ Tạo giọng")