nxhong commited on
Commit
f9affcb
·
verified ·
1 Parent(s): 40ff39d

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +8 -8
app.py CHANGED
@@ -22,10 +22,11 @@ config.load_json(f"{checkpoint_dir}/config.json")
22
  MODEL = Xtts.init_from_config(config)
23
  MODEL.load_checkpoint(config, checkpoint_dir=checkpoint_dir, use_deepspeed=False)
24
 
25
- # Force CPU + optimize for CPU inference
26
  MODEL.cpu()
27
- MODEL.model_gpt.float()
28
- MODEL.vocoder.float()
 
29
  torch.set_num_threads(4)
30
  torch.backends.mkldnn.enabled = True
31
 
@@ -35,10 +36,9 @@ def predict(text, ref_audio):
35
  if not text:
36
  return None, "⚠️ Nhập nội dung đi."
37
 
38
- # extract voice features
39
  gpt_latent, spk_embed = MODEL.get_conditioning_latents(
40
  audio_path=ref_audio,
41
- gpt_cond_len=18, # ↓ giảm còn 18 → nhanh hơn ~30%
42
  gpt_cond_chunk_len=4,
43
  max_ref_length=50,
44
  )
@@ -48,7 +48,7 @@ def predict(text, ref_audio):
48
  "vi",
49
  gpt_latent,
50
  spk_embed,
51
- enable_text_splitting=False, # ✅ chạy nhanh hơn
52
  temperature=0.7,
53
  repetition_penalty=3.0,
54
  )
@@ -58,11 +58,11 @@ def predict(text, ref_audio):
58
  return "output.wav", "✅ Xong rồi!"
59
 
60
 
61
- # ========== GRADIO UI (cũng là API) ==========
62
  with gr.Blocks() as demo:
63
  gr.Markdown("### 🇻🇳 ViXTTS - CPU Optimized (HuggingFace)")
64
 
65
- text_in = gr.Textbox(label="Văn bản", value="Xin chào, đây là giọng nói tiếng Việt.")
66
  ref_in = gr.Audio(label="Giọng mẫu", type="filepath", value="model/samples/nu-luu-loat.wav")
67
  speak_btn = gr.Button("🎙️ Tạo giọng")
68
 
 
22
  MODEL = Xtts.init_from_config(config)
23
  MODEL.load_checkpoint(config, checkpoint_dir=checkpoint_dir, use_deepspeed=False)
24
 
25
+ # Force CPU
26
  MODEL.cpu()
27
+ MODEL.gpt.float()
28
+ MODEL.hifi_gan.float()
29
+
30
  torch.set_num_threads(4)
31
  torch.backends.mkldnn.enabled = True
32
 
 
36
  if not text:
37
  return None, "⚠️ Nhập nội dung đi."
38
 
 
39
  gpt_latent, spk_embed = MODEL.get_conditioning_latents(
40
  audio_path=ref_audio,
41
+ gpt_cond_len=18,
42
  gpt_cond_chunk_len=4,
43
  max_ref_length=50,
44
  )
 
48
  "vi",
49
  gpt_latent,
50
  spk_embed,
51
+ enable_text_splitting=False,
52
  temperature=0.7,
53
  repetition_penalty=3.0,
54
  )
 
58
  return "output.wav", "✅ Xong rồi!"
59
 
60
 
61
+ # ========== GRADIO UI ==========
62
  with gr.Blocks() as demo:
63
  gr.Markdown("### 🇻🇳 ViXTTS - CPU Optimized (HuggingFace)")
64
 
65
+ text_in = gr.Textbox(label="Văn bản", value="Xin chào! Đây là giọng nói tiếng Việt.")
66
  ref_in = gr.Audio(label="Giọng mẫu", type="filepath", value="model/samples/nu-luu-loat.wav")
67
  speak_btn = gr.Button("🎙️ Tạo giọng")
68