ViVoxCPM-1.5 🗣️🔥

ViVoxCPM-1.5 là mô hình Text-to-Speech (TTS) dựa trên VoxCPM-1.5, được fine-tune để tổng hợp giọng nói tiếng Việt và tiếng Anh, hỗ trợ voice cloning.

🧠 Thông tin huấn luyện

Base model: VoxCPM-1.5
Dataset: ~1200 giờ audio tiếng Việt + Anh
Epochs: ~10
Kiểu huấn luyện: Full Finetune
Mục tiêu:
- Phát âm tiếng Việt + Anh tự nhiên
- Hỗ trợ IPA / phoneme input
- Voice cloning ổn định với reference ngắn

☕ Ủng hộ dự án này

Việc huấn luyện các mô hình TTS chất lượng cao đòi hỏi tài nguyên GPU đáng kể. Nếu bạn thấy mô hình này hữu ích, vui lòng xem xét hỗ trợ quá trình phát triển:

Mọi sự ủng hộ của các bạn là niềm động lực giúp mình phát triển các mô hình tốt hơn trong tương lai ❤️

🦜 Sample

Reference Voice (Speaker Example):

Input Text:

Đêm đó, anh xoá số cô khỏi danh bạ.
Nhưng khi màn hình tối đi, anh vẫn nhớ rất rõ… số ấy nằm ở đâu trong tim mình.

Ngoài cửa sổ, gió thổi khẽ.
Có những thứ đã rời đi rồi,
nhưng cảm giác thì ở lại lâu hơn ta tưởng.

Generated Output (Cloned Voice):

🚀 Cài đặt & chạy inference

1. Cài đặt môi trường

git clone https://github.com/OpenBMB/VoxCPM.git
cd VoxCPM

pip install voxcpm
pip install torchcodec==0.9

2. Load model & Inference

from voxcpm.core import VoxCPM
model = VoxCPM.from_pretrained(
    hf_model_id="kjanh/ViVoxCPM-1.5",
    load_denoiser=False,
    optimize=True,
)

import soundfile as sf

prompt_wav_path = None
prompt_text = None
text = "kˈu6m ˈæd mˈɑːɹkdaʊn hˈɛdɚz tʊ ˈæd ɐ sˈɛkʃən kˈɔɜ ŋˈiə5 lˌaː2: tˈem kˌaːɜc t̪ˈiɛw ɗˈe2 mˈɑːɹkdaʊn ɗˌe4 t̪ˈaː6w mˈo6t̪ mˈu6c fˈə2n mˈəːɜj"
cfg_value = 2.0
inference_timesteps = 10

print(f"[FT Inference] Synthesizing: text='{text}'")
if prompt_wav_path:
    print(f"[FT Inference] Using reference audio: {prompt_wav_path}")
    print(f"[FT Inference] Reference text: {prompt_text}")

audio_np = model.generate(
    text=text,
    prompt_wav_path=prompt_wav_path,
    prompt_text=prompt_text,
    cfg_value=cfg_value,
    inference_timesteps=inference_timesteps,
    max_len=600,
    normalize=False,
    denoise=False,
)

# Save audio
out_path = "output.wav"

sf.write(str(out_path), audio_np, model.tts_model.sample_rate)
from IPython.display import Audio,display
display(Audio(out_path))

⚠️ Miễn trừ trách nhiệm & Khuyến cáo sử dụng (TTS)

Mô hình Text-to-Speech (TTS) này được cung cấp chỉ nhằm phục vụ mục đích nghiên cứu, thử nghiệm và phát triển công nghệ. Mọi nội dung âm thanh do mô hình tạo ra không phản ánh, đại diện hay ngụ ý giọng nói, danh tính, quan điểm hoặc sự chấp thuận của bất kỳ cá nhân hay tổ chức có thật nào. Tác giả và các bên liên quan không chịu bất kỳ trách nhiệm pháp lý nào đối với các hành vi sử dụng sai mục đích, vi phạm pháp luật, xâm phạm quyền riêng tư, quyền nhân thân, quyền sở hữu trí tuệ, hoặc các thiệt hại trực tiếp hay gián tiếp phát sinh từ việc sử dụng mô hình này.

Người dùng chịu hoàn toàn trách nhiệm pháp lý đối với việc triển khai, phân phối và sử dụng mô hình. Nghiêm cấm sử dụng mô hình cho các hành vi mạo danh, sao chép hoặc mô phỏng giọng nói cá nhân khi chưa có sự đồng ý hợp pháp, tạo nội dung gây hiểu lầm, lừa đảo, thao túng dư luận hoặc bất kỳ hành vi nào trái với quy định pháp luật hiện hành. Khi sử dụng hoặc chia sẻ âm thanh được tạo ra, khuyến nghị bắt buộc phải công bố rõ ràng rằng nội dung là âm thanh được tạo bởi trí tuệ nhân tạo (AI), đồng thời tuân thủ đầy đủ các quy định pháp luật, chính sách nền tảng và chuẩn mực đạo đức có liên quan.

Mẫu mô hình này được phát hành chỉ cho mục đích nghiên cứu và phát triển. Chúng tôi không khuyến khích việc sử dụng trong môi trường sản xuất hoặc cho mục đích thương mại nếu chưa trải qua quy trình thử nghiệm, đánh giá rủi ro và kiểm định an toàn một cách nghiêm ngặt. Vui lòng sử dụng VoxCPM một cách có trách nhiệm.

📚 Trích dẫn (Citation)

Nếu bạn sử dụng mô hình này hoặc dựa trên VoxCPM cho nghiên cứu/sản phẩm, vui lòng trích dẫn bài VoxCPM gốc:

@article{voxcpm2025,
  title        = {VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning},
  author       = {Zhou, Yixuan and Zeng, Guoyang and Liu, Xin and Li, Xiang and Yu, Renjie and Wang, Ziyang and Ye, Runchuan and Sun, Weiyue and Gui, Jiancheng and Li, Kehan and Wu, Zhiyong and Liu, Zhiyuan},
  journal      = {arXiv preprint arXiv:2509.24650},
  year         = {2025}
}

Downloads last month: 65

Model tree for kjanh/ViVoxCPM-1.5

Base model

openbmb/MiniCPM4-0.5B

Finetuned

openbmb/VoxCPM1.5

Finetuned

(3)

this model

Space using kjanh/ViVoxCPM-1.5 1

Paper for kjanh/ViVoxCPM-1.5

VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning

Paper • 2509.24650 • Published Sep 29, 2025 • 3