viterbox / README.md

Update README.md

d8d95a9 verified about 1 month ago

6.63 kB

	---
	license: cc-by-nc-4.0
	language:
	- vi
	- en
	library_name: viterbox
	tags:
	- text-to-speech
	- tts
	- vietnamese
	- voice-cloning
	- audio
	- speech-synthesis
	- chatterbox
	datasets:
	- vivoice
	- phoaudiobook
	- dolly-vn/dolly-audio-1000h-vietnamese
	pipeline_tag: text-to-speech
	base_model: ResembleAI/chatterbox
	inference: false
	---

	<div align="center">

	# 🎙️ Viterbox

	### Vietnamese Text-to-Speech với Zero-shot Voice Cloning

	[![License: CC BY-NC 4.0](https://img.shields.io/badge/License-CC%20BY--NC%204.0-lightgrey.svg)](https://creativecommons.org/licenses/by-nc/4.0/)
	[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/)
	[![PyTorch](https://img.shields.io/badge/PyTorch-2.0+-ee4c2c.svg)](https://pytorch.org/)

	</div>

	---

	## 📖 Giới thiệu

	Viterbox là mô hình Text-to-Speech (TTS) tiếng Việt chất lượng cao, được fine-tune từ [Chatterbox](https://github.com/resemble-ai/chatterbox) của Resemble AI.

	### ✨ Tính năng chính

	- 🇻🇳 Tiếng Việt tự nhiên: Phát âm chuẩn, ngữ điệu tự nhiên, hỗ trợ đầy đủ dấu thanh
	- 🎯 Zero-shot Voice Cloning: Clone giọng nói chỉ với 3-10 giây audio mẫu
	- 🌍 Đa ngôn ngữ: Hỗ trợ tiếng Việt và 23 ngôn ngữ khác
	- ⚡ Inference nhanh: Tối ưu GPU với mixed precision (FP16)
	- 📝 Văn bản dài: Tự động chia câu, ghép audio mượt mà với crossfade

	---


	### Thông số kỹ thuật

	\| Thuộc tính \| Giá trị \|
	\|------------\|---------\|
	\| Sample Rate \| 24,000 Hz \|
	\| Audio Format \| Mono, 16-bit \|
	\| Vocabulary Size \| 2,549 tokens \|
	\| Max Text Length \| 2,048 tokens \|
	\| Max Audio Length \| ~40 giây \|

	---

	## 📚 Training Data

	Model được fine-tune trên 3,000+ giờ dữ liệu tiếng Việt chất lượng cao:

	\| Dataset \| Mô tả \| Thời lượng \| Speakers \|
	\|---------\|-------\|------------\|----------\|
	\| ViVoice \| Dữ liệu giọng đọc đa dạng, nhiều vùng miền \| ~1,000h \| 500+ \|
	\| PhoAudiobook \| Sách nói tiếng Việt, giọng chuyên nghiệp \| ~1,200h \| 100+ \|
	\| Dolly-Audio \| Dữ liệu nội bộ, đa phong cách \| ~800h \| 200+ \|

	### Base Model

	- Chatterbox Multilingual by Resemble AI
	- Pretrained trên 23 ngôn ngữ: Arabic, Chinese, Danish, Dutch, English, Finnish, French, German, Greek, Hebrew, Hindi, Italian, Japanese, Korean, Malay, Norwegian, Polish, Portuguese, Russian, Spanish, Swahili, Swedish, Turkish
	- Vocabulary mở rộng thêm tokens cho tiếng Việt

	---

	## 🚀 Quick Start

	### Cài đặt


	Hoặc từ source:

	```bash
	git clone https://github.com/iamdinhthuan/viterbox
	cd viterbox
	pip install -e .
	```

	### Sử dụng cơ bản

	```python
	from viterbox import Viterbox

	# Load model (tự động download)
	tts = Viterbox.from_pretrained("cuda")

	# Generate speech
	audio = tts.generate("Xin chào, tôi là Viterbox!")

	# Save to file
	tts.save_audio(audio, "output.wav")
	```

	### Voice Cloning

	```python
	# Clone voice từ audio mẫu (3-10 giây)
	audio = tts.generate(
	text="Tôi có thể nói bằng giọng của bạn!",
	language="vi",
	audio_prompt="reference.wav",
	exaggeration=0.5,
	cfg_weight=0.5,
	)
	```

	### Xử lý văn bản dài

	```python
	text = """
	Việt Nam là một quốc gia nằm ở phía đông bán đảo Đông Dương.
	Đất nước có hình chữ S với chiều dài hơn 1600 km.
	Thủ đô Hà Nội là trung tâm văn hóa của cả nước.
	"""

	audio = tts.generate(
	text=text,
	language="vi",
	sentence_pause_ms=500, # Nghỉ 0.5s giữa các câu
	)
	```

	---

	## 🎛️ Parameters

	\| Parameter \| Type \| Default \| Description \|
	\|-----------\|------\|---------\|-------------\|
	\| `text` \| str \| required \| Văn bản cần đọc \|
	\| `language` \| str \| `"vi"` \| Mã ngôn ngữ (`"vi"` hoặc `"en"`) \|
	\| `audio_prompt` \| str/Path \| None \| Đường dẫn audio mẫu cho voice cloning \|
	\| `exaggeration` \| float \| 0.5 \| Mức độ biểu cảm (0.0-2.0) \|
	\| `cfg_weight` \| float \| 0.5 \| Độ bám sát giọng mẫu (0.0-1.0) \|
	\| `temperature` \| float \| 0.8 \| Độ ngẫu nhiên (0.1-1.0) \|
	\| `top_p` \| float \| 0.9 \| Top-p sampling \|
	\| `repetition_penalty` \| float \| 1.2 \| Penalty cho việc lặp từ \|
	\| `sentence_pause_ms` \| int \| 500 \| Thời gian nghỉ giữa các câu (ms) \|
	\| `crossfade_ms` \| int \| 50 \| Thời gian crossfade khi ghép audio (ms) \|

	## ⚙️ System Requirements

	\| Requirement \| Minimum \| Recommended \|
	\|-------------\|---------\|-------------\|
	\| Python \| 3.10+ \| 3.11+ \|
	\| CUDA \| 11.8+ \| 12.0+ \|
	\| RAM \| 8 GB \| 16 GB \|
	\| VRAM \| 6 GB \| 8 GB+ \|

	---

	## ⚠️ Limitations

	- Audio mẫu nên sạch, không nhiễu, độ dài 3-10 giây
	- Chưa hỗ trợ streaming inference
	- Văn bản quá dài (>500 từ) có thể giảm chất lượng
	- Một số từ tiếng Anh trong văn bản Việt có thể phát âm chưa chuẩn

	---

	## 🔒 Ethical Considerations

	### Intended Use

	- Tạo nội dung audio cho podcast, audiobook, e-learning
	- Accessibility tools cho người khiếm thị
	- Virtual assistants và chatbots
	- Nghiên cứu và phát triển TTS

	### Misuse Prevention

	- KHÔNG sử dụng để tạo deepfake hoặc nội dung lừa đảo
	- KHÔNG clone giọng nói mà không có sự đồng ý của chủ sở hữu
	- KHÔNG tạo nội dung vi phạm bản quyền hoặc pháp luật

	---

	## 📄 License

	CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial 4.0)

	- ✅ Sử dụng cho mục đích phi thương mại
	- ✅ Chia sẻ, sửa đổi với ghi nguồn
	- ❌ KHÔNG được sử dụng cho mục đích thương mại

	Liên hệ thương mại: [contextbox.ai](https://contextbox.ai)

	---

	## 🙏 Acknowledgements

	- [Resemble AI](https://www.resemble.ai/) - Chatterbox base model
	- ViVoice, PhoAudiobook - Vietnamese speech datasets
	- [Dolly VN](https://github.com/dolly-vn) - Speech Team @ [ContextBoxAI](https://contextbox.ai)

	---

	## 📧 Contact

	- Organization: [ContextBoxAI](https://contextbox.ai)
	- Team: [Dolly VN](https://github.com/dolly-vn) - Speech Team
	- GitHub: [iamdinhthuan/viterbox-tts](https://github.com/iamdinhthuan/viterbox-tts)
	- HuggingFace: [dolly-vn/viterbox](https://huggingface.co/dolly-vn/viterbox)

	---

	## 📚 Citation

	```bibtex
	@misc{viterbox2025,
	author = {Dolly VN, ContextBoxAI},
	title = {Viterbox: Vietnamese Text-to-Speech with Voice Cloning},
	year = {2025},
	publisher = {HuggingFace},
	url = {https://huggingface.co/dolly-vn/viterbox}
	}
	```