YAML Metadata Warning:empty or missing yaml metadata in repo card
Check out the documentation for more information.
OmniVoice GUI - Voice Cloning & TTS Tiếng Việt Offline
Đây là phiên bản GUI hoàn chỉnh và Portable dành cho OmniVoice - mô hình Text-to-Speech và Voice Cloning chất lượng cao. Ứng dụng được thiết kế bằng PyQt5 giúp bạn dễ dàng thực hiện infer (tạo giọng nói) trực tiếp trên máy cá nhân mà không cần thiết lập phức tạp.
🌟 Tính Năng Nổi Bật
- Giao diện Trực Quan (PyQt5): Thân thiện, dễ sử dụng, thay thế hoàn toàn dòng lệnh khô khan.
- Portable & Linh Hoạt: Các đường dẫn được thiết lập động (relative paths). Bạn có thể copy toàn bộ thư mục sang bất kỳ máy nào, ổ đĩa nào và chạy ngay mà không lo lỗi đường dẫn.
- Tốc Độ Xử Lý Nhanh: Giọng mẫu (prompts) được cache ngay khi khởi động giúp việc sinh giọng nói diễn ra cực nhanh. Xử lý đa luồng giúp giao diện không bị đơ trong quá trình infer.
- Tự Động Tách Câu: Hỗ trợ nhập văn bản dài thoải mái. Hệ thống sẽ tự động ngắt câu dựa trên dấu câu và thêm khoảng lặng (silence) để giọng đọc tự nhiên nhất.
- Dễ Dàng Quản Lý Giọng: Hệ thống quản lý giọng qua file
voices.jsontiện lợi nằm gọn trong thư mụcvoice/.
📦 Cài Đặt
Tải repository (từ Hugging Face): Mô hình và mã nguồn có sẵn tại Hugging Face: chumdz97/chumtts2
git clone https://huggingface.co/chumdz97/chumtts2 cd chumtts2Cài đặt thư viện yêu cầu: Đảm bảo bạn đã cài đặt Python (khuyên dùng >= 3.10) và chạy lệnh sau:
pip install torch torchaudio numpy soundfile PyQt5 pip install omnivoice(Lưu ý: Nên cài đặt phiên bản PyTorch hỗ trợ CUDA để tận dụng GPU giúp tăng tốc độ xử lý).
🚀 Hướng Dẫn Sử Dụng
Chỉ cần chạy file giao diện chính:
python gui.py
- Chọn Giọng Đọc: Lựa chọn giọng từ danh sách sổ xuống.
- Tùy Chỉnh Thông Số:
Num Steps: Độ mượt của âm thanh (khuyên dùng: 32).Guidance Scale: Độ bám sát giọng gốc (khuyên dùng: 5.0).Speed: Tốc độ đọc.
- Nhập Text & Chạy: Dán văn bản vào ô và bấm TẠO GIỌNG NÓI. File kết quả
output_gui.wavsẽ được xuất ra ở thư mục gốc và tự động mở lên khi hoàn thành.
🎙️ Cách Thêm Giọng Mới
Để thêm một giọng đọc mới vào hệ thống:
- Chuẩn bị 1 file âm thanh mẫu (VD:
giong_moi.wav) chứa giọng nói thật rõ ràng, không tạp âm. - Lấy đoạn văn bản chính xác (transcript) mà người trong audio đang đọc.
- Copy file
.wavđó bỏ vào thư mụcvoice/. - Mở file
voice/voices.jsonlên và thêm 1 cụm mới theo định dạng:"Tên Giọng Này Cho Dễ Nhớ": { "audio": "giong_moi.wav", "text": "Đoạn văn bản mà người trong audio đang đọc một cách chính xác..." } - Tắt ứng dụng đi và mở lại (
python gui.py), giọng mới sẽ xuất hiện trên giao diện để sử dụng ngay!
⚙️ Cấu Trúc Thư Mục
.
├── gui.py # File khởi chạy giao diện Desktop
├── infer.py # Script chạy bằng terminal (nếu cần)
├── voice/ # Thư mục chứa audio mẫu và cấu hình
│ ├── voices.json # File quản lý danh sách giọng
│ ├── phuongtrang.wav
│ └── ...
└── README.md # Hướng dẫn sử dụng
- Downloads last month
- 1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support