niobures
/

Chatterbox-TTS

ONNX

Safetensors

GGUF

Model card Files Files and versions

xet

Community

niobures commited on Sep 14, 2025

Commit

4828ba7

verified ·

1 Parent(s): 58560ee

Update id/Chatterbox-TTS-Indonesian/README.md

Browse files

Files changed (1) hide show

id/Chatterbox-TTS-Indonesian/README.md +124 -23

id/Chatterbox-TTS-Indonesian/README.md CHANGED Viewed

@@ -1,9 +1,7 @@
 ---
-license: mit
 datasets:
-- grandhigh/Espeak-ID-5K
-language:
-- id
 base_model:
 - ResembleAI/chatterbox
 pipeline_tag: text-to-speech
@@ -16,48 +14,151 @@ tags:
 - voice-cloning
 - zero-shot
 ---
-# Chatterbox TTS Indonesian 🎭
-**Chatterbox TTS Indonesian** is a fine-tuned text-to-speech model specialized for the Indonesian language.
-- 🔊 **Language**: Indonesian <sup>ɪᴅ</sup>
-- 🗣️ **Training dataset**: [Esepak ID 5K Dataset](https://huggingface.co/datasets/grandhigh/Espeak-ID-5K)
-## Usage Example
-Here’s how to generate speech using Chatterbox-TTS Indonesian:
 ```python
 import torch
-from IPython.display import Audio
 from chatterbox.tts import ChatterboxTTS
 from huggingface_hub import hf_hub_download
 from safetensors.torch import load_file
 MODEL_REPO = "grandhigh/Chatterbox-TTS-Indonesian"
 CHECKPOINT_FILENAME = "t3_cfg.safetensors"
-TEXT_TO_SYNTHESIZE = "Bahwa sesungguhnya kemerdekaan itu ialah hak segala bangsa dan oleh sebab itu, maka penjajahan di atas dunia harus dihapuskan, karena tidak sesuai dengan perikemanusiaan dan perikeadilan."
 model = ChatterboxTTS.from_pretrained(device="cuda")
 checkpoint_path = hf_hub_download(repo_id=MODEL_REPO, filename=CHECKPOINT_FILENAME)
 t3_state = load_file(checkpoint_path, device="cpu")
 model.t3.load_state_dict(t3_state)
-wav_audio = model.generate(TEXT_TO_SYNTHESIZE, audio_prompt_path=None)
 display(Audio(wav_audio.numpy(), rate=model.sr))
 ```
-Here is the output:
-<audio controls src="https://huggingface.co/grandhigh/Chatterbox-TTS-Indonesian/resolve/main/example.wav">Your browser does not support audio.</audio>
-### Base model license
-The base model is licensed under the MIT License.
-Base model: [Chatterbox](https://huggingface.co/ResembleAI/chatterbox)
-License: [MIT](https://choosealicense.com/licenses/mit/)
-### Training Data License
-This model was fine-tuned using a dataset MIT.
-Dataset: [Esepak ID 5K](https://huggingface.co/datasets/grandhigh/Espeak-ID-5K)
-License: [MIT](https://choosealicense.com/licenses/mit/)

 ---
+license: apache-2.0
 datasets:
+- grandhigh/SuaraGabungan-ID
 base_model:
 - ResembleAI/chatterbox
 pipeline_tag: text-to-speech
 - voice-cloning
 - zero-shot
 ---
+# Chatterbox-TTS-Indonesian
+Model **Chatterbox-TTS-Indonesian** adalah model Text-to-Speech (TTS) yang dilatih ulang (fine-tuned) menggunakan arsitektur Chatterbox-TTS. Model ini dirancang khusus untuk menghasilkan suara Bahasa Indonesia yang alami dan berkualitas tinggi dari teks.
+Model ini sangat ideal untuk berbagai aplikasi, seperti:
+  * Membaca artikel atau berita secara otomatis.
+  * Asisten suara atau bot interaktif.
+  * Pembuatan konten audio.
+-----
+### Dataset Pelatihan
+Model ini dilatih ulang menggunakan dataset **SuaraGabungan-ID** yang kami kumpulkan. Dataset ini merupakan kompilasi dari beberapa sumber publik yang berbeda, yang dilisensikan secara permisif:
+  * **Espeak-ID-5K** (Lisensi MIT)
+  * **FLEURS** (dibuat oleh Google, Lisensi CC BY 4.0)
+  * **ind\_famal** (Lisensi Apache 2.0)
+Untuk detail lisensi dan atribusi lengkap dari dataset, silakan kunjungi repositori [SuaraGabungan-ID](https://huggingface.co/datasets/grandhigh/SuaraGabungan-ID).
+-----
+### Tutorial Penggunaan
+Anda memerlukan **Python 3.11** atau versi yang lebih baru dan GPU yang mendukung **CUDA** untuk kinerja optimal.
+#### 1\. Instalasi
+Mulailah dengan menginstal semua pustaka yang diperlukan.
+```bash
+!pip install chatterbox-tts
+!pip install -U ml_dtypes
+```
+Jika Anda kesulitan menginstal pustaka pada versi yang lebih baru, gunakan kode berikut.
+```bash
+!pip install chatterbox-tts==0.1.1
+!pip install -U ml_dtypes
+!pip install transformers==4.44.2 peft==0.11.1
+```
+#### 2\. Inisialisasi Model & Unduh Checkpoint
+Selanjutnya, unduh checkpoint model dan muat ke dalam model Chatterbox-TTS.
 ```python
 import torch
+from IPython.display import Audio, display
 from chatterbox.tts import ChatterboxTTS
 from huggingface_hub import hf_hub_download
 from safetensors.torch import load_file
+# Definisikan repo dan nama file checkpoint
 MODEL_REPO = "grandhigh/Chatterbox-TTS-Indonesian"
 CHECKPOINT_FILENAME = "t3_cfg.safetensors"
+# Inisialisasi model di perangkat CUDA
 model = ChatterboxTTS.from_pretrained(device="cuda")
+# Unduh checkpoint dari Hugging Face Hub
 checkpoint_path = hf_hub_download(repo_id=MODEL_REPO, filename=CHECKPOINT_FILENAME)
 t3_state = load_file(checkpoint_path, device="cpu")
+# Muat state_dict ke dalam model
 model.t3.load_state_dict(t3_state)
+# Kosongkan cache GPU
+torch.cuda.empty_cache()
+```
+#### 3\. Sintesis Suara (Teks-ke-Suara)
+Gunakan metode `model.generate()` untuk mengubah teks menjadi audio.
+```python
+TEXT_TO_SYNTHESIZE = "Bahwa sesungguhnya kemerdekaan itu ialah hak segala bangsa dan oleh sebab itu, maka penjajahan di atas dunia harus dihapuskan, karena tidak sesuai dengan perikemanusiaan dan perikeadilan."
+# Hasilkan audio
+wav_audio = model.generate(TEXT_TO_SYNTHESIZE)
+# Tampilkan audio di notebook
 display(Audio(wav_audio.numpy(), rate=model.sr))
 ```
+<audio controls src="https://huggingface.co/grandhigh/Chatterbox-TTS-Indonesian/resolve/main/example1.wav">Your browser does not support audio.</audio>
+#### 4\. Sintesis Suara dengan Audio Prompt (Voice Cloning)
+Anda juga dapat menggunakan audio prompt untuk mempersonalisasi suara hasil sintesis. Model ini akan mencoba meniru gaya, nada, dan timbre dari suara pada file audio yang Anda berikan.
+**Catatan:** Pastikan Anda memiliki file audio (`input.wav`) yang tersedia di lokasi yang ditentukan. Anda juga dapat menggunakan file dari URL.
+```python
+# Ganti dengan path ke file audio prompt Anda
+audio_prompt_path = '/content/input.wav'
+# Hasilkan audio dengan prompt dan spesifikkan bahasa
+wav_audio_clone = model.generate(
+    TEXT_TO_SYNTHESIZE,
+    audio_prompt_path=audio_prompt_path
+)
+# Tampilkan audio di notebook
+display(Audio(wav_audio_clone.numpy(), rate=model.sr))
+```
+<audio controls src="https://huggingface.co/grandhigh/Chatterbox-TTS-Indonesian/resolve/main/example2.wav">Your browser does not support audio.</audio>
+-----
+### Demo Interaktif (Jupyter Notebook)
+Anda dapat mencoba model ini secara interaktif menggunakan Jupyter Notebook yang tersedia di repositori ini. Notebook ini akan memandu Anda dari instalasi hingga menghasilkan suara TTS.
+**[Buka di Google Colab](https://colab.research.google.com/#fileId=https://huggingface.co/grandhigh/Chatterbox-TTS-Indonesian/blob/main/demo.ipynb)**
+-----
+### Lisensi
+Model ini dilisensikan di bawah **Lisensi Apache 2.0**. Lisensi ini memungkinkan penggunaan, modifikasi, dan distribusi model secara bebas, baik untuk tujuan non-komersial maupun komersial, dengan kewajiban untuk menyertakan pemberitahuan lisensi dan atribusi yang sesuai.
+-----
+### Sitasi
+Jika Anda menggunakan model ini dalam publikasi ilmiah atau proyek riset, harap sitasi model dasar dan dataset yang digunakan untuk pelatihannya.
+#### Model Dasar (Chatterbox-TTS)
+```
+@misc{chatterboxtts2025,
+  author       = {{Resemble AI}},
+  title        = {{Chatterbox-TTS}},
+  year         = {2025},
+  howpublished = {\url{https://github.com/resemble-ai/chatterbox}},
+  note         = {GitHub repository}
+}
+```
+#### Dataset (FLEURS)
+```
+@article{fleurs2022arxiv,
+  title = {FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech},
+  author = {Conneau, Alexis and Ma, Min and Khanuja, Simran and Zhang, Yu and Axelrod, Vera and Dalmia, Siddharth and Riesa, Jason and Rivera, Clara and Bapna, Ankur},
+  journal={arXiv preprint arXiv:2205.12446},
+  url = {https://arxiv.org/abs/2205.12446},
+  year = {2022},
+}
+```