BosonLab
/

chatterbox-bangla

@@ -18,7 +18,7 @@ A fine-tuned version of [ResembleAI/chatterbox](https://huggingface.co/ResembleA
 ## Model Details
-- **Base model**: ResembleAI/chatterbox (0.5B Llama-based TTS)
 - **Fine-tuned on**: Bengali speech corpus (~99 hours, 58,820 samples)
   - ai4bharat/Shrutilipi (Bengali split) — 17,882 samples, ~28h
   - ai4bharat/Rasa (Bengali split) — 28,088 samples, ~51h
@@ -30,15 +30,16 @@ A fine-tuned version of [ResembleAI/chatterbox](https://huggingface.co/ResembleA
 ## Usage
 ```python
-import torch
 from chatterbox.tts import ChatterboxTTS
-model = ChatterboxTTS.from_pretrained("arijitx/chatterbox-bangla", device="cuda")
 text = "আমি বাংলায় কথা বলতে পারি। এটি একটি পরীক্ষামূলক বাক্য।"
 wav = model.generate(text)
-import torchaudio
 torchaudio.save("output.wav", wav, model.sr)
 ```
@@ -67,4 +68,4 @@ Datasets sourced from AI4Bharat and SPRINGLab public datasets.
 - Optimized for Bengali; other languages may degrade
 - Best results with clear, well-punctuated Bengali text
-- Emotion control inherited from base ChatterBox model

 ## Model Details
+- **Base model**: ResembleAI/chatterbox — multilingual ChatterBox (supports 23 languages)
 - **Fine-tuned on**: Bengali speech corpus (~99 hours, 58,820 samples)
   - ai4bharat/Shrutilipi (Bengali split) — 17,882 samples, ~28h
   - ai4bharat/Rasa (Bengali split) — 28,088 samples, ~51h
 ## Usage
 ```python
+from huggingface_hub import snapshot_download
 from chatterbox.tts import ChatterboxTTS
+import torchaudio
+model_dir = snapshot_download("arijitx/chatterbox-bangla")
+model = ChatterboxTTS.from_local(model_dir, device="cuda")
 text = "আমি বাংলায় কথা বলতে পারি। এটি একটি পরীক্ষামূলক বাক্য।"
 wav = model.generate(text)
 torchaudio.save("output.wav", wav, model.sr)
 ```
 - Optimized for Bengali; other languages may degrade
 - Best results with clear, well-punctuated Bengali text
+- Emotion control inherited from base ChatterBox multilingual model