Text-to-Speech
Chatterbox
Bengali
tts
bengali
bangla
fine-tuned
zero-shot-tts
speech
speech-synthesis
Instructions to use BosonLab/chatterbox-bangla with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Chatterbox
How to use BosonLab/chatterbox-bangla with Chatterbox:
# pip install chatterbox-tts import torchaudio as ta from chatterbox.tts import ChatterboxTTS model = ChatterboxTTS.from_pretrained(device="cuda") text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill." wav = model.generate(text) ta.save("test-1.wav", wav, model.sr) # If you want to synthesize with a different voice, specify the audio prompt AUDIO_PROMPT_PATH="YOUR_FILE.wav" wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH) ta.save("test-2.wav", wav, model.sr) - Notebooks
- Google Colab
- Kaggle
Upload README.md with huggingface_hub
Browse files
README.md
CHANGED
|
@@ -28,13 +28,13 @@ A fine-tuned version of [ResembleAI/chatterbox](https://huggingface.co/ResembleA
|
|
| 28 |
|
| 29 |
| Original| Output| Text|
|
| 30 |
|--|--|--|
|
| 31 |
-
|<audio controls src="https://huggingface.co/
|
| 32 |
-
|<audio controls src="https://huggingface.co/
|
| 33 |
-
|<audio controls src="https://huggingface.co/
|
| 34 |
-
|<audio controls src="https://huggingface.co/
|
| 35 |
-
|<audio controls src="https://huggingface.co/
|
| 36 |
-
|<audio controls src="https://huggingface.co/
|
| 37 |
-
|<audio controls src="https://huggingface.co/
|
| 38 |
|
| 39 |
|
| 40 |
## Model Details
|
|
@@ -57,6 +57,27 @@ cd chatterbox-finetuning
|
|
| 57 |
pip install -r requirements.txt
|
| 58 |
```
|
| 59 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 60 |
## Usage
|
| 61 |
|
| 62 |
```python
|
|
@@ -67,7 +88,7 @@ from huggingface_hub import snapshot_download
|
|
| 67 |
from src.chatterbox_.tts import ChatterboxTTS
|
| 68 |
import torchaudio
|
| 69 |
|
| 70 |
-
model_dir = snapshot_download("
|
| 71 |
model = ChatterboxTTS.from_local(model_dir, device="cuda")
|
| 72 |
|
| 73 |
text = "আমি বাংলায় কথা বলতে পারি। এটি একটি পরীক্ষামূলক বাক্য।"
|
|
@@ -102,4 +123,4 @@ Datasets sourced from AI4Bharat and SPRINGLab public datasets.
|
|
| 102 |
- Optimized for Bengali; other languages may degrade
|
| 103 |
- Best results with clear, well-punctuated Bengali text
|
| 104 |
- Emotion control inherited from base ChatterBox multilingual model
|
| 105 |
-
- Requires chatterbox-finetuning kit due to extended Bengali vocabulary
|
|
|
|
| 28 |
|
| 29 |
| Original| Output| Text|
|
| 30 |
|--|--|--|
|
| 31 |
+
|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/001.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/001.wav" style="width: 100px;"></audio>|এই শোন শোন, আজকে স্কুলে কী হয়েছে জানিস? — না তুই জানিস না, তুই তো ছিলিসই না! তো দীপু স্যারের ক্লাসে — আরে দীপু স্যার মানে অঙ্কের স্যার, চেনিস না? যার নাক দিয়ে শোঁ শোঁ শব্দ হয়! তো স্যার বোর্ডে লিখছেন, আর পিছন থেকে রাহুল|
|
| 32 |
+
|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/002.mp3" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/002.wav" style="width: 100px;"></audio>|আচ্ছা আমি তোকে একটা জিনিস বলব — আরে থাম থাম, আগে ফোনটা রাখ! হ্যাঁ তো, তো সেদিন আমি বাজার থেকে ফিরছিলাম — না না, এটা সেই বাজার না, ওই যে নতুন যেটা খুলেছে|
|
| 33 |
+
|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/003.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/003.wav" style="width: 100px;"></audio>|শোন, Morty ফুচকার মধ্যে যে আলু থাকে, সেই আলু একসময় মাটির নিচে অন্ধকারে বড় হয়েছে। কোনো আশা নেই, কোনো স্বপ্ন নেই, শুধু মাটি আর অন্ধকার। আর তারপরেও সে টিকে থেকেছে। তুই সেই আলুর চেয়েও কম resilient, এইটা বুঝলি?|
|
| 34 |
+
|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/004.webm" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/004.wav" style="width: 100px;"></audio>|আমরা কেউ মাষ্টার হতে চেয়েছিলাম, কেউ ডাক্তার, কেউ উকিল। অমলকান্তি সে-সব কিছু হতে চায়নি। সে রোদ্দুর হতে চেয়েছিল! ক্ষান্তবর্ষণ কাক-ডাকা বিকেলের সেই লাজুক রোদ্দুর, জাম আর জামরুলের পাতায় যা নাকি অল্প-একটু হাসির মতন লেগে থাকে।|
|
| 35 |
+
|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/005.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/005.wav" style="width: 100px;"></audio>|শুরু থেকেই ঝড়ো ব্যাটিং উপহার দেন ভারতের ক্রিকেটারেরা। ওপেনার অভিষেক শর্মা এবং ইশান কিশান দুজনেই আলাদা ধাঁচের দুটি অর্ধশতক করেন, আর তাদের রান করার গতি ছিল অত্যন্ত fast.|
|
| 36 |
+
|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/006.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/006.wav" style="width: 100px;"></audio>|শুরু থেকেই ঝড়ো ব্যাটিং উপহার দেন ভারতের ক্রিকেটারেরা। ওপেনার অভিষেক শর্মা এবং ইশান কিশান দুজনেই আলাদা ধাঁচের দুটি অর্ধশতক করেন, আর তাদের রান করার গতি ছিল অত্যন্ত fast.|
|
| 37 |
+
|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/007.webm" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/007.wav" style="width: 100px;"></audio>|আমরা কেউ মাষ্টার হতে চেয়েছিলাম, কেউ ডাক্তার, কেউ উকিল। অমলকান্তি সে-সব কিছু হতে চায়নি। সে রোদ্দুর হতে চেয়েছিল! ক্ষান্তবর্ষণ কাক-ডাকা বিকেলের সেই লাজুক রোদ্দুর, জাম আর জামরুলের পাতায় যা নাকি অল্প-একটু হাসির মতন লেগে থাকে।|
|
| 38 |
|
| 39 |
|
| 40 |
## Model Details
|
|
|
|
| 57 |
pip install -r requirements.txt
|
| 58 |
```
|
| 59 |
|
| 60 |
+
### One-time patch (upstream vocab resize fix)
|
| 61 |
+
|
| 62 |
+
The upstream `chatterbox-finetuning` repo initialises T3 with a hard-coded 704-token vocabulary, which causes a size mismatch when loading this model (vocab=2530). Apply this one-line fix before running inference:
|
| 63 |
+
|
| 64 |
+
```bash
|
| 65 |
+
# Run from inside the cloned chatterbox-finetuning directory
|
| 66 |
+
python - <<'EOF'
|
| 67 |
+
import pathlib
|
| 68 |
+
f = pathlib.Path("src/chatterbox_/tts.py")
|
| 69 |
+
txt = f.read_text()
|
| 70 |
+
old = " t3 = T3()\n t3_state = load_file(ckpt_dir / \"t3_cfg.safetensors\")"
|
| 71 |
+
new = (
|
| 72 |
+
" t3_state = load_file(ckpt_dir / \"t3_cfg.safetensors\")\n"
|
| 73 |
+
" from .models.t3.modules.t3_config import T3Config\n"
|
| 74 |
+
" t3 = T3(hp=T3Config(text_tokens_dict_size=t3_state[\"text_emb.weight\"].shape[0]))"
|
| 75 |
+
)
|
| 76 |
+
f.write_text(txt.replace(old, new))
|
| 77 |
+
print("Patched tts.py")
|
| 78 |
+
EOF
|
| 79 |
+
```
|
| 80 |
+
|
| 81 |
## Usage
|
| 82 |
|
| 83 |
```python
|
|
|
|
| 88 |
from src.chatterbox_.tts import ChatterboxTTS
|
| 89 |
import torchaudio
|
| 90 |
|
| 91 |
+
model_dir = snapshot_download("BosonLab/chatterbox-bangla")
|
| 92 |
model = ChatterboxTTS.from_local(model_dir, device="cuda")
|
| 93 |
|
| 94 |
text = "আমি বাংলায় কথা বলতে পারি। এটি একটি পরীক্ষামূলক বাক্য।"
|
|
|
|
| 123 |
- Optimized for Bengali; other languages may degrade
|
| 124 |
- Best results with clear, well-punctuated Bengali text
|
| 125 |
- Emotion control inherited from base ChatterBox multilingual model
|
| 126 |
+
- Requires chatterbox-finetuning kit due to extended Bengali vocabulary
|