arijitx commited on
Commit
025a56f
·
verified ·
1 Parent(s): 0517c26

Upload README.md with huggingface_hub

Browse files
Files changed (1) hide show
  1. README.md +30 -9
README.md CHANGED
@@ -28,13 +28,13 @@ A fine-tuned version of [ResembleAI/chatterbox](https://huggingface.co/ResembleA
28
 
29
  | Original| Output| Text|
30
  |--|--|--|
31
- |<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/refs/001.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/output/001.wav" style="width: 100px;"></audio>|এই শোন শোন, আজকে স্কুলে কী হয়েছে জানিস? — না তুই জানিস না, তুই তো ছিলিসই না! তো দীপু স্যারের ক্লাসে — আরে দীপু স্যার মানে অঙ্কের স্যার, চেনিস না? যার নাক দিয়ে শোঁ শোঁ শব্দ হয়! তো স্যার বোর্ডে লিখছেন, আর পিছন থেকে রাহুল|
32
- |<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/refs/002.mp3" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/output/002.wav" style="width: 100px;"></audio>|আচ্ছা আমি তোকে একটা জিনিস বলব — আরে থাম থাম, আগে ফোনটা রাখ! হ্যাঁ তো, তো সেদিন আমি বাজার থেকে ফিরছিলাম — না না, এটা সেই বাজার না, ওই যে নতুন যেটা খুলেছে|
33
- |<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/refs/003.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/output/003.wav" style="width: 100px;"></audio>|শোন, Morty ফুচকার মধ্যে যে আলু থাকে, সেই আলু একসময় মাটির নিচে অন্ধকারে বড় হয়েছে। কোনো আশা নেই, কোনো স্বপ্ন নেই, শুধু মাটি আর অন্ধকার। আর তারপরেও সে টিকে থেকেছে। তুই সেই আলুর চেয়েও কম resilient, এইটা বুঝলি?|
34
- |<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/refs/004.webm" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/output/004.wav" style="width: 100px;"></audio>|আমরা কেউ মাষ্টার হতে চেয়েছিলাম, কেউ ডাক্তার, কেউ উকিল। অমলকান্তি সে-সব কিছু হতে চায়নি। সে রোদ্দুর হতে চেয়েছিল! ক্ষান্তবর্ষণ কাক-ডাকা বিকেলের সেই লাজুক রোদ্দুর, জাম আর জামরুলের পাতায় যা নাকি অল্প-একটু হাসির মতন লেগে থাকে।|
35
- |<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/refs/005.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/output/005.wav" style="width: 100px;"></audio>|শুরু থেকেই ঝো ব্যাটিং উপহার দেন ভারতের ক্রিকেটারেরা। ওপেনার অভিষেক শর্মা এবং ইশান কিশান দুজনেই আলাদা ধাঁচের দুটি অর্ধশতক করেন, আর তাদের রান করার গতি ছিল অত্যন্ত fast.|
36
- |<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/refs/006.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/output/006.wav" style="width: 100px;"></audio>|শুরু থেকেই ঝো ব্যাটিং উপহার দেন ভারতের ক্রিকেটারেরা। ওপেনার অভিষেক শর্মা এবং ইশান কিশান দুজনেই আলাদা ধাঁচের দুটি অর্ধশতক করেন, আর তাদের রান করার গতি ছিল অত্যন্ত fast.|
37
- |<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/refs/007.webm" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/arijitx/chatterbox-bangla/resolve/main/audios/output/007.wav" style="width: 100px;"></audio>|আমরা কেউ মাষ্টার হতে চেয়েছিলাম, কেউ ডাক্তার, কেউ ��কিল। অমলকান্তি সে-সব কিছু হতে চায়নি। সে রোদ্দুর হতে চেয়েছিল! ক্ষান্তবর্ষণ কাক-ডাকা বিকেলের সেই লাজুক রোদ্দুর, জাম আর জামরুলের পাতায় যা নাকি অল্প-একটু হাসির মতন লেগে থাকে।|
38
 
39
 
40
  ## Model Details
@@ -57,6 +57,27 @@ cd chatterbox-finetuning
57
  pip install -r requirements.txt
58
  ```
59
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
60
  ## Usage
61
 
62
  ```python
@@ -67,7 +88,7 @@ from huggingface_hub import snapshot_download
67
  from src.chatterbox_.tts import ChatterboxTTS
68
  import torchaudio
69
 
70
- model_dir = snapshot_download("arijitx/chatterbox-bangla")
71
  model = ChatterboxTTS.from_local(model_dir, device="cuda")
72
 
73
  text = "আমি বাংলায় কথা বলতে পারি। এটি একটি পরীক্ষামূলক বাক্য।"
@@ -102,4 +123,4 @@ Datasets sourced from AI4Bharat and SPRINGLab public datasets.
102
  - Optimized for Bengali; other languages may degrade
103
  - Best results with clear, well-punctuated Bengali text
104
  - Emotion control inherited from base ChatterBox multilingual model
105
- - Requires chatterbox-finetuning kit due to extended Bengali vocabulary
 
28
 
29
  | Original| Output| Text|
30
  |--|--|--|
31
+ |<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/001.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/001.wav" style="width: 100px;"></audio>|এই শোন শোন, আজকে স্কুলে কী হয়েছে জানিস? — না তুই জানিস না, তুই তো ছিলিসই না! তো দীপু স্যারের ক্লাসে — আরে দীপু স্যার মানে অঙ্কের স্যার, চেনিস না? যার নাক দিয়ে শোঁ শোঁ শব্দ হয়! তো স্যার বোর্ডে লিখছেন, আর পিছন থেকে রাহুল|
32
+ |<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/002.mp3" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/002.wav" style="width: 100px;"></audio>|আচ্ছা আমি তোকে একটা জিনিস বলব — আরে থাম থাম, আগে ফোনটা রাখ! হ্যাঁ তো, তো সেদিন আমি বাজার থেকে ফিরছিলাম — না না, এটা সেই বাজার না, ওই যে নতুন যেটা খুলেছে|
33
+ |<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/003.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/003.wav" style="width: 100px;"></audio>|শোন, Morty ফুচকার মধ্যে যে আলু থাকে, সেই আলু একসময় মাটির নিচে অন্ধকারে বড় হয়েছে। কোনো আশা নেই, কোনো স্বপ্ন নেই, শুধু মাটি আর অন্ধকার। আর তারপরেও সে টিকে থেকেছে। তুই সেই আলুর চেয়েও কম resilient, এইটা বুঝলি?|
34
+ |<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/004.webm" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/004.wav" style="width: 100px;"></audio>|আমরা কেউ মাষ্টার হতে চেয়েছিলাম, কেউ ডাক্তার, কেউ উকিল। অমলকান্তি সে-সব কিছু হতে চায়নি। সে রোদ্দুর হতে চেয়েছিল! ক্ষান্তবর্ষণ কাক-ডাকা বিকেলের সেই লাজুক রোদ্দুর, জাম আর জামরুলের পাতায় যা নাকি অল্প-একটু হাসির মতন লেগে থাকে।|
35
+ |<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/005.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/005.wav" style="width: 100px;"></audio>|শুরু থেকেই ঝড়ো ব্যাটিং উপহার দেন ভারতের ক্রিকেটারেরা। ওপেনার অভিষেক শর্মা এবং ইশান কিশান দুজনেই আলাদা ধাঁচের দুটি অর্ধশতক করেন, আর তাদের রান করার গতি ছিল অত্যন্ত fast.|
36
+ |<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/006.wav" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/006.wav" style="width: 100px;"></audio>|শুরু থেকেই ঝড়ো ব্যাটিং উপহার দেন ভারতের ক্রিকেটারেরা। ওপেনার অভিষেক শর্মা এবং ইশান কিশান দুজনেই আলাদা ধাঁচের দুটি অর্ধশতক করেন, আর তাদের রান করার গতি ছিল অত্যন্ত fast.|
37
+ |<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/refs/007.webm" style="width: 100px;"></audio>|<audio controls src="https://huggingface.co/BosonLab/chatterbox-bangla/resolve/main/audios/output/007.wav" style="width: 100px;"></audio>|আমরা কেউ মাষ্টার হতে চেয়েছিলাম, কেউ ডাক্তার, কেউ কিল। অমলকান্তি সে-সব কিছু হতে চায়নি। সে রোদ্দুর হতে চেয়েছিল! ক্ষান্তবর্ষণ কাক-ডাকা বিকেলের সেই লাজুক রোদ্দুর, জাম আর জামরুলের পাতায় যা নাকি অল্প-একটু হাসির মতন লেগে থাকে।|
38
 
39
 
40
  ## Model Details
 
57
  pip install -r requirements.txt
58
  ```
59
 
60
+ ### One-time patch (upstream vocab resize fix)
61
+
62
+ The upstream `chatterbox-finetuning` repo initialises T3 with a hard-coded 704-token vocabulary, which causes a size mismatch when loading this model (vocab=2530). Apply this one-line fix before running inference:
63
+
64
+ ```bash
65
+ # Run from inside the cloned chatterbox-finetuning directory
66
+ python - <<'EOF'
67
+ import pathlib
68
+ f = pathlib.Path("src/chatterbox_/tts.py")
69
+ txt = f.read_text()
70
+ old = " t3 = T3()\n t3_state = load_file(ckpt_dir / \"t3_cfg.safetensors\")"
71
+ new = (
72
+ " t3_state = load_file(ckpt_dir / \"t3_cfg.safetensors\")\n"
73
+ " from .models.t3.modules.t3_config import T3Config\n"
74
+ " t3 = T3(hp=T3Config(text_tokens_dict_size=t3_state[\"text_emb.weight\"].shape[0]))"
75
+ )
76
+ f.write_text(txt.replace(old, new))
77
+ print("Patched tts.py")
78
+ EOF
79
+ ```
80
+
81
  ## Usage
82
 
83
  ```python
 
88
  from src.chatterbox_.tts import ChatterboxTTS
89
  import torchaudio
90
 
91
+ model_dir = snapshot_download("BosonLab/chatterbox-bangla")
92
  model = ChatterboxTTS.from_local(model_dir, device="cuda")
93
 
94
  text = "আমি বাংলায় কথা বলতে পারি। এটি একটি পরীক্ষামূলক বাক্য।"
 
123
  - Optimized for Bengali; other languages may degrade
124
  - Best results with clear, well-punctuated Bengali text
125
  - Emotion control inherited from base ChatterBox multilingual model
126
+ - Requires chatterbox-finetuning kit due to extended Bengali vocabulary