niobures commited on
Commit
4307b71
·
verified ·
1 Parent(s): 9acac16

Update NOTES.txt

Browse files
Files changed (1) hide show
  1. NOTES.txt +63 -29
NOTES.txt CHANGED
@@ -1,29 +1,63 @@
1
- ============================ [EN: chatterbox (ResembleAI)] ============================
2
-
3
- https://huggingface.co/ResembleAI/chatterbox/discussions/44#690cb61310b31733a0aa0367
4
-
5
- 06.11.2025 @skypanda64
6
-
7
- {orig} I've been using chatterbox offline via TTS-webui for some time now and wanted to share a few thoughts and observations from a non-technical user's perspective. First off, chatterbox is amazing. It blows similar competition out of the water in terms of cost/performance and is far and away the most human sounding TTS model I've tried offline.
8
-
9
- Multilingual is of particular interest to me as I've been experimenting with the combination of chatterbox with a text-generation LLM front end as an assistant and multilingual conversation/education partner. In short, multilingual is a pretty amazing feature and I think the potential for practical applications is off the charts.
10
-
11
- A few initial observations having tried both v1 and v2 multilingual models. English feels like it took a big leap forward from old to new, and I can't see myself using another model given how strong chatterbox is right now.
12
-
13
- Other languages are more interesting - among which I've tested Chinese, Japanese, and Korean more extensively. These all seem to have taken a step back in their "native language" in exchange for being able to speak really good English now too. I think it's especially noticeable with these non-latin languages which in V1 would either speak extremely accented English or start to output gibberish. Now they can speak English with the barest hint of an accent (like literally 10-15% on my subjective scale of obviousness) - all in the same generation instance with text in the other language as well. The cost in single language accuracy pops up when the model starts to mispronounce words that v1 could read well, especially when generating less common vocabulary in Chinese and Japanese. I'm guessing this was probably an intentional choice/trade-off and a stepping stone towards true seamless multilingual TTS.
14
-
15
- In terms of cadence, latin languages seem to speak with a super natural intonation across the board - I tried English, Italian, and French. Whereas Chinese, Japanese, and Korean tend to speak super fast with the same expressiveness and weight settings (0.7 & 0.3 or 0.5 & 0.5 as recommended) and as a result sound less natural compared to V1.
16
-
17
- I've also found it interesting playing around with different voice samples and finding that similar quality clips can yield drastically different results that don't seem super tied to sample quality. Some cloned voices sound uncannily real, while others will be more robotic. I've tried cutting sections from the same audiobook and results are variable - especially with accents. It's a fun game of roulette sometimes to see if a sample of the same voice will come out with the right accent or morph into another. It's hilarious cause the tone and timbre of the voice will still be identical. Either way this is super cool tech.
18
-
19
- {ru} Я уже некоторое время пользуюсь Chatterbox офлайн через TTS WebUI и хотел бы поделиться несколькими мыслями и наблюдениями с точки зрения не-технаря. Прежде всего, Chatterbox просто потрясающий. Он превосходит конкурентов по соотношению цена/производительность и безусловно является самой человекоподобно звучащей TTS моделью, которую я когда-либо пробовал в офлайн-режиме.
20
-
21
- Многоязычность особенно интересна мне, поскольку я экспериментировал с сочетанием Chatterbox с генерацией текста в качестве помощника и многоязычного собеседника/партнера для общения/обучения. Короче говоря, многоязычность - это просто потрясающая функция, и я думаю, что её потенциал для практического применения просто зашкаливает.
22
-
23
- Несколько первых наблюдений после использования многоязычных моделей v1 и v2. Английский язык, похоже, совершил большой скачок от старого к новому, и я не вижу смысла использовать другую модель, учитывая, насколько сильны сейчас возможности Chatterbox.
24
-
25
- Другие языки интереснее, среди них я более подробно протестировал китайский, японский и корейский. Похоже, все они сделали шаг назад в своём «родном языке» в обмен на возможность ��оворить по-настоящему хорошо по-английски. Думаю, это особенно заметно на примере нелатинских языков, которые в V1 либо говорили бы на сильно акцентированном английском, либо начинали бы выдавать какую-то тарабарщину. Теперь же они могут говорить по-английски с едва заметным намёком на акцент (буквально 10-15% по моей субъективной шкале очевидности) - всё это в одном экземпляре генерации с текстом на другом языке. Цена точности распознавания одного языка становится очевидной, когда модель начинает неправильно произносить слова, которые v1 могла бы хорошо прочитать, особенно при генерации менее распространённой лексики в китайском и японском языках. Полагаю, это был, вероятно, намеренный выбор/компромисс и ступенька к настоящему бесшовному многоязычному синтезу речи.
26
-
27
- Что касается каденции, латинские языки, похоже, произносятся с очень естественной интонацией по всем направлениям - я пробовал английский, итальянский и французский. В то время как китайцы, японцы и корейцы как правило говорят очень быстро с одинаковыми настройками выразительности и веса (0.7 & 0.3 или 0.5 & 0.5, как рекомендуется), и в результате звучат менее естественно по сравнению с V1.
28
-
29
- Мне также было интересно экспериментировать с разными образцами голоса и обнаружить, что клипы одинакового качества могут давать совершенно разные результаты, которые, похоже, не слишком привязаны к качеству образца. Некоторые клонированные голоса звучат невероятно реалистично, в то время как другие выглядят более роботизированными. Я пробовал вырезать фрагменты из одной и той же аудиокниги, и результаты различаются, особенно с акцентами. Иногда это забавная игра в рулетку: посмотреть, получится ли сэмпл одного и того же голоса с правильным акцентом или он трансформируется в другой. Это забавно, потому что тон и тембр голоса останутся идентичными. В любом случае, это очень крутая технология.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ============================ [EN: chatterbox (ResembleAI)] ============================
2
+
3
+ https://huggingface.co/ResembleAI/chatterbox/discussions/44#690cb61310b31733a0aa0367
4
+
5
+ 06.11.2025 @skypanda64
6
+
7
+ {orig} I've been using chatterbox offline via TTS-webui for some time now and wanted to share a few thoughts and observations
8
+ from a non-technical user's perspective. First off, chatterbox is amazing. It blows similar competition out of the water in terms
9
+ of cost/performance and is far and away the most human sounding TTS model I've tried offline.
10
+
11
+ Multilingual is of particular interest to me as I've been experimenting with the combination of chatterbox with a text-generation
12
+ LLM front end as an assistant and multilingual conversation/education partner. In short, multilingual is a pretty amazing feature and
13
+ I think the potential for practical applications is off the charts.
14
+
15
+ A few initial observations having tried both v1 and v2 multilingual models. English feels like it took a big leap forward from old to new,
16
+ and I can't see myself using another model given how strong chatterbox is right now.
17
+
18
+ Other languages are more interesting - among which I've tested Chinese, Japanese, and Korean more extensively. These all seem to have taken
19
+ a step back in their "native language" in exchange for being able to speak really good English now too. I think it's especially noticeable
20
+ with these non-latin languages which in V1 would either speak extremely accented English or start to output gibberish. Now they can speak
21
+ English with the barest hint of an accent (like literally 10-15% on my subjective scale of obviousness) - all in the same generation instance
22
+ with text in the other language as well. The cost in single language accuracy pops up when the model starts to mispronounce words that v1
23
+ could read well, especially when generating less common vocabulary in Chinese and Japanese. I'm guessing this was probably an intentional
24
+ choice/trade-off and a stepping stone towards true seamless multilingual TTS.
25
+
26
+ In terms of cadence, latin languages seem to speak with a super natural intonation across the board - I tried English, Italian,
27
+ and French. Whereas Chinese, Japanese, and Korean tend to speak super fast with the same expressiveness and weight settings (0.7 & 0.3 or
28
+ 0.5 & 0.5 as recommended) and as a result sound less natural compared to V1.
29
+
30
+ I've also found it interesting playing around with different voice samples and finding that similar quality clips can yield drastically
31
+ different results that don't seem super tied to sample quality. Some cloned voices sound uncannily real, while others will be more robotic.
32
+ I've tried cutting sections from the same audiobook and results are variable - especially with accents. It's a fun game of roulette sometimes
33
+ to see if a sample of the same voice will come out with the right accent or morph into another. It's hilarious cause the tone and timbre
34
+ of the voice will still be identical. Either way this is super cool tech.
35
+
36
+ {ru} Я уже некоторое время пользуюсь Chatterbox офлайн через TTS WebUI и хотел бы поделиться несколькими мыслями и наблюдениями
37
+ с точки зрения не-технаря. Прежде всего, Chatterbox просто потрясающий. Он превосходит конкурентов по соотношению цена/производительность
38
+ и безусловно является самой человекоподобно звучащей TTS моделью, которую я когда-либо пробовал в офлайн-режиме.
39
+
40
+ Многоязычность особенно интересна мне, поскольку я экспериментировал с сочетанием Chatterbox с генерацией текста в качестве помощника и
41
+ многоязычного собеседника/партнера для общения/обучения. Короче говоря, многоязычность - это просто потрясающая функция, и я думаю,
42
+ что её потенциал для практического применения просто зашкаливает.
43
+
44
+ Несколько первых наблюдений после использования многоязычных моделей v1 и v2. Английский язык, похоже, совершил большой скачок от старого
45
+ к новому, и я не вижу смысла использовать другую модель, учитывая, насколько сильны сейчас возможности Chatterbox.
46
+
47
+ Другие языки интереснее, среди них я более подробно протестировал китайский, японский и корейский. Похоже, все они сделали шаг назад
48
+ в своём «родном языке» в обмен на возможность говорить по-настоящему хорошо по-английски. Думаю, это особенно заметно на примере нелатинских
49
+ языков, которые в V1 либо говорили бы на сильно акцентированном английском, либо начинали бы выдавать какую-то тарабарщину. Теперь же они могут
50
+ говорить по-английски с едва заметным намёком на акцент (буквально 10-15% по моей субъективной шкале очевидности) - всё это в одном экземпляре
51
+ генерации с текстом на другом языке. Цена точности распознавания одного языка становится очевидной, когда модель начинает неправильно
52
+ произносить слова, которые v1 могла бы хорошо прочитать, особенно при генерации менее распространённой лексики в китайском и японском языках.
53
+ Полагаю, это был, вероятно, намеренный выбор/компромисс и ступенька к настоящему бесшовному многоязычному синтезу речи.
54
+
55
+ Что касается каденции, латинские языки, похоже, произносятся с очень естественной интонацией по всем направлениям - я пробовал английский,
56
+ итал��янский и французский. В то время как китайцы, японцы и корейцы как правило говорят очень быстро с одинаковыми настройками выразительности
57
+ и веса (0.7 & 0.3 или 0.5 & 0.5, как рекомендуется), и в результате звучат менее естественно по сравнению с V1.
58
+
59
+ Мне также было интересно экспериментировать с разными образцами голоса и обнаружить, что клипы одинакового качества могут давать совершенно
60
+ разные результаты, которые, похоже, не слишком привязаны к качеству образца. Некоторые клонированные голоса звучат невероятно реалистично,
61
+ в то время как другие выглядят более роботизированными. Я пробовал вырезать фрагменты из одной и той же аудиокниги, и результаты различаются,
62
+ особенно с акцентами. Иногда это забавная игра в рулетку: посмотреть, получится ли сэмпл одного и того же голоса с правильным акцентом или он
63
+ трансформируется в другой. Это забавно, потому что тон и тембр голоса останутся идентичными. В любом случае, это очень крутая технология.