| ============================ [EN: chatterbox (ResembleAI)] ============================ | |
| https://huggingface.co/ResembleAI/chatterbox/discussions/44#690cb61310b31733a0aa0367 | |
| 06.11.2025 @skypanda64 | |
| {orig} I've been using chatterbox offline via TTS-webui for some time now and wanted to share a few thoughts and observations | |
| from a non-technical user's perspective. First off, chatterbox is amazing. It blows similar competition out of the water in terms | |
| of cost/performance and is far and away the most human sounding TTS model I've tried offline. | |
| Multilingual is of particular interest to me as I've been experimenting with the combination of chatterbox with a text-generation | |
| LLM front end as an assistant and multilingual conversation/education partner. In short, multilingual is a pretty amazing feature and | |
| I think the potential for practical applications is off the charts. | |
| A few initial observations having tried both v1 and v2 multilingual models. English feels like it took a big leap forward from old to new, | |
| and I can't see myself using another model given how strong chatterbox is right now. | |
| Other languages are more interesting - among which I've tested Chinese, Japanese, and Korean more extensively. These all seem to have taken | |
| a step back in their "native language" in exchange for being able to speak really good English now too. I think it's especially noticeable | |
| with these non-latin languages which in V1 would either speak extremely accented English or start to output gibberish. Now they can speak | |
| English with the barest hint of an accent (like literally 10-15% on my subjective scale of obviousness) - all in the same generation instance | |
| with text in the other language as well. The cost in single language accuracy pops up when the model starts to mispronounce words that v1 | |
| could read well, especially when generating less common vocabulary in Chinese and Japanese. I'm guessing this was probably an intentional | |
| choice/trade-off and a stepping stone towards true seamless multilingual TTS. | |
| In terms of cadence, latin languages seem to speak with a super natural intonation across the board - I tried English, Italian, | |
| and French. Whereas Chinese, Japanese, and Korean tend to speak super fast with the same expressiveness and weight settings (0.7 & 0.3 or | |
| 0.5 & 0.5 as recommended) and as a result sound less natural compared to V1. | |
| I've also found it interesting playing around with different voice samples and finding that similar quality clips can yield drastically | |
| different results that don't seem super tied to sample quality. Some cloned voices sound uncannily real, while others will be more robotic. | |
| I've tried cutting sections from the same audiobook and results are variable - especially with accents. It's a fun game of roulette sometimes | |
| to see if a sample of the same voice will come out with the right accent or morph into another. It's hilarious cause the tone and timbre | |
| of the voice will still be identical. Either way this is super cool tech. | |
| {ru} Я уже некоторое время пользуюсь Chatterbox офлайн через TTS WebUI и хотел бы поделиться несколькими мыслями и наблюдениями | |
| с точки зрения не-технаря. Прежде всего, Chatterbox просто потрясающий. Он превосходит конкурентов по соотношению цена/производительность | |
| и безусловно является самой человекоподобно звучащей TTS моделью, которую я когда-либо пробовал в офлайн-режиме. | |
| Многоязычность особенно интересна мне, поскольку я экспериментировал с сочетанием Chatterbox с генерацией текста в качестве помощника и | |
| многоязычного собеседника/партнера для общения/обучения. Короче говоря, многоязычность - это просто потрясающая функция, и я думаю, | |
| что её потенциал для практического применения просто зашкаливает. | |
| Несколько первых наблюдений после использования многоязычных моделей v1 и v2. Английский язык, похоже, совершил большой скачок от старого | |
| к новому, и я не вижу смысла использовать другую модель, учитывая, насколько сильны сейчас возможности Chatterbox. | |
| Другие языки интереснее, среди них я более подробно протестировал китайский, японский и корейский. Похоже, все они сделали шаг назад | |
| в своём «родном языке» в обмен на возможность говорить по-настоящему хорошо по-английски. Думаю, это особенно заметно на примере нелатинских | |
| языков, которые в V1 либо говорили бы на сильно акцентированном английском, либо начинали бы выдавать какую-то тарабарщину. Теперь же они могут | |
| говорить по-английски с едва заметным намёком на акцент (буквально 10-15% по моей субъективной шкале очевидности) - всё это в одном экземпляре | |
| генерации с текстом на другом языке. Цена точности распознавания одного языка становится очевидной, когда модель начинает неправильно | |
| произносить слова, которые v1 могла бы хорошо прочитать, особенно при генерации менее распространённой лексики в китайском и японском языках. | |
| Полагаю, это был, вероятно, намеренный выбор/компромисс и ступенька к настоящему бесшовному многоязычному синтезу речи. | |
| Что касается каденции, латинские языки, похоже, произносятся с очень естественной интонацией по всем направлениям - я пробовал английский, | |
| итальянский и французский. В то время как китайцы, японцы и корейцы как правило говорят очень быстро с одинаковыми настройками выразительности | |
| и веса (0.7 & 0.3 или 0.5 & 0.5, как рекомендуется), и в результате звучат менее естественно по сравнению с V1. | |
| Мне также было интересно экспериментировать с разными образцами голоса и обнаружить, что клипы одинакового качества могут давать совершенно | |
| разные результаты, которые, похоже, не слишком привязаны к качеству образца. Некоторые клонированные голоса звучат невероятно реалистично, | |
| в то время как другие выглядят более роботизированными. Я пробовал вырезать фрагменты из одной и той же аудиокниги, и результаты различаются, | |
| особенно с акцентами. Иногда это забавная игра в рулетку: посмотреть, получится ли сэмпл одного и того же голоса с правильным акцентом или он | |
| трансформируется в другой. Это забавно, потому что тон и тембр голоса останутся идентичными. В любом случае, это очень крутая технология. |