Chatterbox-TTS / NOTES.txt
niobures's picture
Update NOTES.txt
4307b71 verified
============================ [EN: chatterbox (ResembleAI)] ============================
https://huggingface.co/ResembleAI/chatterbox/discussions/44#690cb61310b31733a0aa0367
06.11.2025 @skypanda64
{orig} I've been using chatterbox offline via TTS-webui for some time now and wanted to share a few thoughts and observations
from a non-technical user's perspective. First off, chatterbox is amazing. It blows similar competition out of the water in terms
of cost/performance and is far and away the most human sounding TTS model I've tried offline.
Multilingual is of particular interest to me as I've been experimenting with the combination of chatterbox with a text-generation
LLM front end as an assistant and multilingual conversation/education partner. In short, multilingual is a pretty amazing feature and
I think the potential for practical applications is off the charts.
A few initial observations having tried both v1 and v2 multilingual models. English feels like it took a big leap forward from old to new,
and I can't see myself using another model given how strong chatterbox is right now.
Other languages are more interesting - among which I've tested Chinese, Japanese, and Korean more extensively. These all seem to have taken
a step back in their "native language" in exchange for being able to speak really good English now too. I think it's especially noticeable
with these non-latin languages which in V1 would either speak extremely accented English or start to output gibberish. Now they can speak
English with the barest hint of an accent (like literally 10-15% on my subjective scale of obviousness) - all in the same generation instance
with text in the other language as well. The cost in single language accuracy pops up when the model starts to mispronounce words that v1
could read well, especially when generating less common vocabulary in Chinese and Japanese. I'm guessing this was probably an intentional
choice/trade-off and a stepping stone towards true seamless multilingual TTS.
In terms of cadence, latin languages seem to speak with a super natural intonation across the board - I tried English, Italian,
and French. Whereas Chinese, Japanese, and Korean tend to speak super fast with the same expressiveness and weight settings (0.7 & 0.3 or
0.5 & 0.5 as recommended) and as a result sound less natural compared to V1.
I've also found it interesting playing around with different voice samples and finding that similar quality clips can yield drastically
different results that don't seem super tied to sample quality. Some cloned voices sound uncannily real, while others will be more robotic.
I've tried cutting sections from the same audiobook and results are variable - especially with accents. It's a fun game of roulette sometimes
to see if a sample of the same voice will come out with the right accent or morph into another. It's hilarious cause the tone and timbre
of the voice will still be identical. Either way this is super cool tech.
{ru} Я уже некоторое время пользуюсь Chatterbox офлайн через TTS WebUI и хотел бы поделиться несколькими мыслями и наблюдениями
с точки зрения не-технаря. Прежде всего, Chatterbox просто потрясающий. Он превосходит конкурентов по соотношению цена/производительность
и безусловно является самой человекоподобно звучащей TTS моделью, которую я когда-либо пробовал в офлайн-режиме.
Многоязычность особенно интересна мне, поскольку я экспериментировал с сочетанием Chatterbox с генерацией текста в качестве помощника и
многоязычного собеседника/партнера для общения/обучения. Короче говоря, многоязычность - это просто потрясающая функция, и я думаю,
что её потенциал для практического применения просто зашкаливает.
Несколько первых наблюдений после использования многоязычных моделей v1 и v2. Английский язык, похоже, совершил большой скачок от старого
к новому, и я не вижу смысла использовать другую модель, учитывая, насколько сильны сейчас возможности Chatterbox.
Другие языки интереснее, среди них я более подробно протестировал китайский, японский и корейский. Похоже, все они сделали шаг назад
в своём «родном языке» в обмен на возможность говорить по-настоящему хорошо по-английски. Думаю, это особенно заметно на примере нелатинских
языков, которые в V1 либо говорили бы на сильно акцентированном английском, либо начинали бы выдавать какую-то тарабарщину. Теперь же они могут
говорить по-английски с едва заметным намёком на акцент (буквально 10-15% по моей субъективной шкале очевидности) - всё это в одном экземпляре
генерации с текстом на другом языке. Цена точности распознавания одного языка становится очевидной, когда модель начинает неправильно
произносить слова, которые v1 могла бы хорошо прочитать, особенно при генерации менее распространённой лексики в китайском и японском языках.
Полагаю, это был, вероятно, намеренный выбор/компромисс и ступенька к настоящему бесшовному многоязычному синтезу речи.
Что касается каденции, латинские языки, похоже, произносятся с очень естественной интонацией по всем направлениям - я пробовал английский,
итальянский и французский. В то время как китайцы, японцы и корейцы как правило говорят очень быстро с одинаковыми настройками выразительности
и веса (0.7 & 0.3 или 0.5 & 0.5, как рекомендуется), и в результате звучат менее естественно по сравнению с V1.
Мне также было интересно экспериментировать с разными образцами голоса и обнаружить, что клипы одинакового качества могут давать совершенно
разные результаты, которые, похоже, не слишком привязаны к качеству образца. Некоторые клонированные голоса звучат невероятно реалистично,
в то время как другие выглядят более роботизированными. Я пробовал вырезать фрагменты из одной и той же аудиокниги, и результаты различаются,
особенно с акцентами. Иногда это забавная игра в рулетку: посмотреть, получится ли сэмпл одного и того же голоса с правильным акцентом или он
трансформируется в другой. Это забавно, потому что тон и тембр голоса останутся идентичными. В любом случае, это очень крутая технология.