Update NOTES.txt
Browse files
NOTES.txt
CHANGED
|
@@ -1,29 +1,63 @@
|
|
| 1 |
-
============================ [EN: chatterbox (ResembleAI)] ============================
|
| 2 |
-
|
| 3 |
-
https://huggingface.co/ResembleAI/chatterbox/discussions/44#690cb61310b31733a0aa0367
|
| 4 |
-
|
| 5 |
-
06.11.2025 @skypanda64
|
| 6 |
-
|
| 7 |
-
{orig} I've been using chatterbox offline via TTS-webui for some time now and wanted to share a few thoughts and observations
|
| 8 |
-
|
| 9 |
-
|
| 10 |
-
|
| 11 |
-
|
| 12 |
-
|
| 13 |
-
|
| 14 |
-
|
| 15 |
-
|
| 16 |
-
|
| 17 |
-
|
| 18 |
-
|
| 19 |
-
|
| 20 |
-
|
| 21 |
-
|
| 22 |
-
|
| 23 |
-
|
| 24 |
-
|
| 25 |
-
|
| 26 |
-
|
| 27 |
-
|
| 28 |
-
|
| 29 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
============================ [EN: chatterbox (ResembleAI)] ============================
|
| 2 |
+
|
| 3 |
+
https://huggingface.co/ResembleAI/chatterbox/discussions/44#690cb61310b31733a0aa0367
|
| 4 |
+
|
| 5 |
+
06.11.2025 @skypanda64
|
| 6 |
+
|
| 7 |
+
{orig} I've been using chatterbox offline via TTS-webui for some time now and wanted to share a few thoughts and observations
|
| 8 |
+
from a non-technical user's perspective. First off, chatterbox is amazing. It blows similar competition out of the water in terms
|
| 9 |
+
of cost/performance and is far and away the most human sounding TTS model I've tried offline.
|
| 10 |
+
|
| 11 |
+
Multilingual is of particular interest to me as I've been experimenting with the combination of chatterbox with a text-generation
|
| 12 |
+
LLM front end as an assistant and multilingual conversation/education partner. In short, multilingual is a pretty amazing feature and
|
| 13 |
+
I think the potential for practical applications is off the charts.
|
| 14 |
+
|
| 15 |
+
A few initial observations having tried both v1 and v2 multilingual models. English feels like it took a big leap forward from old to new,
|
| 16 |
+
and I can't see myself using another model given how strong chatterbox is right now.
|
| 17 |
+
|
| 18 |
+
Other languages are more interesting - among which I've tested Chinese, Japanese, and Korean more extensively. These all seem to have taken
|
| 19 |
+
a step back in their "native language" in exchange for being able to speak really good English now too. I think it's especially noticeable
|
| 20 |
+
with these non-latin languages which in V1 would either speak extremely accented English or start to output gibberish. Now they can speak
|
| 21 |
+
English with the barest hint of an accent (like literally 10-15% on my subjective scale of obviousness) - all in the same generation instance
|
| 22 |
+
with text in the other language as well. The cost in single language accuracy pops up when the model starts to mispronounce words that v1
|
| 23 |
+
could read well, especially when generating less common vocabulary in Chinese and Japanese. I'm guessing this was probably an intentional
|
| 24 |
+
choice/trade-off and a stepping stone towards true seamless multilingual TTS.
|
| 25 |
+
|
| 26 |
+
In terms of cadence, latin languages seem to speak with a super natural intonation across the board - I tried English, Italian,
|
| 27 |
+
and French. Whereas Chinese, Japanese, and Korean tend to speak super fast with the same expressiveness and weight settings (0.7 & 0.3 or
|
| 28 |
+
0.5 & 0.5 as recommended) and as a result sound less natural compared to V1.
|
| 29 |
+
|
| 30 |
+
I've also found it interesting playing around with different voice samples and finding that similar quality clips can yield drastically
|
| 31 |
+
different results that don't seem super tied to sample quality. Some cloned voices sound uncannily real, while others will be more robotic.
|
| 32 |
+
I've tried cutting sections from the same audiobook and results are variable - especially with accents. It's a fun game of roulette sometimes
|
| 33 |
+
to see if a sample of the same voice will come out with the right accent or morph into another. It's hilarious cause the tone and timbre
|
| 34 |
+
of the voice will still be identical. Either way this is super cool tech.
|
| 35 |
+
|
| 36 |
+
{ru} Я уже некоторое время пользуюсь Chatterbox офлайн через TTS WebUI и хотел бы поделиться несколькими мыслями и наблюдениями
|
| 37 |
+
с точки зрения не-технаря. Прежде всего, Chatterbox просто потрясающий. Он превосходит конкурентов по соотношению цена/производительность
|
| 38 |
+
и безусловно является самой человекоподобно звучащей TTS моделью, которую я когда-либо пробовал в офлайн-режиме.
|
| 39 |
+
|
| 40 |
+
Многоязычность особенно интересна мне, поскольку я экспериментировал с сочетанием Chatterbox с генерацией текста в качестве помощника и
|
| 41 |
+
многоязычного собеседника/партнера для общения/обучения. Короче говоря, многоязычность - это просто потрясающая функция, и я думаю,
|
| 42 |
+
что её потенциал для практического применения просто зашкаливает.
|
| 43 |
+
|
| 44 |
+
Несколько первых наблюдений после использования многоязычных моделей v1 и v2. Английский язык, похоже, совершил большой скачок от старого
|
| 45 |
+
к новому, и я не вижу смысла использовать другую модель, учитывая, насколько сильны сейчас возможности Chatterbox.
|
| 46 |
+
|
| 47 |
+
Другие языки интереснее, среди них я более подробно протестировал китайский, японский и корейский. Похоже, все они сделали шаг назад
|
| 48 |
+
в своём «родном языке» в обмен на возможность говорить по-настоящему хорошо по-английски. Думаю, это особенно заметно на примере нелатинских
|
| 49 |
+
языков, которые в V1 либо говорили бы на сильно акцентированном английском, либо начинали бы выдавать какую-то тарабарщину. Теперь же они могут
|
| 50 |
+
говорить по-английски с едва заметным намёком на акцент (буквально 10-15% по моей субъективной шкале очевидности) - всё это в одном экземпляре
|
| 51 |
+
генерации с текстом на другом языке. Цена точности распознавания одного языка становится очевидной, когда модель начинает неправильно
|
| 52 |
+
произносить слова, которые v1 могла бы хорошо прочитать, особенно при генерации менее распространённой лексики в китайском и японском языках.
|
| 53 |
+
Полагаю, это был, вероятно, намеренный выбор/компромисс и ступенька к настоящему бесшовному многоязычному синтезу речи.
|
| 54 |
+
|
| 55 |
+
Что касается каденции, латинские языки, похоже, произносятся с очень естественной интонацией по всем направлениям - я пробовал английский,
|
| 56 |
+
итал��янский и французский. В то время как китайцы, японцы и корейцы как правило говорят очень быстро с одинаковыми настройками выразительности
|
| 57 |
+
и веса (0.7 & 0.3 или 0.5 & 0.5, как рекомендуется), и в результате звучат менее естественно по сравнению с V1.
|
| 58 |
+
|
| 59 |
+
Мне также было интересно экспериментировать с разными образцами голоса и обнаружить, что клипы одинакового качества могут давать совершенно
|
| 60 |
+
разные результаты, которые, похоже, не слишком привязаны к качеству образца. Некоторые клонированные голоса звучат невероятно реалистично,
|
| 61 |
+
в то время как другие выглядят более роботизированными. Я пробовал вырезать фрагменты из одной и той же аудиокниги, и результаты различаются,
|
| 62 |
+
особенно с акцентами. Иногда это забавная игра в рулетку: посмотреть, получится ли сэмпл одного и того же голоса с правильным акцентом или он
|
| 63 |
+
трансформируется в другой. Это забавно, потому что тон и тембр голоса останутся идентичными. В любом случае, это очень крутая технология.
|