BexttsStream

Running on Zero

App Files Files Community

archivartaunik commited on Nov 14, 2025

Commit

3f37f19

verified ·

1 Parent(s): 8c45698

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -15

app.py CHANGED Viewed

@@ -78,8 +78,7 @@ tokenizer = VoiceBpeTokenizer(vocab_file=vocab_file)
 XTTS_MODEL.tokenizer = tokenizer
 # =========================================================
-# 4) Streaming-міксін у стылі transformers-stream-generator
-#    (мінімальная затрымка і «як мага бліжэй да токенаў»)
 # =========================================================
 MIN_BUFFER_S = 0.03        # ~30 мс — хутчэйшы старт
 FADE_S       = 0.004       # карацейшы cross-fade
@@ -159,13 +158,9 @@ def _native_stream(
         speaker_embedding=speaker_embedding,
     )
     # перадаём параметры генерацыі, калі яны падтрымліваюцца
-    for k in ("temperature", "length_penalty", "repetition_penalty", "top_k", "top_p"):
         if k in gen_kwargs and k in sig.parameters:
             call_kwargs[k] = gen_kwargs[k]
-    # дробныя кавалкі гуку з боку мадэлі
-    if "stream_chunk_size_s" in sig.parameters:
-        chunk_s = float(gen_kwargs.get("min_buffer_s", MIN_BUFFER_S))
-        call_kwargs["stream_chunk_size_s"] = chunk_s
     generator = model.inference_stream(**call_kwargs)
     for out in generator:
@@ -232,8 +227,8 @@ class NewTTSGenerationMixin:
             )
             return _to_np_audio(out)
-        # перададзім stream_chunk_size_s у _native_stream праз **gen_kwargs (калі мадэль падтрымлівае)
-        gen_kwargs.setdefault("min_buffer_s", min_buffer_s)
         return self.sample_stream(
             text=text,
             language=language,
@@ -256,6 +251,10 @@ class NewTTSGenerationMixin:
         tokens_per_step: int = TOKENS_PER_STEP,
         **gen_kwargs,
     ) -> Iterator[np.ndarray]:
         if hasattr(self, "inference_stream"):
             for chunk in _native_stream(
                 self,
@@ -263,8 +262,7 @@ class NewTTSGenerationMixin:
                 language,
                 gpt_cond_latent,
                 speaker_embedding,
-                min_buffer_s=min_buffer_s,
-                **gen_kwargs,
             ):
                 yield chunk
             return
@@ -346,7 +344,7 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
     """
     Выхады:
       1) stream_pipe (hidden Textbox) — base64(PCM float32) па кроках, у фінале "__STOP__" (EOS)
-      2) final_file (File)          — толькі ў фінале шлях да WAV (не спыняе стрим)
     """
     if not belarusian_story or str(belarusian_story).strip() == "":
         raise gr.Error("Увядзі хоць нейкі тэкст 🙂")
@@ -364,7 +362,7 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
     except Exception as e:
         raise gr.Error(f"Памылка пры атрыманні латэнтаў голасу: {e}")
-    # Генератар гуку
     gen = XTTS_MODEL.generate(
         text=str(belarusian_story).strip(),
         do_stream=True,
@@ -373,8 +371,6 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
         speaker_embedding=speaker_embedding,
         min_buffer_s=MIN_BUFFER_S,
         tokens_per_step=TOKENS_PER_STEP,
-        # Калі форк падтрымлівае — прымусім дробныя кавалкі на баку мадэлі:
-        stream_chunk_size_s=MIN_BUFFER_S,
         temperature=0.1,
         length_penalty=1.0,
         repetition_penalty=10.0,

 XTTS_MODEL.tokenizer = tokenizer
 # =========================================================
+# 4) Streaming-канфіг (мінімальная затрымка)
 # =========================================================
 MIN_BUFFER_S = 0.03        # ~30 мс — хутчэйшы старт
 FADE_S       = 0.004       # карацейшы cross-fade
         speaker_embedding=speaker_embedding,
     )
     # перадаём параметры генерацыі, калі яны падтрымліваюцца
+    for k in ("temperature", "length_penalty", "repetition_penalty", "top_k", "top_p", "stream_chunk_size_s"):
         if k in gen_kwargs and k in sig.parameters:
             call_kwargs[k] = gen_kwargs[k]
     generator = model.inference_stream(**call_kwargs)
     for out in generator:
             )
             return _to_np_audio(out)
+        # ВАЖНА: НЕ дадаём min_buffer_s у gen_kwargs, каб не было дублікату.
+        # stream_chunk_size_s будзе пракінута далей у sample_stream().
         return self.sample_stream(
             text=text,
             language=language,
         tokens_per_step: int = TOKENS_PER_STEP,
         **gen_kwargs,
     ) -> Iterator[np.ndarray]:
+        # Каб не дубляваць stream_chunk_size_s, ставім яго толькі калі не перададзены звонку
+        local_kwargs = dict(gen_kwargs)
+        local_kwargs.setdefault("stream_chunk_size_s", float(min_buffer_s))
         if hasattr(self, "inference_stream"):
             for chunk in _native_stream(
                 self,
                 language,
                 gpt_cond_latent,
                 speaker_embedding,
+                **local_kwargs,
             ):
                 yield chunk
             return
     """
     Выхады:
       1) stream_pipe (hidden Textbox) — base64(PCM float32) па кроках, у фінале "__STOP__" (EOS)
+      2) final_file (File)           — толькі ў фінале шлях да WAV (не спыняе стрим)
     """
     if not belarusian_story or str(belarusian_story).strip() == "":
         raise gr.Error("Увядзі хоць нейкі тэкст 🙂")
     except Exception as e:
         raise gr.Error(f"Памылка пры атрыманні латэнтаў голасу: {e}")
+    # Генератар гуку (НЕ перадаём тут stream_chunk_size_s — ён будзе пастаўлены ў sample_stream праз setdefault)
     gen = XTTS_MODEL.generate(
         text=str(belarusian_story).strip(),
         do_stream=True,
         speaker_embedding=speaker_embedding,
         min_buffer_s=MIN_BUFFER_S,
         tokens_per_step=TOKENS_PER_STEP,
         temperature=0.1,
         length_penalty=1.0,
         repetition_penalty=10.0,