BexttsStream

Running on Zero

App Files Files Community

archivartaunik commited on Nov 16, 2025

Commit

0744763

verified ·

1 Parent(s): 36c434c

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -27

app.py CHANGED Viewed

@@ -12,6 +12,7 @@ import hashlib
 import tempfile
 import subprocess
 import inspect
 from typing import Iterator, Iterable, Optional, Tuple, Any, List
 from dataclasses import dataclass
 import pathlib
@@ -297,7 +298,6 @@ def _latents_for(path: str | None, *, to_device: Optional[str] = None) -> Tuple[
         return g2, s2
     return g, s
-# аўтападлік для default voice (CPU) — без дадатковых запытаў
 try:
     _ = _latents_for(default_voice_file)
 except Exception as e:
@@ -398,13 +398,6 @@ def _split_text_smart(text_in: str, lang_short: str, chunk_limit: int) -> List[s
 # ---------------------------------------------------------
 @spaces.GPU(duration=60)
 def text_to_speech(belarusian_story, speaker_audio_file=None):
-    """
-    Выхады:
-      1) stream_pipe — base64(PCM float32) чанкі, у фінале "__STOP__"
-      2) final_file  — шлях да WAV
-      3) final_audio — шлях да WAV для прайгравання
-      4) log_pipe    — JSON з сервернымі метрыкамі (секунды)
-    """
     t0 = time.perf_counter()
     if not belarusian_story or str(belarusian_story).strip() == "":
@@ -420,13 +413,11 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
     lang_short = "be"
     chunk_limit = getattr(XTTS_MODEL.tokenizer, "char_limits", {}).get(lang_short, 250)
-    # Latents (кэш CPU/GPU)
     t_lat0 = time.perf_counter()
     to_dev = "cuda:0" if torch.cuda.is_available() else None
     gpt_cond_latent, speaker_embedding = _latents_for(speaker_audio_file, to_device=to_dev)
     t_lat1 = time.perf_counter()
-    # Split
     t_split0 = time.perf_counter()
     texts = _split_text_smart(text_in, lang_short, chunk_limit) if ENABLE_TEXT_SPLITTING else [text_in]
     if not texts: texts = [text_in]
@@ -456,19 +447,42 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
             temperature=0.1, length_penalty=1.0, repetition_penalty=10.0,
             top_k=10, top_p=0.3,
         )
-        for buf in _chunker(gen, sampling_rate, MIN_BUFFER_S):
-            if not first_chunk_seen:
-                t_first = time.perf_counter()
-                server_metrics["gen_init_to_first_chunk_s"] = (t_first - t_gen0)
-                server_metrics["until_first_chunk_total_s"] = (t_first - t0)
-                known = server_metrics["latents_s"] + server_metrics["text_split_s"] + server_metrics["gen_init_to_first_chunk_s"]
-                other = server_metrics["until_first_chunk_total_s"] - known
-                server_metrics["server_unaccounted_before_first_chunk_s"] = max(0.0, other)
-                first_chunk_seen = True
-                yield (_pcm_f32_to_b64(buf), None, None, json.dumps(server_metrics))
-            else:
                 yield (_pcm_f32_to_b64(buf), None, None, None)
-            full_audio_chunks.append(buf)
     if not full_audio_chunks:
         yield ("__STOP__", None, None, json.dumps(server_metrics)); return
@@ -491,7 +505,7 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
 # 9) UI (лагі ў секундах + Play Final; без underrun’аў)
 # ---------------------------------------------------------
 examples = [
-    ["Прывітанне! Гэта праверка жывога струменя беларускага TTS.", "Nestarka.wav"],
 ]
 with gr.Blocks() as demo:
@@ -525,7 +539,7 @@ with gr.Blocks() as demo:
   const AC = window.AudioContext || window.webkitAudioContext;
   if (!AC) return;
-  const PRIME_CHUNKS = 2;       // мін. к-ць чанкаў перад стартаваннем гуку
   let primeCounter = 0;
   function toSec(ms) {{ return (ms/1000); }}
@@ -576,7 +590,7 @@ with gr.Blocks() as demo:
   if (!window.__wa) {{
     const ctx = new AC({{ sampleRate }});
-    const bufferSize = 2048; // большы буфер = менш underrun’аў
     const node = ctx.createScriptProcessor(bufferSize, 0, 1);
     let queue = [];
     let playing = false;
@@ -625,7 +639,6 @@ with gr.Blocks() as demo:
           logUpdate();
         }}
         if (!playing && queue.length >= PRIME_CHUNKS) {{
-          // стартуем толькі калі ёсць мінімум 2 чанкі ў чарзе
           window.__wa.start();
         }}
       }},
@@ -699,4 +712,4 @@ with gr.Blocks() as demo:
     gr.Examples(examples=examples, inputs=[inp_text, inp_voice], fn=None, cache_examples=False)
 if __name__ == "__main__":
-    demo.launch()

 import tempfile
 import subprocess
 import inspect
+import itertools
 from typing import Iterator, Iterable, Optional, Tuple, Any, List
 from dataclasses import dataclass
 import pathlib
         return g2, s2
     return g, s
 try:
     _ = _latents_for(default_voice_file)
 except Exception as e:
 # ---------------------------------------------------------
 @spaces.GPU(duration=60)
 def text_to_speech(belarusian_story, speaker_audio_file=None):
     t0 = time.perf_counter()
     if not belarusian_story or str(belarusian_story).strip() == "":
     lang_short = "be"
     chunk_limit = getattr(XTTS_MODEL.tokenizer, "char_limits", {}).get(lang_short, 250)
     t_lat0 = time.perf_counter()
     to_dev = "cuda:0" if torch.cuda.is_available() else None
     gpt_cond_latent, speaker_embedding = _latents_for(speaker_audio_file, to_device=to_dev)
     t_lat1 = time.perf_counter()
     t_split0 = time.perf_counter()
     texts = _split_text_smart(text_in, lang_short, chunk_limit) if ENABLE_TEXT_SPLITTING else [text_in]
     if not texts: texts = [text_in]
             temperature=0.1, length_penalty=1.0, repetition_penalty=10.0,
             top_k=10, top_p=0.3,
         )
+        # <--- ВЫПРАЎЛЕННЕ: Аптымізаваная логіка адпраўкі чанкаў
+        # Адпраўляем першы кавалак аўдыя неадкладна, астатнія групуем праз _chunker
+        gen_iterator = iter(gen)
+        try:
+            first_raw_chunk = next(gen_iterator)
+            if first_raw_chunk.size > 0:
+                # Адпраўка першага чанка
+                if not first_chunk_seen:
+                    t_first = time.perf_counter()
+                    server_metrics["gen_init_to_first_chunk_s"] = (t_first - t_gen0)
+                    server_metrics["until_first_chunk_total_s"] = (t_first - t0)
+                    known = server_metrics["latents_s"] + server_metrics["text_split_s"] + server_metrics["gen_init_to_first_chunk_s"]
+                    other = server_metrics["until_first_chunk_total_s"] - known
+                    server_metrics["server_unaccounted_before_first_chunk_s"] = max(0.0, other)
+                    first_chunk_seen = True
+                    yield (_pcm_f32_to_b64(first_raw_chunk), None, None, json.dumps(server_metrics))
+                else:
+                    yield (_pcm_f32_to_b64(first_raw_chunk), None, None, None)
+                full_audio_chunks.append(first_raw_chunk)
+            # Апрацоўка астатніх чанкаў праз _chunker
+            # Мы злучаем першы чанк (які ўжо адпраўлены) з астатнім генератарам,
+            # каб _chunker мог правільна зрабіць cross-fade, калі спатрэбіцца.
+            remaining_gen = itertools.chain([first_raw_chunk], gen_iterator)
+            for buf in _chunker(remaining_gen, sampling_rate, MIN_BUFFER_S):
+                # Калі першы чанк быў меншы за MIN_BUFFER_S, _chunker можа зноў яго вярнуць.
+                # Правяраем, ці не той гэта самы аб'ект, каб не адправіць двойчы.
+                if buf is first_raw_chunk and len(full_audio_chunks) > 0 and np.array_equal(buf, full_audio_chunks[-1]):
+                    continue
                 yield (_pcm_f32_to_b64(buf), None, None, None)
+                full_audio_chunks.append(buf)
+        except StopIteration:
+            continue # Генератар быў пусты
     if not full_audio_chunks:
         yield ("__STOP__", None, None, json.dumps(server_metrics)); return
 # 9) UI (лагі ў секундах + Play Final; без underrun’аў)
 # ---------------------------------------------------------
 examples = [
+    ["Прывітанне! Гэта праверка жывога струменя беларускага TTS.", None],
 ]
 with gr.Blocks() as demo:
   const AC = window.AudioContext || window.webkitAudioContext;
   if (!AC) return;
+  const PRIME_CHUNKS = 1;       // <--- ВЫПРАЎЛЕННЕ: Пачынаем прайграванне пасля 1-га чанка, а не 2-х
   let primeCounter = 0;
   function toSec(ms) {{ return (ms/1000); }}
   if (!window.__wa) {{
     const ctx = new AC({{ sampleRate }});
+    const bufferSize = 2048;
     const node = ctx.createScriptProcessor(bufferSize, 0, 1);
     let queue = [];
     let playing = false;
           logUpdate();
         }}
         if (!playing && queue.length >= PRIME_CHUNKS) {{
           window.__wa.start();
         }}
       }},
     gr.Examples(examples=examples, inputs=[inp_text, inp_voice], fn=None, cache_examples=False)
 if __name__ == "__main__":
+    demo.launch()