BexttsStream

Running on Zero

App Files Files Community

archivartaunik commited on Nov 14, 2025

Commit

5ea7abd

verified ·

1 Parent(s): 30be2d0

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -17

app.py CHANGED Viewed

@@ -121,7 +121,7 @@ def _crossfade_concat(a: np.ndarray, b: np.ndarray, sr: int, fade_s: float) -> n
     rest = b[fade_n:]
     return np.concatenate([head, tail, rest], axis=0)
-def _bpe_prefixes(text: str, lang: str, step_tokens: int) -> Iterable[str]:
     """
     Прэфіксы па BPE/субсловах; калі encode/decode недаступны — псэўда-токены (словы+прабелы).
     """
@@ -308,16 +308,20 @@ def _yield_buffered_chunks_for_gradio(
         time.sleep(buf.size / float(sr))
 # ---------------------------------------------------------
-# 6) Асноўная функцыя TTS для Gradio (у стылі .generate(do_stream=True))
 # ---------------------------------------------------------
 @spaces.GPU(duration=60)
 def text_to_speech(belarusian_story, speaker_audio_file=None):
     """
-    Streaming для gr.Audio:
-      - model.generate(..., do_stream=True) -> чанкі (sr, chunk) з мінімальнай затрымкай;
-      - у фінале — шлях да поўнага WAV.
     """
     if not belarusian_story or str(belarusian_story).strip() == "":
         raise gr.Error("Увядзі хоць нейкі тэкст 🙂")
     # Голас па змаўчанні
@@ -355,13 +359,17 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
     full_audio_chunks: List[np.ndarray] = []
     for sr, chunk in _yield_buffered_chunks_for_gradio(generator, sampling_rate, MIN_BUFFER_S):
         full_audio_chunks.append(chunk)
-        yield (sr, chunk)
     if not full_audio_chunks:
-        raise gr.Error("Нічога не згенеравана. Праверце ўваходныя даныя або лагі.")
     full_audio = full_audio_chunks[0]
     for i in range(1, len(full_audio_chunks)):
         full_audio = _crossfade_concat(full_audio, full_audio_chunks[i], sampling_rate, FADE_S)
@@ -369,7 +377,8 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
     try:
         tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
         write(tmp.name, sampling_rate, full_audio.astype(np.float32))
-        yield tmp.name
     except Exception as e:
         raise gr.Error(f"Памылка пры запісе фінальнага WAV: {e}")
@@ -414,7 +423,9 @@ analytics_script = """
 """
 # ---------------------------------------------------------
-# 8) Gradio UI (аўтапрайграванне)
 # ---------------------------------------------------------
 with gr.Blocks() as demo:
     gr.HTML(analytics_script)
@@ -428,15 +439,24 @@ with gr.Blocks() as demo:
                 interactive=True,
             ),
         ],
-        outputs=gr.Audio(
-            type="filepath",
-            label="Згенераванае аўдыя (па токенах, мінімальная затрымка)",
-            autoplay=True,
-        ),
-        title="Belarusian TTS — Token Streaming (як у transformers-stream-generator)",
         description="""
-        <p>Мадэль <code>Xtts</code> мае метады <code>generate()</code> і <code>sample_stream()</code>, як у прыкладзе.
-        Калі даступны <code>inference_stream</code>, выкарыстоўваем яго; інакш — інкрементальна па «токенах» з ~50&nbsp;мс буферам.</p>
         """,
         examples=examples,
         cache_examples=False,

     rest = b[fade_n:]
     return np.concatenate([head, tail, rest], axis=0)
+def _bpe_prefixes(text: str, lang: str, step_tokens: int):
     """
     Прэфіксы па BPE/субсловах; калі encode/decode недаступны — псэўда-токены (словы+прабелы).
     """
         time.sleep(buf.size / float(sr))
 # ---------------------------------------------------------
+# 6) Асноўная функцыя TTS для Gradio
+#    Цяпер ВЫХАД = ДВА элементы:
+#      1) Стрымінг па токенах (грайцеся ўжывую) — gr.Audio(type='numpy')
+#      2) Згенераванае аўдыя (па токенах, мінімальная затрымка) — толькі ФІНАЛЬНЫ файл
 # ---------------------------------------------------------
 @spaces.GPU(duration=60)
 def text_to_speech(belarusian_story, speaker_audio_file=None):
     """
+    Вяртаем два выхады:
+      - (sr, chunk) для стрымінгавага прайгравальніка (на кожным кроку)
+      - None / шлях да WAV у ФІНАЛЕ для элемента «Згенераванае аўдыя...»
     """
     if not belarusian_story or str(belarusian_story).strip() == "":
+        # Для абодвух выхадаў вяртаем None
         raise gr.Error("Увядзі хоць нейкі тэкст 🙂")
     # Голас па змаўчанні
     full_audio_chunks: List[np.ndarray] = []
+    # 1) падчас стриму — аддаем у першы выход (стрымінг), другі — None
     for sr, chunk in _yield_buffered_chunks_for_gradio(generator, sampling_rate, MIN_BUFFER_S):
         full_audio_chunks.append(chunk)
+        yield ( (sr, chunk), None )
     if not full_audio_chunks:
+        # Нічога не назбіралі — абодва выхады None
+        yield ( None, None )
+        return
+    # 2) збіраем фінальны WAV і вяртаем яго ў другі выход
     full_audio = full_audio_chunks[0]
     for i in range(1, len(full_audio_chunks)):
         full_audio = _crossfade_concat(full_audio, full_audio_chunks[i], sampling_rate, FADE_S)
     try:
         tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
         write(tmp.name, sampling_rate, full_audio.astype(np.float32))
+        # у фінале — першы выход (стрымінг) прыбіраем (None), другі — шлях да файла
+        yield ( None, tmp.name )
     except Exception as e:
         raise gr.Error(f"Памылка пры запісе фінальнага WAV: {e}")
 """
 # ---------------------------------------------------------
+# 8) Gradio UI:
+#    - Новы ЭЛЕМЕНТ для стрыму: "Стрымінг па токенах (анлайн прайграванне)" — прымае (sr, ndarray)
+#    - Стары ЭЛЕМЕНТ "Згенераванае аўдыя (па токенах, мінімальная затрымка)" — цяпер ТОЛЬКІ фінальны файл
 # ---------------------------------------------------------
 with gr.Blocks() as demo:
     gr.HTML(analytics_script)
                 interactive=True,
             ),
         ],
+        outputs=[
+            gr.Audio(
+                type="numpy",   # стримінг: (sr, np.ndarray)
+                label="Стрымінг па токенах (анлайн прайграванне)",
+                autoplay=True,
+            ),
+            gr.Audio(
+                type="filepath",  # толькі фінальны шлях да WAV
+                label="Згенераванае аўдыя (па токенах, мінімальная затрымка)",
+                autoplay=False,
+            ),
+        ],
+        title="Belarusian TTS — Token Streaming (два выхады)",
         description="""
+        <ul>
+          <li><b>Стрымінг па токенах</b> — жывы прайгравальнік, атрымлівае маленькія чанкі гуку па меры генерацыі.</li>
+          <li><b>Згенераванае аўдыя (па токенах, мінімальная затрымка)</b> — толькі <i>фінальны</i> цэлы WAV-файл для загрузкі/прайгравання.</li>
+        </ul>
         """,
         examples=examples,
         cache_examples=False,