BexttsStream

Sleeping

App Files Files Community

archivartaunik commited on Nov 14, 2025

Commit

88bcd48

verified ·

1 Parent(s): 9d7c77d

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -23

app.py CHANGED Viewed

@@ -78,7 +78,7 @@ XTTS_MODEL.tokenizer = tokenizer
 # =========================================================
 # 4) Streaming-міксін у стылі transformers-stream-generator
 # =========================================================
-MIN_BUFFER_S = 0.06   # 60 мс — стабільней для браўзера
 FADE_S       = 0.008
 TOKENS_PER_STEP = 4
@@ -271,12 +271,10 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
     full_audio_chunks: List[np.ndarray] = []
-    # 1) струменім невялікімі буферамі — толькі ў stream_pipe
     for buf in _chunker(gen, sampling_rate, MIN_BUFFER_S):
         full_audio_chunks.append(buf)
         yield (_pcm_f32_to_b64(buf), None)
-    # 2) фінал: запіс у WAV і STOP-сігнал для кліента
     if not full_audio_chunks:
         yield ("__STOP__", None)
         return
@@ -290,7 +288,7 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
         raise gr.Error(f"Памылка пры запісе фінальнага WAV: {e}")
 # ---------------------------------------------------------
-# 7) UI: Buttons + схаваны канал + client-side JS
 # ---------------------------------------------------------
 examples = [
     ["Прывітанне! Гэта праверка жывога струменя беларускага TTS.", "Nestarka.wav"],
@@ -303,28 +301,27 @@ with gr.Blocks() as demo:
         inp_text = gr.Textbox(lines=5, label="Тэкст на беларускай мове")
         inp_voice = gr.Audio(type="filepath", label="Прыклад голасу (7+ сек)", interactive=True)
     with gr.Row():
         play_btn = gr.Button("▶️ Play")
         stop_btn = gr.Button("⏹ Stop")
-        gr.Markdown(
-            f"**Sample rate:** {sampling_rate} Hz  •  Націсні *Play* перад генерацыяй або падчас — для запуску аўдыя."
-        )
-    # Схаваны канал для стриму base64-чанкаў
     stream_pipe = gr.Textbox(value="", visible=False, label="stream_pipe")
     final_file  = gr.Audio(type="filepath", label="Згенераванае аўдыя (фінальны файл)", autoplay=False)
     run_btn = gr.Button("Згенераваць")
-    # --- JS-код (чысцей і надзейней за HTML-ін'екцыю) ---
-    PLAY_JS = f"""
 () => {{
   const sampleRate = {sampling_rate};
   const AC = window.AudioContext || window.webkitAudioContext;
   if (!AC) return;
   if (!window.__wa) {{
     const ctx = new AC({{ sampleRate }});
-    const bufferSize = 2048;  // ≈40–90мс у залежнасці ад SR
     const node = ctx.createScriptProcessor(bufferSize, 0, 1);
     let queue = [];
     let playing = false;
@@ -351,21 +348,21 @@ with gr.Blocks() as demo:
       stop: () => {{ playing = false; }},
       reset: () => {{ playing = false; queue = []; }},
     }};
   }}
-  window.__wa.start();
 }}
 """
     STOP_JS = "() => { if (window.__wa) window.__wa.stop(); }"
-    RESET_JS = "() => { if (window.__wa) window.__wa.reset(); }"
-    # Base64 -> Float32 + push/stop
     PUSH_JS = """
 (b64) => {
   if (!window.__wa || !b64) return;
   if (b64 === "__STOP__") { window.__wa.stop(); return; }
-  // b64 PCM Float32 -> Float32Array
   const bin = atob(b64);
   const len = bin.length;
   const buf = new ArrayBuffer(len);
@@ -376,28 +373,28 @@ with gr.Blocks() as demo:
 }
 """
-    # Прывязкі падзей:
     play_btn.click(fn=None, inputs=[], outputs=[], js=PLAY_JS)
     stop_btn.click(fn=None, inputs=[], outputs=[], js=STOP_JS)
-    # Перад пачаткам новай генерацыі — ачышчаем чаргу на кліенце
-    run_btn.click(fn=None, inputs=[], outputs=[], js=RESET_JS)
-    # Сам стримінг: Python -> (stream_pipe, final_file)
     run_btn.click(
         fn=text_to_speech,
         inputs=[inp_text, inp_voice],
         outputs=[stream_pipe, final_file]
     )
-    # На кожнае абнаўленне stream_pipe — пуш у WebAudio (кліент)
     stream_pipe.change(fn=None, inputs=[stream_pipe], outputs=[], js=PUSH_JS)
     gr.Examples(
         examples=examples,
         inputs=[inp_text, inp_voice],
-        outputs=[stream_pipe, final_file],
-        fn=text_to_speech,
         cache_examples=False,
     )

 # =========================================================
 # 4) Streaming-міксін у стылі transformers-stream-generator
 # =========================================================
+MIN_BUFFER_S = 0.06   # ~60 мс для гладкага плыннага прайгравання
 FADE_S       = 0.008
 TOKENS_PER_STEP = 4
     full_audio_chunks: List[np.ndarray] = []
     for buf in _chunker(gen, sampling_rate, MIN_BUFFER_S):
         full_audio_chunks.append(buf)
         yield (_pcm_f32_to_b64(buf), None)
     if not full_audio_chunks:
         yield ("__STOP__", None)
         return
         raise gr.Error(f"Памылка пры запісе фінальнага WAV: {e}")
 # ---------------------------------------------------------
+# 7) UI: аўта-Play пры "Згенераваць" (ініт + reset + start у адным JS)
 # ---------------------------------------------------------
 examples = [
     ["Прывітанне! Гэта праверка жывога струменя беларускага TTS.", "Nestarka.wav"],
         inp_text = gr.Textbox(lines=5, label="Тэкст на беларускай мове")
         inp_voice = gr.Audio(type="filepath", label="Прыклад голасу (7+ сек)", interactive=True)
+    # Кастомныя кнопкі (Play/Stop пакідаю на ўсялякі выпадак)
     with gr.Row():
         play_btn = gr.Button("▶️ Play")
         stop_btn = gr.Button("⏹ Stop")
+        gr.Markdown(f"**Sample rate:** {sampling_rate} Hz")
+    # Схаваны канал для стриму base64-чанкаў і фінальны файл
     stream_pipe = gr.Textbox(value="", visible=False, label="stream_pipe")
     final_file  = gr.Audio(type="filepath", label="Згенераванае аўдыя (фінальны файл)", autoplay=False)
     run_btn = gr.Button("Згенераваць")
+    # --- JS: ініт + reset + start (аўтаматычны Play на кнопку Згенераваць) ---
+    INIT_RESET_AND_PLAY_JS = f"""
 () => {{
   const sampleRate = {sampling_rate};
   const AC = window.AudioContext || window.webkitAudioContext;
   if (!AC) return;
   if (!window.__wa) {{
     const ctx = new AC({{ sampleRate }});
+    const bufferSize = 2048;
     const node = ctx.createScriptProcessor(bufferSize, 0, 1);
     let queue = [];
     let playing = false;
       stop: () => {{ playing = false; }},
       reset: () => {{ playing = false; queue = []; }},
     }};
+  }} else {{
+    window.__wa.reset();
   }}
+  window.__wa.start();  // Аўта-Play
 }}
 """
     STOP_JS = "() => { if (window.__wa) window.__wa.stop(); }"
+    PLAY_JS = "() => { if (window.__wa) window.__wa.start(); }"
+    # Base64 -> Float32 + push/stop у канцы
     PUSH_JS = """
 (b64) => {
   if (!window.__wa || !b64) return;
   if (b64 === "__STOP__") { window.__wa.stop(); return; }
   const bin = atob(b64);
   const len = bin.length;
   const buf = new ArrayBuffer(len);
 }
 """
+    # Ручныя кнопкі
     play_btn.click(fn=None, inputs=[], outputs=[], js=PLAY_JS)
     stop_btn.click(fn=None, inputs=[], outputs=[], js=STOP_JS)
+    # Аўта-ініт+reset+play ПЕРАД стартам сервэрнай генерацыі
+    run_btn.click(fn=None, inputs=[], outputs=[], js=INIT_RESET_AND_PLAY_JS)
+    # Стрымінг (сервер)
     run_btn.click(
         fn=text_to_speech,
         inputs=[inp_text, inp_voice],
         outputs=[stream_pipe, final_file]
     )
+    # Пуш чанкаў у WebAudio пры кожным абнаўленні схаванага канала
     stream_pipe.change(fn=None, inputs=[stream_pipe], outputs=[], js=PUSH_JS)
+    # Прыклады: толькі запаўняем палі (не запускаем), каб аўта-Play быў праз «Згенераваць»
     gr.Examples(
         examples=examples,
         inputs=[inp_text, inp_voice],
+        fn=None,
         cache_examples=False,
     )