BexttsStream

Running on Zero

App Files Files Community

archivartaunik commited on Nov 14, 2025

Commit

958dddc

verified ·

1 Parent(s): 774a30d

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -51

app.py CHANGED Viewed

@@ -1,3 +1,6 @@
 import os
 import sys
 import tempfile
@@ -18,7 +21,6 @@ REPO_URL = "https://github.com/tuteishygpt/coqui-ai-TTS.git"
 REPO_DIR = "coqui-ai-TTS"
 if not os.path.exists(REPO_DIR):
-    # Клануем fork з беларускай падтрымкай
     subprocess.run(
         ["git", "clone", REPO_URL, REPO_DIR],
         check=True,
@@ -80,11 +82,19 @@ tokenizer = VoiceBpeTokenizer(vocab_file=vocab_file)
 XTTS_MODEL.tokenizer = tokenizer
 # ---------------------------------------------------------
-# 4. Функцыя TTS (з токенайзерам)
 # ---------------------------------------------------------
 @spaces.GPU(duration=60)
 def text_to_speech(belarusian_story, speaker_audio_file=None):
-    if not belarusian_story or belarusian_story.strip() == "":
         raise gr.Error("Увядзі хоць нейкі тэкст 🙂")
     # калі аўдыё не перададзена — бярэм голас па змаўчанні
@@ -104,12 +114,12 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
     except Exception as e:
         raise gr.Error(f"Памылка пры атрыманні латэнтаў голасу: {e}")
-    # ✅ Замяняем sent_tokenize на split_sentence з токенайзера
     try:
         lang = "be"
         chunk_limit = tokenizer.char_limits.get(lang, 250)
         tts_texts = split_sentence(
-            belarusian_story.strip(),
             lang=lang,
             text_split_length=chunk_limit,
         )
@@ -119,7 +129,10 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
     except Exception as e:
         raise gr.Error(f"Памылка пры падзеле тэксту на сказы: {e}")
-    all_wavs = []
     for text in tqdm(tts_texts):
         try:
             with torch.no_grad():
@@ -134,58 +147,63 @@ def text_to_speech(belarusian_story, speaker_audio_file=None):
                     top_k=10,
                     top_p=0.3,
                 )
-            all_wavs.append(wav_chunk["wav"])
         except Exception as e:
             raise gr.Error(f"Памылка пры генерырацыі аўдыя: {e}")
     try:
-        out_wav = np.concatenate(all_wavs).astype(np.float32)
-    except ValueError:
-        raise gr.Error(
-            "Немагчыма згенераваць аўдыё. Праверце ўваходны тэкст і аўдыёфайл."
-        )
     except Exception as e:
-        raise gr.Error(f"Памылка пры аб'яднанні аўдыя: {e}")
-    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
-    write(temp_file.name, sampling_rate, out_wav)
-    return temp_file.name
 # ---------------------------------------------------------
-# 5. Прыклады
 # ---------------------------------------------------------
 examples = [
     [
         "Такім чынам, клуб стаў уладальнікам усіх існых на сёння міжнародных трафеяў паўднёваамерыканскага футболу.",
         "Nestarka.wav",
-        "krai.wav",
     ],
     [
         "Яму не ўдалося палепшыць фінансавае становішча каралеўства, а, наадварот, прыйшлося распрадаваць каштоўнасці чэшскай кароны.",
         "muzh.wav",
-        "examples/цуды.wav",
     ],
     [
         "Кампілятарамі называюць праграмы, якія пераўтвараюць код вышэйшага ўзроўню ў код ніжэйшага ўзроўню.",
         "chunk_100.wav",
-        "examples/надВозерам.wav",
     ],
     [
         "Акрамя таго, ліхачы аддаюць перавагу рэгі, хіп-хопу і класічнай музыцы.",
         "d1015.mp3",
-        "examples/Беларусь.wav",
     ],
     [
         "Позірк можа быць уважлівым, зацікаўленым, захопленым, але бывае і нахабным, задзірлівым, пагардлівым, напышлівым.",
         "donarka_ench.wav",
-        "examples/цуды.wav",
     ],
     [
         "Такі нават шчыры, ці што: родная мова народу – трасянка, а беларуская яму чужая!",
         "muzhcynski.wav",
-        "examples/цуды.wav",
     ],
 ]
@@ -195,16 +213,17 @@ analytics_script = """
   window.dataLayer = window.dataLayer || [];
   function gtag(){dataLayer.push(arguments);}
   gtag('js', new Date());
   gtag('config', 'G-TKDCRCQ7FK');
 </script>
 """
-demo = gr.Blocks()
-with demo:
     gr.HTML(analytics_script)
     gr.Interface(
-        fn=text_to_speech,
         inputs=[
             gr.Textbox(lines=5, label="Тэкст на беларускай мове"),
             gr.Audio(
@@ -214,33 +233,18 @@ with demo:
             ),
         ],
         outputs=gr.Audio(
-            type="filepath",
-            label="Згенераванае аўдыя",
         ),
-        title="Belarusian TTS Demo",
         description="""
-        <p>Увядзіце тэкст, і мадэль пераўтворыць яго ў аўдыя. Вы можаце выкарыстоўваць
-        голас па змаўчанні, абраць голас з прыкладаў унізе ці загрузіць уласны файл
-        або запісаць аўдыё.</p>
-        <p><strong>Карысныя парады:</strong></p>
-        <ul>
-            <li>Выкарыстоўвайце прыклады з добрай якасцю, без іншых гукаў і разнастайнай інтанацыяй,
-            ад яе моцна залежыць вынік.</li>
-            <li>Інтанацыя таксама ўплывае на націскі.</li>
-            <li>Прыклады галасоў могуць быць на любой мове.</li>
-        </ul>
-        <p>Каб палепшыць якасць мадэлі (націскі і дакладнасць кланавання галасоў), патрэбны дадатковыя датасэты.
-        Ахвяруйце свой голас праз <a href="https://Donar.by" target="_blank">Donar.by</a></p>
-        <p>Далучайцеся да нашай беларускай суполкі ў ТГ, каб дапамагчы ці даведацца пра навіны ШІ:
-        <a href="https://t.me/SHibelChat" target="_blank">https://t.me/SHibelChat</a>.</p>
-        <p><strong>Падтрымаць праект:</strong> <a href="https://buymeacoffee.com/tuteishygpt" target="_blank">Buy Me a Coffee</a></p>
         """,
         examples=examples,
         cache_examples=False,
     )
 if __name__ == "__main__":

+# Калі запускаеце ў чыстым асяроддзі:
+# !pip install -q gradio spaces huggingface_hub torch scipy tqdm gitpython
 import os
 import sys
 import tempfile
 REPO_DIR = "coqui-ai-TTS"
 if not os.path.exists(REPO_DIR):
     subprocess.run(
         ["git", "clone", REPO_URL, REPO_DIR],
         check=True,
 XTTS_MODEL.tokenizer = tokenizer
 # ---------------------------------------------------------
+# 4. Патокавая TTS-функцыя (генератар)
 # ---------------------------------------------------------
 @spaces.GPU(duration=60)
 def text_to_speech(belarusian_story, speaker_audio_file=None):
+    """
+    Streaming-выхад для gr.Audio:
+    - на кожным кроку вяртае (sample_rate, np.ndarray[float32]),
+      дзе масіў — гэта КАНКАТЭНАВАНЫ дагэтуль гукавы сігнал.
+    - у самым канцы дадаткова вяртаецца шлях да temp-файла з фінальным WAV,
+      каб карыстальнік мог яго спампаваць.
+    Gradio сам зразумее генератар і будзе абнаўляць аудыё па меры паступлення.
+    """
+    if not belarusian_story or str(belarusian_story).strip() == "":
         raise gr.Error("Увядзі хоць нейкі тэкст 🙂")
     # калі аўдыё не перададзена — бярэм голас па змаўчанні
     except Exception as e:
         raise gr.Error(f"Памылка пры атрыманні латэнтаў голасу: {e}")
+    # ✅ Нарэзка тэксту на сказы/чанкі праз split_sentence
     try:
         lang = "be"
         chunk_limit = tokenizer.char_limits.get(lang, 250)
         tts_texts = split_sentence(
+            str(belarusian_story).strip(),
             lang=lang,
             text_split_length=chunk_limit,
         )
     except Exception as e:
         raise gr.Error(f"Памылка пры падзеле тэксту на сказы: {e}")
+    # Будзем назапашваць гукавыя кавалкі
+    chunks = []
+    running_total = None  # для хутчэйшага concat (лацінка: cumulative)
     for text in tqdm(tts_texts):
         try:
             with torch.no_grad():
                     top_k=10,
                     top_p=0.3,
                 )
+            cur = wav_chunk["wav"].astype(np.float32)
+            chunks.append(cur)
+            # 🔴 Паступова абнаўляем агульны буфер.
+            # Каб не рабіць O(n^2) канкатэнацыю кожны раз, можна час ад часу rebalance,
+            # але для тыповых даўжынь будзе дастаткова:
+            if running_total is None:
+                running_total = cur
+            else:
+                running_total = np.concatenate([running_total, cur], axis=0)
+            # STREAM: вяртаем «тое, што маем ужо цяпер»
+            yield (sampling_rate, running_total)
         except Exception as e:
             raise gr.Error(f"Памылка пры генерырацыі аўдыя: {e}")
+    # Фінал: запішам у temp-файл і таксама вернем яго шлях (Gradio падхопіць апошняе значэнне)
+    if running_total is None:
+        raise gr.Error("Нічога не згенеравана. Праверце ўваходныя даныя.")
     try:
+        temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
+        write(temp_file.name, sampling_rate, running_total)
+        # Канчатковае вяртанне: можна вярнуць шлях — Gradio пакажа кнопку загрузкі.
+        yield temp_file.name
     except Exception as e:
+        raise gr.Error(f"Памылка пры запісе фінальнага WAV: {e}")
 # ---------------------------------------------------------
+# 5. Прыклады (2 калоны: тэкст + файл голасу)
 # ---------------------------------------------------------
 examples = [
     [
         "Такім чынам, клуб стаў уладальнікам усіх існых на сёння міжнародных трафеяў паўднёваамерыканскага футболу.",
         "Nestarka.wav",
     ],
     [
         "Яму не ўдалося палепшыць фінансавае становішча каралеўства, а, наадварот, прыйшлося распрадаваць каштоўнасці чэшскай кароны.",
         "muzh.wav",
     ],
     [
         "Кампілятарамі называюць праграмы, якія пераўтвараюць код вышэйшага ўзроўню ў код ніжэйшага ўзроўню.",
         "chunk_100.wav",
     ],
     [
         "Акрамя таго, ліхачы аддаюць перавагу рэгі, хіп-хопу і класічнай музыцы.",
         "d1015.mp3",
     ],
     [
         "Позірк можа быць уважлівым, зацікаўленым, захопленым, але бывае і нахабным, задзірлівым, пагардлівым, напышлівым.",
         "donarka_ench.wav",
     ],
     [
         "Такі нават шчыры, ці што: родная мова народу – трасянка, а беларуская яму чужая!",
         "muzhcynski.wav",
     ],
 ]
   window.dataLayer = window.dataLayer || [];
   function gtag(){dataLayer.push(arguments);}
   gtag('js', new Date());
   gtag('config', 'G-TKDCRCQ7FK');
 </script>
 """
+# ---------------------------------------------------------
+# 6. Gradio UI
+# ---------------------------------------------------------
+with gr.Blocks() as demo:
     gr.HTML(analytics_script)
     gr.Interface(
+        fn=text_to_speech,  # генератар
         inputs=[
             gr.Textbox(lines=5, label="Тэкст на беларускай мове"),
             gr.Audio(
             ),
         ],
         outputs=gr.Audio(
+            type="filepath",  # дазваляем і (sr, np.array), і канчатковы шлях
+            label="Згенераванае аўдыя (патокава)",
         ),
+        title="Belarusian TTS Demo — Streaming",
         description="""
+        <p>Увядзіце тэкст — і аўдыя будзе адлюстроўвацца <b>па меры сінтэзу</b> (патокава).</p>
+        <p>Вы можаце выкарыстаць голас па змаўчанн��, абраць адзін з прыкладаў ці загрузіць уласны файл.</p>
+        <p><strong>Парады:</strong> выкарыстоўвайце чыстыя, разнастайныя па інтанацыі прыклады; інтанацыя ўплывае на націскі.</p>
         """,
         examples=examples,
         cache_examples=False,
+        allow_flagging="never",
     )
 if __name__ == "__main__":