Spaces:

archivartaunik
/

Bextts

Running on Zero

App Files Files Community

archivartaunik commited on Dec 2, 2025

Commit

b6e2427

verified ·

1 Parent(s): 9bf2147

Update app.py

Browse files

Files changed (1) hide show

app.py +74 -31

app.py CHANGED Viewed

@@ -47,7 +47,7 @@ from TTS.tts.layers.xtts.tokenizer import (
 # ---------------------------------------------------------
 # 2. Шляхі да файлаў мадэлі
 # ---------------------------------------------------------
-repo_id = "archivartaunik/BE_XTTS_V2_20_Naciski"
 model_dir = "./model"
 os.makedirs(model_dir, exist_ok=True)
@@ -57,6 +57,7 @@ vocab_file = os.path.join(model_dir, "vocab.json")
 default_voice_file = os.path.join(model_dir, "voice.wav")
 speakers_file = os.path.join(model_dir, "speakers_xtts.pth")
 if not os.path.exists(checkpoint_file):
     hf_hub_download(repo_id, filename="model.pth", local_dir=model_dir)
 if not os.path.exists(config_file):
@@ -100,8 +101,8 @@ XTTS_MODEL.tokenizer = tokenizer
 # ---------------------------------------------------------
 # 4. Загрузка speakers_xtts.pth (гатовыя галасы)
 # ---------------------------------------------------------
-SPEAKERS_DB = {}
-SPEAKER_CHOICES = ["— з аўдыё (reference) —"]
 if os.path.exists(speakers_file):
     try:
@@ -147,9 +148,9 @@ else:
 # ---------------------------------------------------------
 @spaces.GPU(duration=60)
 def text_to_speech(
-    belarusian_story,
     speaker_audio_file=None,
-    preset_speaker="— з аўдыё (reference) —",
 ):
     if not belarusian_story or belarusian_story.strip() == "":
         raise gr.Error("Увядзі хоць нейкі тэкст 🙂")
@@ -176,15 +177,13 @@ def text_to_speech(
             )
     else:
         # калі аўдыё не перададзена — бярэм голас па змаўчанні
-        if not speaker_audio_file or (
-            not isinstance(speaker_audio_file, str)
-            and getattr(speaker_audio_file, "name", "") == ""
-        ):
-            speaker_audio_file = default_voice_file
         try:
             gpt_cond_latent, speaker_embedding = XTTS_MODEL.get_conditioning_latents(
-                audio_path=speaker_audio_file,
                 gpt_cond_len=XTTS_MODEL.config.gpt_cond_len,
                 max_ref_length=XTTS_MODEL.config.max_ref_len,
                 sound_norm_refs=XTTS_MODEL.config.sound_norm_refs,
@@ -217,7 +216,7 @@ def text_to_speech(
                     language="be",
                     gpt_cond_latent=gpt_cond_latent,
                     speaker_embedding=speaker_embedding,
-                    temperature=0.5,
                     length_penalty=1.0,
                     repetition_penalty=10.0,
                     top_k=10,
@@ -244,52 +243,96 @@ def text_to_speech(
 # ---------------------------------------------------------
 # 6. Прыклады
 # ---------------------------------------------------------
 examples = [
-    ["Такі́м чы́нам, клуб ста́ў улада́льнікам усі́х існых на сё́ння міжнаро́дных трафе́яў паўднёваамерыка́нскага футбо́лу.", "Nestarka.wav", "krai.wav"],
-    ["Яму не ўдалося палепшыць фінансавае становішча каралеўства, а, наадварот, прыйшлося распрадаваць каштоўнасці чэшскай кароны.", "muzh.wav", "examples/цуды.wav"],
-    ["Кампілятарамі называюць праграмы, якія пераўтвараюць код вышэйшага ўзроўню ў код ніжэйшага ўзроўню.", "chunk_100.wav", "examples/надВозерам.wav"],
-    ["Акрамя таго, ліхачы аддаюць перавагу рэгі, хіп-хопу і класічнай музыцы.", "d1015.mp3", "examples/Беларусь.wav"],
-    ["Позірк можа быць уважлівым, зацікаўленым, захопленым, але бывае і нахабным, задзірлівым, пагардлівым, напышлівым.", "donarka_ench.wav", "examples/цуды.wav"],
-    ["Такі нават шчыры, ці што: родная мова народу – трасянка, а беларуская яму чужая!", "muzhcynski.wav", "examples/цуды.wav"],
 ]
 demo = gr.Blocks()
 with demo:
     gr.Interface(
         fn=text_to_speech,
         inputs=[
             gr.Textbox(lines=5, label="Тэкст на беларускай мове"),
-            gr.Audio(type="filepath", label="Прыклад голасу (без іншых гукаў) не карацей 7 секунд", interactive=True),
             gr.Dropdown(
                 label="Падрыхтаваныя галасы ",
                 choices=SPEAKER_CHOICES,
                 value=SPEAKER_CHOICES[0],
             ),
         ],
-        outputs=gr.Audio(label="Згенераванае аўдыя"),
-        title="Belarusian TTS Demo + stresses",
         description="""
         <p>Увядзіце тэкст, і мадэль пераўтворыць яго ў аўдыя. Вы можаце выкарыстоўваць
-        голас па змаўчанні, абраць голас з прыкладаў унізе ці загрузіць уласны файл
-        або запісаць аўдыё.</p>
         <p><strong>Карысныя парады:</strong></p>
         <ul>
-            <li>Можна дадаваць націскі у тэкст. Знак U+0301 ставіцца альт + 769 на дадатковай клавіятуры, ці папрасіце нейрасетку паставіць націскі, ці скапіруйце адсюль а́ е́ ё́ і́ о́ у́ ы́ э́ ю́ я́ </li>
-	    <li>Выкарыстоўвайце прыклады з добрай якасцю, без іншых гукаў і разнастайнай інтанацыяй,
             ад яе моцна залежыць вынік.</li>
             <li>Прыклады галасоў могуць быць на любой мове.</li>
         </ul>
         <p>Каб палепшыць якасць мадэлі (націскі і дакладнасць кланавання галасоў), патрэбны дадатковыя датасэты.
-        Ахвяруйце свой голас праз <a href="https://Donar.by" target="_blank">Donar.by</a>, запішыце свой голас з
-        высокай якасцю і станьце ўзорным донарам
-        (<a href="https://forms.gle/TTirxTJNd3Ngw3dD6" target="_blank">запісацца тут</a>).</p>
-        <p>Далучайцеся да беларускаймоўнай суполкі ў ТГ, каб дапамагчы ці даведацца пра навіны ШІ:
         <p><strong>Падтрымаць праект:</strong> <a href="https://buymeacoffee.com/tuteishygpt" target="_blank">Buy Me a Coffee</a></p>
         """,
         examples=examples,
-        cache_examples=False
     )
 if __name__ == "__main__":

 # ---------------------------------------------------------
 # 2. Шляхі да файлаў мадэлі
 # ---------------------------------------------------------
+repo_id = "archivartaunik/BE_XTTS_V2_10ep250k"
 model_dir = "./model"
 os.makedirs(model_dir, exist_ok=True)
 default_voice_file = os.path.join(model_dir, "voice.wav")
 speakers_file = os.path.join(model_dir, "speakers_xtts.pth")
+# Спампоўваем асноўныя файлы мадэлі
 if not os.path.exists(checkpoint_file):
     hf_hub_download(repo_id, filename="model.pth", local_dir=model_dir)
 if not os.path.exists(config_file):
 # ---------------------------------------------------------
 # 4. Загрузка speakers_xtts.pth (гатовыя галасы)
 # ---------------------------------------------------------
+SPEAKERS_DB: dict[str, dict] = {}
+SPEAKER_CHOICES: list[str] = ["— з аўдыё (reference) —"]
 if os.path.exists(speakers_file):
     try:
 # ---------------------------------------------------------
 @spaces.GPU(duration=60)
 def text_to_speech(
+    belarusian_story: str,
     speaker_audio_file=None,
+    preset_speaker: str = "— з аўдыё (reference) —",
 ):
     if not belarusian_story or belarusian_story.strip() == "":
         raise gr.Error("Увядзі хоць нейкі тэкст 🙂")
             )
     else:
         # калі аўдыё не перададзена — бярэм голас па змаўчанні
+        ref_path = speaker_audio_file
+        if not ref_path or (not isinstance(ref_path, str) and getattr(ref_path, "name", "") == ""):
+            ref_path = default_voice_file
         try:
             gpt_cond_latent, speaker_embedding = XTTS_MODEL.get_conditioning_latents(
+                audio_path=ref_path,
                 gpt_cond_len=XTTS_MODEL.config.gpt_cond_len,
                 max_ref_length=XTTS_MODEL.config.max_ref_len,
                 sound_norm_refs=XTTS_MODEL.config.sound_norm_refs,
                     language="be",
                     gpt_cond_latent=gpt_cond_latent,
                     speaker_embedding=speaker_embedding,
+                    temperature=0.1,
                     length_penalty=1.0,
                     repetition_penalty=10.0,
                     top_k=10,
 # ---------------------------------------------------------
 # 6. Прыклады
+#    (3-яя калёнка — значэнне дропдауна: тут па змаўчанні
+#     выкарыстоўваем reference-аудыё, таму ставім базавы пункт меню)
 # ---------------------------------------------------------
 examples = [
+    [
+        "Такім чынам, клуб стаў уладальнікам усіх існых на сёння міжнародных трафеяў паўднёваамерыканскага футболу.",
+        "Nestarka.wav",
+    ],
+    [
+        "Яму не ўдалося палепшыць фінансавае становішча каралеўства, а, наадварот, прыйшлося распрадаваць каштоўнасці чэшскай кароны.",
+        "muzh.wav",
+    ],
+    [
+        "Кампілятарамі называюць праграмы, якія пераўтвараюць код вышэйшага ўзроўню ў код ніжэйшага ўзроўню.",
+        "chunk_100.wav",
+    ],
+    [
+        "Акрамя таго, ліхачы аддаюць перавагу рэгі, хіп-хопу і класічнай музыцы.",
+        "d1015.mp3",
+    ],
+    [
+        "Позірк можа быць уважлівым, зацікаўленым, захопленым, але бывае і нахабным, задзірлівым, пагардлівым, напышлівым.",
+        "donarka_ench.wav",
+    ],
+    [
+        "Такі нават шчыры, ці што: родная мова народу – трасянка, а беларуская яму чужая!",
+        "muzhcynski.wav",
+    ],
 ]
+analytics_script = """
+<script async src="https://www.googletagmanager.com/gtag/js?id=G-TKDCRCQ7FK"></script>
+<script>
+  window.dataLayer = window.dataLayer || [];
+  function gtag(){dataLayer.push(arguments);}
+  gtag('js', new Date());
+  gtag('config', 'G-TKDCRCQ7FK');
+</script>
+"""
+# ---------------------------------------------------------
+# 7. Графічны інтэрфейс Gradio з выбарам гатовых галасоў
+# ---------------------------------------------------------
 demo = gr.Blocks()
 with demo:
+    gr.HTML(analytics_script)
     gr.Interface(
         fn=text_to_speech,
         inputs=[
             gr.Textbox(lines=5, label="Тэкст на беларускай мове"),
+            gr.Audio(
+                type="filepath",
+                label="Прыклад голасу (без іншых гукаў) не карацей 7 секунд",
+                interactive=True,
+            ),
             gr.Dropdown(
                 label="Падрыхтаваныя галасы ",
                 choices=SPEAKER_CHOICES,
                 value=SPEAKER_CHOICES[0],
             ),
         ],
+        outputs=gr.Audio(
+            type="filepath",
+            label="Згенераванае аўдыя",
+        ),
+        title="Belarusian TTS Demo",
         description="""
         <p>Увядзіце тэкст, і мадэль пераўтворыць яго ў аўдыя. Вы можаце выкарыстоўваць
+        голас па змаўчанні, абраць голас з прыкладаў унізе, абраць гатовы голас з
+        <code>спісу замежных галасоў</code> або загрузіць уласны файл / запісаць аўдыё.</p>
         <p><strong>Карысныя парады:</strong></p>
         <ul>
+            <li>Выкарыстоўвайце прыклады з добрай якасцю, без іншых гукаў і з разнастайнай інтанацыяй —
             ад яе моцна залежыць вынік.</li>
+            <li>Інтанацыя таксама ўплывае на націскі.</li>
             <li>Прыклады галасоў могуць быць на любой мове.</li>
         </ul>
         <p>Каб палепшыць якасць мадэлі (націскі і дакладнасць кланавання галасоў), патрэбны дадатковыя датасэты.
+        Ахвяруйце свой голас праз <a href="https://Donar.by" target="_blank">Donar.by</a></p>
+        <p>Далучайцеся да нашай беларускай суполкі ў ТГ, каб дапамагчы ці даведацца пра навіны ШІ:
+        <a href="https://t.me/SHibelChat" target="_blank">https://t.me/SHibelChat</a>.</p>
         <p><strong>Падтрымаць праект:</strong> <a href="https://buymeacoffee.com/tuteishygpt" target="_blank">Buy Me a Coffee</a></p>
         """,
         examples=examples,
+        cache_examples=False,
     )
 if __name__ == "__main__":