Cascade-Edge

Sleeping

App Files Files Community

VSPAN commited on Nov 21, 2025

Commit

d7cf28b

verified ·

1 Parent(s): 5334ac4

Update app.py

Browse files

Files changed (1) hide show

app.py +174 -52

app.py CHANGED Viewed

@@ -4,69 +4,191 @@ import asyncio
 import tempfile
 import re
 import emoji
-# Функция для очистки текста от нежелательных символов и эмодзи
 def clean_text(text):
-    # Удаление указанных символов
     text = re.sub(r'[*_~><]', '', text)
-    # Удаление эмодзи
     text = emoji.replace_emoji(text, replace='')
     return text
-# Get all available voices
-async def get_voices():
-    voices = await edge_tts.list_voices()
-    return {f"{v['ShortName']} - {v['Locale']} ({v['Gender']})": v['ShortName'] for v in voices}
-# Text-to-speech function
-async def text_to_speech(text, voice, rate, pitch):
-    if not text.strip():
-        return None, gr.Warning("Please enter text to convert.")
-    if not voice:
-        return None, gr.Warning("Please select a voice.")
     # Очистка текста
-    text = clean_text(text)
-    voice_short_name = voice.split(" - ")[0]
     rate_str = f"{rate:+d}%"
     pitch_str = f"{pitch:+d}Hz"
-    communicate = edge_tts.Communicate(text, voice_short_name, rate=rate_str, pitch=pitch_str)
-    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
-        tmp_path = tmp_file.name
-        try:
-            await communicate.save(tmp_path)
-        except Exception as e:
-            return None, gr.Warning(f"An error occurred during text-to-speech conversion: {str(e)}")
-    return tmp_path, None
-# Gradio interface function
-def tts_interface(text, voice, rate, pitch):
-    audio, warning = asyncio.run(text_to_speech(text, voice, rate, pitch))
-    return audio, warning
-# Create Gradio application
-async def create_demo():
-    voices = await get_voices()
-    description = """
     """
-    demo = gr.Interface(
-        fn=tts_interface,
-        inputs=[
-            gr.Textbox(label="Input Text", lines=5),
-            gr.Dropdown(choices=[""] + list(voices.keys()), label="Select Voice", value=""),
-            gr.Slider(minimum=-50, maximum=50, value=0, label="Speech Rate Adjustment (%)", step=1),
-            gr.Slider(minimum=-20, maximum=20, value=0, label="Pitch Adjustment (Hz)", step=1)
-        ],
-        outputs=[
-            gr.Audio(label="Generated Audio", type="filepath"),
-            gr.Markdown(label="Warning", visible=False)
-        ],
-        title="Edge TTS Text-to-Speech",
-        description=description,
-        article="",
-        analytics_enabled=False,
-        allow_flagging="manual"
     )
     return demo
-# Run the application
 if __name__ == "__main__":
-    demo = asyncio.run(create_demo())
-    demo.launch()

 import tempfile
 import re
 import emoji
+import os
+import uuid
+# Глобальные переменные для хранения голосов
+VOICES_DATA = []
+VOICES_BY_GENDER = {}
+LANGUAGES = []
+# --- Вспомогательные функции ---
 def clean_text(text):
+    """
+    Очищает текст от спецсимволов и эмодзи для корректного озвучивания.
+    """
+    if not text:
+        return ""
+    # Удаление указанных спецсимволов
     text = re.sub(r'[*_~><]', '', text)
+    # Удаление эмодзи (библиотека emoji 2.6.0 использует replace_emoji)
     text = emoji.replace_emoji(text, replace='')
+    # Удаление лишних пробелов
+    text = re.sub(r'\s+', ' ', text).strip()
     return text
+async def load_voices_async():
+    """
+    Асинхронная загрузка списка голосов при старте.
+    """
+    global VOICES_DATA, LANGUAGES
+    try:
+        voices = await edge_tts.list_voices()
+        # Сортируем для удобства
+        VOICES_DATA = sorted(voices, key=lambda x: x['Locale'])
+        # Собираем уникальные языки (Locales)
+        seen_langs = set()
+        langs_list = []
+        for v in VOICES_DATA:
+            locale = v['Locale']
+            if locale not in seen_langs:
+                seen_langs.add(locale)
+                langs_list.append(locale)
+        LANGUAGES = sorted(langs_list)
+        print(f"✅ Успешно загружено {len(VOICES_DATA)} голосов и {len(LANGUAGES)} языков.")
+    except Exception as e:
+        print(f"❌ Ошибка при загрузке голосов: {e}")
+def filter_voices_by_language(language):
+    """
+    Возвращает список читаемых имен голосов для выбранного языка.
+    Формат: "ShortName (Gender)"
+    """
+    if not language:
+        return gr.Dropdown(choices=[])
+    filtered_voices = [
+        f"{v['ShortName']} ({v['Gender']})"
+        for v in VOICES_DATA
+        if v['Locale'] == language
+    ]
+    # Выбираем первый голос по умолчанию, если список не пуст
+    first_value = filtered_voices[0] if filtered_voices else None
+    return gr.Dropdown(choices=filtered_voices, value=first_value, interactive=True)
+# --- Основная функция генерации (Async) ---
+async def generate_speech(text, voice_friendly_name, rate, pitch):
+    """
+    Генерирует аудио из текста. Функция асинхронна, Gradio 4.x поддерживает это нативно.
+    """
+    if not text or not text.strip():
+        raise gr.Error("Пожалуйста, введите текст для озвучивания.")
+    if not voice_friendly_name:
+        raise gr.Error("Пожалуйста, выберите голос.")
+    # Извлекаем реальное имя голоса (ShortName) из строки "ShortName (Gender)"
+    voice_short_name = voice_friendly_name.split(" (")[0]
     # Очистка текста
+    clean_input = clean_text(text)
+    # Форматирование параметров
     rate_str = f"{rate:+d}%"
     pitch_str = f"{pitch:+d}Hz"
+    print(f"🔄 Генерация: Голос={voice_short_name}, Скорость={rate_str}, Тон={pitch_str}")
+    try:
+        communicate = edge_tts.Communicate(clean_input, voice_short_name, rate=rate_str, pitch=pitch_str)
+        # Создаем уникальное имя файла во временной директории
+        filename = f"tts_{uuid.uuid4()}.mp3"
+        output_path = os.path.join(tempfile.gettempdir(), filename)
+        await communicate.save(output_path)
+        return output_path
+    except Exception as e:
+        raise gr.Error(f"Ошибка генерации: {str(e)}")
+# --- Построение Интерфейса Gradio (Blocks) ---
+def create_demo():
+    # Запускаем цикл загрузки голосов синхронно перед отрисовкой UI
+    asyncio.run(load_voices_async())
+    css = """
+    .container { max-width: 900px; margin: auto; }
+    h1 { text-align: center; margin-bottom: 20px; }
     """
+    theme = gr.themes.Soft(
+        primary_hue="blue",
+        secondary_hue="indigo",
     )
+    with gr.Blocks(theme=theme, css=css, title="Ultra TTS") as demo:
+        gr.Markdown("# 🎧 Edge TTS: Генератор речи (High Quality)")
+        gr.Markdown("Преобразуйте текст в реалистичную речь бесплатно, используя Microsoft Edge Online Voices.")
+        with gr.Row():
+            with gr.Column(scale=1):
+                # Левая колонка: Настройки голоса
+                gr.Markdown("### 1. Выбор голоса")
+                lang_dropdown = gr.Dropdown(
+                    choices=LANGUAGES,
+                    label="Язык / Регион",
+                    value="ru-RU" if "ru-RU" in LANGUAGES else LANGUAGES[0] if LANGUAGES else None,
+                    interactive=True
+                )
+                # Инициализируем список голосов для дефолтного языка
+                initial_voices = [f"{v['ShortName']} ({v['Gender']})" for v in VOICES_DATA if v['Locale'] == lang_dropdown.value]
+                voice_dropdown = gr.Dropdown(
+                    choices=initial_voices,
+                    value=initial_voices[0] if initial_voices else None,
+                    label="Голос",
+                    interactive=True
+                )
+                gr.Markdown("### 3. Настройки звучания")
+                rate_slider = gr.Slider(minimum=-50, maximum=50, value=0, step=1, label="Скорость (%)")
+                pitch_slider = gr.Slider(minimum=-20, maximum=20, value=0, step=1, label="Высота тона (Hz)")
+            with gr.Column(scale=2):
+                # Правая колонка: Текст и результат
+                gr.Markdown("### 2. Текст")
+                text_input = gr.Textbox(
+                    label="Введите текст здесь",
+                    placeholder="Привет! Это пример текста для озвучивания.",
+                    lines=8,
+                    max_lines=20
+                )
+                generate_btn = gr.Button("🔊 Создать аудио", variant="primary", size="lg")
+                gr.Markdown("### 4. Результат")
+                audio_output = gr.Audio(label="Сгенерированное аудио", type="filepath", interactive=False)
+        # --- Логика взаимодействия ---
+        # Обновление списка голосов при смене языка
+        lang_dropdown.change(
+            fn=filter_voices_by_language,
+            inputs=[lang_dropdown],
+            outputs=[voice_dropdown]
+        )
+        # Генерация аудио
+        generate_btn.click(
+            fn=generate_speech,
+            inputs=[text_input, voice_dropdown, rate_slider, pitch_slider],
+            outputs=[audio_output]
+        )
     return demo
+# --- Запуск приложения ---
 if __name__ == "__main__":
+    # Создаем демо
+    demo_app = create_demo()
+    # Запускаем сервер
+    demo_app.launch(server_name="0.0.0.0", server_port=7860, show_error=True)