Cascade-Edge

Sleeping

App Files Files Community

VSPAN commited on Nov 21, 2025

Commit

e40a9fa

verified ·

1 Parent(s): 743c0e7

Update app.py

Browse files

Files changed (1) hide show

app.py +113 -169

app.py CHANGED Viewed

@@ -11,31 +11,30 @@ from pydub import AudioSegment
 # --- ПРОВЕРКА СЕРВЕРА ---
 if not shutil.which("ffmpeg"):
-    print("⚠️ FFmpeg не найден! Склейка может не работать.")
 # --- ГЛОБАЛЬНЫЕ ПЕРЕМЕННЫЕ ---
 VOICES_CACHE = []
 LANGUAGES_CACHE = []
 TEMP_DIR = tempfile.gettempdir()
-# --- НАСТРОЙКИ ФЭНТЕЗИ (Для Авто-режима) ---
-FANTASY_PRESETS = {
-    "narrator": {"voice": "ru-RU-DmitryNeural", "pitch": "-7Hz", "rate": "-5%"},
-    "male":     {"voice": "ru-RU-DenisNeural",  "pitch": "-2Hz", "rate": "+0%"},
-    "female":   {"voice": "ru-RU-SvetlanaNeural","pitch": "+5Hz", "rate": "+5%"}
-}
-# --- ФУНКЦИИ ПОДГОТОВКИ ---
-def clean_text(text):
     if not text: return ""
     text = re.sub(r'[*_~><^]', '', text)
     text = emoji.replace_emoji(text, replace='')
     text = re.sub(r'\s+', ' ', text).strip()
     return text
 async def load_voices_init():
-    """Загружаем голоса один раз при старте сервера"""
     global VOICES_CACHE, LANGUAGES_CACHE
     try:
         voices = await edge_tts.list_voices()
@@ -48,192 +47,137 @@ async def load_voices_init():
                 seen.add(v['Locale'])
                 LANGUAGES_CACHE.append(v['Locale'])
         LANGUAGES_CACHE.sort()
-        print(f"✅ [Server] Голоса загружены: {len(VOICES_CACHE)}")
     except Exception as e:
-        print(f"❌ Ошибка загрузки голосов: {e}")
         LANGUAGES_CACHE = ["ru-RU", "en-US"]
-# --- ФИЛЬТРЫ UI ---
-def filter_voices_ui(language):
     if not language: return gr.Dropdown(choices=[])
     filtered = [f"{v['ShortName']} ({v['Gender']})" for v in VOICES_CACHE if v['Locale'] == language]
-    # Пытаемся найти Дмитрия или Светлану по дефолту
-    def_val = filtered[0] if filtered else None
-    for v in filtered:
-        if "Dmitry" in v: def_val = v; break
-    return gr.Dropdown(choices=filtered, value=def_val)
-# --- ДВИЖОК ГЕНЕРАЦИИ (SERVER SIDE) ---
-async def generate_segment_internal(text, voice, rate, pitch):
-    """Генерирует один кусок аудио во временную папку сервера"""
-    if not text.strip(): return None
-    fname = f"seg_{uuid.uuid4().hex}.mp3"
-    fpath = os.path.join(TEMP_DIR, fname)
-    # Убеждаемся в формате параметров
-    rate_str = rate if isinstance(rate, str) else f"{int(rate):+d}%"
-    pitch_str = pitch if isinstance(pitch, str) else f"{int(pitch):+d}Hz"
-    try:
-        comm = edge_tts.Communicate(text, voice, rate=rate_str, pitch=pitch_str)
-        await comm.save(fpath)
-        if os.path.exists(fpath) and os.path.getsize(fpath) > 0:
-            return fpath
-    except Exception as e:
-        print(f"⚠️ Ошибка фрагмента: {e}")
-    return None
-# === РЕЖИМ 1: ФЭНТЕЗИ АВТО ===
-def analyze_text_roles(text):
-    """Парсит текст и ищет женщин/мужчин по глаголам"""
-    segments = []
-    # Маркеры женского рода
-    female_markers = [r"сказала", r"спросила", r"ответила", r"прошептала", r"крикнула", r"подумала"]
-    paragraphs = text.split('\n')
-    for p in paragraphs:
-        p = p.strip()
-        if not p: continue
-        role = "narrator"
-        # Если диалог
-        if p.startswith('—') or p.startswith('-') or '"' in p:
-            p_low = p.lower()
-            if any(re.search(m, p_low) for m in female_markers):
-                role = "female"
-            else:
-                role = "male" # Дефолт для диалога
-        segments.append({"text": p, "role": role})
-    return segments
-async def process_fantasy_mode(text):
-    if not text.strip(): raise gr.Warning("Текст пуст!")
-    print("⚔️ [Fantasy Mode] Анализ текста...")
-    segments = analyze_text_roles(text)
-    full_audio = AudioSegment.empty()
-    temp_files = []
-    progress = gr.Progress()
-    for item in progress.tqdm(segments, desc="Ковка аудио..."):
-        # Берем настройки из пресетов
-        conf = FANTASY_PRESETS[item['role']]
-        path = await generate_segment_internal(item['text'], conf['voice'], conf['rate'], conf['pitch'])
-        if path:
-            temp_files.append(path)
-            seg = AudioSegment.from_mp3(path)
-            # Склейка с нахлестом (Crossfade)
-            if len(full_audio) > 0:
-                full_audio = full_audio.append(seg, crossfade=50)
-            else:
-                full_audio = seg
-            # Пауза для API
-            await asyncio.sleep(0.1)
-    out_path = os.path.join(TEMP_DIR, f"fantasy_{uuid.uuid4().hex}.mp3")
-    full_audio.export(out_path, format="mp3")
-    # Уборка
-    for f in temp_files:
-        try: os.remove(f)
-        except: pass
-    return out_path, segments
-# === РЕЖИМ 2: РУЧНОЙ КОНТРОЛЬ ===
-async def process_manual_mode(text, voice_raw, rate, pitch):
-    if not text.strip(): raise gr.Warning("Текст пуст!")
-    if not voice_raw: raise gr.Warning("Выберите голос!")
-    print("🛠️ [Manual Mode] Генерация...")
-    voice = voice_raw.split(" (")[0]
-    # Здесь мы тоже используем pydub и Server-Side сохранение,
-    # чтобы браузер пользователя не напрягался.
-    out_path = await generate_segment_internal(text, voice, rate, pitch)
-    if not out_path:
-        raise gr.Error("Ошибка генерации. Попробуйте другой голос или текст.")
-    return out_path
-# --- ИНТЕРФЕЙС ---
-# Запуск загрузки голосов
 asyncio.run(load_voices_init())
-# Дефолты
-DEF_LANG = "ru-RU"
-DEF_VOICES = [f"{v['ShortName']} ({v['Gender']})" for v in VOICES_CACHE if v['Locale'] == DEF_LANG]
-DEF_VAL = next((v for v in DEF_VOICES if "Dmitry" in v), DEF_VOICES[0] if DEF_VOICES else None)
 css = """
 body {background-color: #111827; color: #e5e7eb;}
-.container {max-width: 950px; margin: auto;}
-h1 {color: #fbbf24; font-family: serif; text-align: center; font-size: 2.5em;}
 """
 theme = gr.themes.Soft(primary_hue="amber", secondary_hue="slate")
-with gr.Blocks(theme=theme, css=css, title="Final TTS Studio") as demo:
-    gr.Markdown("# 🍺 Fantasy TTS: Final Cut")
-    with gr.Tabs():
-        # --- Вкладка 1: Фэнтези Авто ---
-        with gr.TabItem("🧙‍♂️ Фэнтези Авто"):
-            with gr.Row():
-                with gr.Column(scale=2):
-                    f_text = gr.Textbox(
-                        label="Текст Легенды", lines=12,
-                        placeholder="— Кто там? — спросила ведьма.\nРыцарь ответил: — Твоя судьба.",
-                        value='— Стой! — крикнул рыцарь.\nВедьма обернулась и прошептала:\n— Тебе не пройти.'
-                    )
-                    f_btn = gr.Button("✨ Сотворить Магию (Auto)", variant="primary", size="lg")
-                with gr.Column(scale=1):
-                    gr.Markdown("### 📜 Пресеты (Вшито)")
-                    gr.Markdown("- **Рассказчик:** Дмитрий (-7Hz, -5%)")
-                    gr.Markdown("- **Мужчины:** Денис (-2Hz)")
-                    gr.Markdown("- **Женщины:** Светлана (+5Hz)")
-                    f_audio = gr.Audio(label="Результат", type="filepath")
-                    f_debug = gr.JSON(label="Разбор ролей")
-            f_btn.click(process_fantasy_mode, inputs=f_text, outputs=[f_audio, f_debug])
-        # --- Вкладка 2: Полный Ручной Контроль ---
-        with gr.TabItem("⚙️ Ручной Режим"):
-            with gr.Row():
-                with gr.Column(scale=1):
-                    gr.Markdown("### Настройки Голоса")
-                    m_lang = gr.Dropdown(choices=LANGUAGES_CACHE, value=DEF_LANG, label="1. Язык")
-                    m_voice = gr.Dropdown(choices=DEF_VOICES, value=DEF_VAL, label="2. Голос")
-                    gr.Markdown("---")
-                    m_rate = gr.Slider(-50, 50, value=0, step=1, label="Скорость (%)")
-                    m_pitch = gr.Slider(-20, 20, value=0, step=1, label="Тон (Hz)")
-                with gr.Column(scale=2):
-                    m_text = gr.Textbox(
-                        label="Текст", lines=10,
-                        value="Привет! Это ручной режим. Здесь ты сам себе режиссер."
-                    )
-                    m_btn = gr.Button("🔊 Озвучить (Manual)", variant="secondary", size="lg")
-                    m_audio = gr.Audio(label="Результат", type="filepath")
-            # Привязка событий ручного режима
-            m_lang.change(filter_voices_ui, inputs=m_lang, outputs=m_voice)
-            m_btn.click(process_manual_mode, inputs=[m_text, m_voice, m_rate, m_pitch], outputs=m_audio)
 if __name__ == "__main__":
     demo.queue().launch()

 # --- ПРОВЕРКА СЕРВЕРА ---
 if not shutil.which("ffmpeg"):
+    print("⚠️ FFmpeg не найден! Убедитесь, что он установлен на хостинге.")
 # --- ГЛОБАЛЬНЫЕ ПЕРЕМЕННЫЕ ---
 VOICES_CACHE = []
 LANGUAGES_CACHE = []
 TEMP_DIR = tempfile.gettempdir()
+# --- ОЧИСТКА ТЕКСТА ---
+def clean_text_server_side(text):
+    """
+    Удаляет эмодзи и спецсимволы, чтобы робот их не читал.
+    Выполняется на сервере.
+    """
     if not text: return ""
+    # Удаляем звездочки, тильды и прочий мусор форматирования
     text = re.sub(r'[*_~><^]', '', text)
+    # Удаляем эмодзи (превращаем их в пустоту)
     text = emoji.replace_emoji(text, replace='')
+    # Убираем лишние пробелы
     text = re.sub(r'\s+', ' ', text).strip()
     return text
+# --- ЗАГРУЗКА ГОЛОСОВ ---
 async def load_voices_init():
     global VOICES_CACHE, LANGUAGES_CACHE
     try:
         voices = await edge_tts.list_voices()
                 seen.add(v['Locale'])
                 LANGUAGES_CACHE.append(v['Locale'])
         LANGUAGES_CACHE.sort()
+        print(f"✅ Голоса загружены: {len(VOICES_CACHE)}")
     except Exception as e:
+        print(f"❌ Ошибка: {e}")
         LANGUAGES_CACHE = ["ru-RU", "en-US"]
+# --- ФИЛЬТР ГОЛОСОВ (UI) ---
+def update_voice_list(language):
     if not language: return gr.Dropdown(choices=[])
     filtered = [f"{v['ShortName']} ({v['Gender']})" for v in VOICES_CACHE if v['Locale'] == language]
+    # Ищем Светлану по дефолту
+    default_val = filtered[0] if filtered else None
+    for v in filtered:
+        if "Svetlana" in v:
+            default_val = v
+            break
+    return gr.Dropdown(choices=filtered, value=default_val)
+# --- ГЕНЕРАЦИЯ (SERVER ENGINE) ---
+async def generate_server_audio(text, voice_raw, rate, pitch):
+    if not text.strip():
+        raise gr.Warning("Текст пуст!")
+    if not voice_raw:
+        raise gr.Warning("Выберите голос!")
+    # Очистка
+    clean_txt = clean_text_server_side(text)
+    voice = voice_raw.split(" (")[0]
+    # Параметры
+    rate_str = f"{int(rate):+d}%"
+    pitch_str = f"{int(pitch):+d}Hz"
+    # Пути
+    temp_filename = f"raw_{uuid.uuid4().hex}.mp3"
+    temp_path = os.path.join(TEMP_DIR, temp_filename)
+    final_filename = f"RESULT_{uuid.uuid4().hex}.mp3"
+    final_path = os.path.join(TEMP_DIR, final_filename)
+    print(f"⚙️ [Server] Генерация: {voice} | Тон: {pitch_str}")
+    try:
+        # 1. Скачиваем аудио от Microsoft на диск сервера
+        comm = edge_tts.Communicate(clean_txt, voice, rate=rate_str, pitch=pitch_str)
+        await comm.save(temp_path)
+        # 2. Обрабатываем через Pydub (чтобы задействовать CPU сервера и проверить файл)
+        if os.path.exists(temp_path) and os.path.getsize(temp_path) > 0:
+            audio = AudioSegment.from_mp3(temp_path)
+            audio.export(final_path, format="mp3")
+            # Удаляем черновик
+            os.remove(temp_path)
+            return final_path
+        else:
+            raise Exception("Файл не создался (пустой).")
+    except Exception as e:
+        # Ловим ошибки 403 и прочие
+        if "403" in str(e):
+            raise gr.Error("Ошибка доступа (403). Сервер Microsoft временно недоступен.")
+        raise gr.Error(f"Ошибка сервера: {str(e)}")
+# --- ЗАПУСК ---
+# Грузим голоса перед стартом
 asyncio.run(load_voices_init())
+# НАСТРОЙКИ ПО УМОЛЧАНИЮ
+DEFAULT_LANG = "ru-RU"
+# Фильтруем список для русского языка
+START_VOICES = [f"{v['ShortName']} ({v['Gender']})" for v in VOICES_CACHE if v['Locale'] == DEFAULT_LANG]
+# Ставим Светлану
+DEFAULT_VOICE = next((v for v in START_VOICES if "Svetlana" in v), START_VOICES[0] if START_VOICES else None)
+# Стилизация
 css = """
 body {background-color: #111827; color: #e5e7eb;}
+.container {max-width: 850px; margin: auto;}
+h1 {color: #fbbf24; text-align: center; font-family: serif;}
 """
 theme = gr.themes.Soft(primary_hue="amber", secondary_hue="slate")
+with gr.Blocks(theme=theme, css=css, title="TTS Server Classic") as demo:
+    gr.Markdown("# 🎙️ TTS Server Classic")
+    with gr.Row():
+        # КОЛОНКА НАСТРОЕК
+        with gr.Column(scale=1):
+            gr.Markdown("### ⚙️ Параметры")
+            lang_dr = gr.Dropdown(
+                choices=LANGUAGES_CACHE,
+                value=DEFAULT_LANG,
+                label="Язык",
+                interactive=True
+            )
+            voice_dr = gr.Dropdown(
+                choices=START_VOICES,
+                value=DEFAULT_VOICE,
+                label="Голос",
+                interactive=True
+            )
+            gr.Markdown("---")
+            # Дефолт: -7 Hz, как ты просил
+            rate_sl = gr.Slider(-50, 50, value=0, step=1, label="Скорость (%)")
+            pitch_sl = gr.Slider(-20, 20, value=-7, step=1, label="Тон (Hz)")
+        # КОЛОНКА ТЕКСТА
+        with gr.Column(scale=2):
+            gr.Markdown("### 📝 Текст")
+            text_in = gr.Textbox(
+                label="",
+                lines=10,
+                placeholder="Введите текст... Эмодзи будут удалены автоматически.",
+                value="Привет! Я готова читать твой текст. Эмодзи вроде этих 😊🚀 будут удалены."
+            )
+            btn = gr.Button("🔊 Озвучить (Server)", variant="primary", size="lg")
+            audio_out = gr.Audio(label="Готовый файл", type="filepath")
+    # Логика интерфейса
+    lang_dr.change(update_voice_list, inputs=lang_dr, outputs=voice_dr)
+    btn.click(generate_server_audio, inputs=[text_in, voice_dr, rate_sl, pitch_sl], outputs=audio_out)
 if __name__ == "__main__":
     demo.queue().launch()