Cascade-Edge

Sleeping

App Files Files Community

VSPAN commited on Nov 21, 2025

Commit

743c0e7

verified ·

1 Parent(s): ddd6448

Update app.py

Browse files

Files changed (1) hide show

app.py +186 -129

app.py CHANGED Viewed

@@ -6,177 +6,234 @@ import os
 import uuid
 import re
 import shutil
 from pydub import AudioSegment
-# --- ПРОВЕРКА ОКРУЖЕНИЯ СЕРВЕРА ---
-# Проверяем, готов ли сервер к работе с аудио
 if not shutil.which("ffmpeg"):
-    print("⚠️ ВНИМАНИЕ: На сервере не найден FFmpeg. Склейка будет работать медленнее или с ошибками.")
-# --- КОНФИГУРАЦИЯ (ФЭНТЕЗИ ПРЕСЕТ) ---
-# Все эти настройки применяются НА СЕРВЕРЕ перед отправкой запроса
-VOICE_CONFIG = {
-    "narrator": {"voice": "ru-RU-DmitryNeural", "pitch": "-7Hz", "rate": "-5%"}, # Рассказчик (Эпик)
-    "male":     {"voice": "ru-RU-DenisNeural",  "pitch": "-2Hz", "rate": "+0%"}, # Мужчина
-    "female":   {"voice": "ru-RU-SvetlanaNeural","pitch": "+5Hz", "rate": "+5%"}  # Женщина
-}
-# Папка для временных файлов на сервере
 TEMP_DIR = tempfile.gettempdir()
-# --- ЛОГИКА СЕРВЕРА (Server-Side Logic) ---
-def analyze_text_structure(text):
-    """
-    Анализирует текст, используя CPU сервера.
-    Определяет пол по окончаниям глаголов русского языка.
-    """
-    segments = []
-    paragraphs = text.split('\n')
-    # Слова-маркеры (женские)
-    female_markers = [
-        r"сказала", r"спросила", r"ответила", r"прошептала", r"крикнула",
-        r"подумала", r"заметила", r"взглянула", r"обернулась"
-    ]
     for p in paragraphs:
         p = p.strip()
         if not p: continue
-        role = "narrator" # По умолчанию
-        # Если это прямая речь...
-        if p.startswith('—') or p.startswith('-') or '"' in p or '«' in p:
-            p_lower = p.lower()
-            # ...сервер ищет маркеры
-            is_female = any(re.search(m, p_lower) for m in female_markers)
-            if is_female:
                 role = "female"
             else:
-                # Если маркеров нет, но это диалог -> считаем мужчиной (стандарт для фэнтези)
-                role = "male"
         segments.append({"text": p, "role": role})
     return segments
-async def generate_server_side(text, progress=gr.Progress()):
-    """
-    Основная функция. Работает полностью в памяти сервера.
-    """
-    if not text.strip():
-        raise gr.Warning("Сервер не получил текст.")
-    print(f"⚙️ [Server] Начало обработки. RAM занята процессом...")
-    # 1. Анализ (CPU)
-    segments = analyze_text_structure(text)
-    # 2. Создаем пустой аудио-контейнер в памяти (RAM)
     full_audio = AudioSegment.empty()
-    # Временный список файлов для очистки
     temp_files = []
-    # 3. Цикл генерации
-    for item in progress.tqdm(segments, desc="Сервер генерирует аудио..."):
-        role = item["role"]
-        content = item["text"]
-        # Берем настройки
-        conf = VOICE_CONFIG.get(role, VOICE_CONFIG["narrator"])
-        # Путь к куску на диске сервера
-        segment_filename = f"server_seg_{uuid.uuid4().hex}.mp3"
-        segment_path = os.path.join(TEMP_DIR, segment_filename)
-        # Форматируем параметры
-        rate_str = conf["rate"]
-        pitch_str = conf["pitch"]
-        try:
-            # Запрос от Сервера к Microsoft (Клиент тут не участвует)
-            comm = edge_tts.Communicate(content, conf["voice"], rate=rate_str, pitch=pitch_str)
-            await comm.save(segment_path)
-            if os.path.exists(segment_path):
-                temp_files.append(segment_path)
-                # Загружаем кусок в RAM
-                seg_audio = AudioSegment.from_mp3(segment_path)
-                # Склейка в RAM (Crossfade 50ms для плавности)
-                if len(full_audio) > 0:
-                    full_audio = full_audio.append(seg_audio, crossfade=50)
-                else:
-                    full_audio = seg_audio
-        except Exception as e:
-            print(f"⚠️ [Server Error] Сбой на фразе '{content[:20]}': {e}")
-            # Если сбой, пробуем паузу и идем дальше
-            await asyncio.sleep(0.5)
-            continue
-    # 4. Сохранение итогового файла на диск сервера
-    output_filename = f"FANTASY_AUDIO_{uuid.uuid4().hex}.mp3"
-    output_path = os.path.join(TEMP_DIR, output_filename)
-    print(f"💾 [Server] Сохранение результата: {output_path}")
-    full_audio.export(output_path, format="mp3")
-    # 5. Очистка мусора с диска сервера
     for f in temp_files:
         try: os.remove(f)
         except: pass
-    # Возвращаем путь. Gradio сам передаст файл клиенту.
-    return output_path
 # --- ИНТЕРФЕЙС ---
 css = """
-body { background-color: #111827; color: #f3f4f6; }
-.container { max-width: 900px; margin: auto; }
 """
-theme = gr.themes.Soft(
-    primary_hue="indigo",
-    secondary_hue="slate",
-    neutral_hue="slate"
-)
-with gr.Blocks(theme=theme, css=css, title="Server-Side TTS Engine") as demo:
-    gr.Markdown("# 🖥️ Server-Side Fantasy Engine")
-    gr.Markdown("Вся обработка (анализ текста, генерация, склейка) выполняется на мощностях сервера.")
-    with gr.Row():
-        with gr.Column(scale=2):
-            text_input = gr.Textbox(
-                label="Текст Книги",
-                lines=12,
-                placeholder="Введите текст. Сервер сам определит роли (Мужчина/Женщина) по контексту.",
-                value="— Тише! — прошептала ведьма, глядя в темноту.\nРыцарь обнажил меч и ответил:\n— Я ничего не боюсь."
-            )
-            generate_btn = gr.Button("⚡ Запустить обработку на сервере", variant="primary", size="lg")
-        with gr.Column(scale=1):
-            gr.Markdown("### 📊 Монитор")
-            gr.Markdown("Используются ресурсы хостинга:")
-            gr.Code(value="CPU: Active (Parsing)\nRAM: Active (Audio Stitching)", language="yaml", label="Статус сервера")
-            audio_output = gr.Audio(label="Готовый файл с сервера", type="filepath")
-    # Привязка события
-    generate_btn.click(
-        fn=generate_server_side,
-        inputs=[text_input],
-        outputs=[audio_output]
-    )
 if __name__ == "__main__":
-    # Запуск сервера
     demo.queue().launch()

 import uuid
 import re
 import shutil
+import emoji
 from pydub import AudioSegment
+# --- ПРОВЕРКА СЕРВЕРА ---
 if not shutil.which("ffmpeg"):
+    print("⚠️ FFmpeg не найден! Склейка может не работать.")
+# --- ГЛОБАЛЬНЫЕ ПЕРЕМЕННЫЕ ---
+VOICES_CACHE = []
+LANGUAGES_CACHE = []
 TEMP_DIR = tempfile.gettempdir()
+# --- НАСТРОЙКИ ФЭНТЕЗИ (Для Авто-режима) ---
+FANTASY_PRESETS = {
+    "narrator": {"voice": "ru-RU-DmitryNeural", "pitch": "-7Hz", "rate": "-5%"},
+    "male":     {"voice": "ru-RU-DenisNeural",  "pitch": "-2Hz", "rate": "+0%"},
+    "female":   {"voice": "ru-RU-SvetlanaNeural","pitch": "+5Hz", "rate": "+5%"}
+}
+# --- ФУНКЦИИ ПОДГОТОВКИ ---
+def clean_text(text):
+    if not text: return ""
+    text = re.sub(r'[*_~><^]', '', text)
+    text = emoji.replace_emoji(text, replace='')
+    text = re.sub(r'\s+', ' ', text).strip()
+    return text
+async def load_voices_init():
+    """Загружаем голоса один раз при старте сервера"""
+    global VOICES_CACHE, LANGUAGES_CACHE
+    try:
+        voices = await edge_tts.list_voices()
+        VOICES_CACHE = sorted(voices, key=lambda x: x['Locale'])
+        seen = set()
+        LANGUAGES_CACHE = []
+        for v in VOICES_CACHE:
+            if v['Locale'] not in seen:
+                seen.add(v['Locale'])
+                LANGUAGES_CACHE.append(v['Locale'])
+        LANGUAGES_CACHE.sort()
+        print(f"✅ [Server] Голоса загружены: {len(VOICES_CACHE)}")
+    except Exception as e:
+        print(f"❌ Ошибка загрузки голосов: {e}")
+        LANGUAGES_CACHE = ["ru-RU", "en-US"]
+# --- ФИЛЬТРЫ UI ---
+def filter_voices_ui(language):
+    if not language: return gr.Dropdown(choices=[])
+    filtered = [f"{v['ShortName']} ({v['Gender']})" for v in VOICES_CACHE if v['Locale'] == language]
+    # Пытаемся найти Дмитрия или Светлану по дефолту
+    def_val = filtered[0] if filtered else None
+    for v in filtered:
+        if "Dmitry" in v: def_val = v; break
+    return gr.Dropdown(choices=filtered, value=def_val)
+# --- ДВИЖОК ГЕНЕРАЦИИ (SERVER SIDE) ---
+async def generate_segment_internal(text, voice, rate, pitch):
+    """Генерирует один кусок аудио во временную папку сервера"""
+    if not text.strip(): return None
+    fname = f"seg_{uuid.uuid4().hex}.mp3"
+    fpath = os.path.join(TEMP_DIR, fname)
+    # Убеждаемся в формате параметров
+    rate_str = rate if isinstance(rate, str) else f"{int(rate):+d}%"
+    pitch_str = pitch if isinstance(pitch, str) else f"{int(pitch):+d}Hz"
+    try:
+        comm = edge_tts.Communicate(text, voice, rate=rate_str, pitch=pitch_str)
+        await comm.save(fpath)
+        if os.path.exists(fpath) and os.path.getsize(fpath) > 0:
+            return fpath
+    except Exception as e:
+        print(f"⚠️ Ошибка фрагмента: {e}")
+    return None
+# === РЕЖИМ 1: ФЭНТЕЗИ АВТО ===
+def analyze_text_roles(text):
+    """Парсит текст и ищет женщин/мужчин по глаголам"""
+    segments = []
+    # Маркеры женского рода
+    female_markers = [r"сказала", r"спросила", r"ответила", r"прошептала", r"крикнула", r"подумала"]
+    paragraphs = text.split('\n')
     for p in paragraphs:
         p = p.strip()
         if not p: continue
+        role = "narrator"
+        # Если диалог
+        if p.startswith('—') or p.startswith('-') or '"' in p:
+            p_low = p.lower()
+            if any(re.search(m, p_low) for m in female_markers):
                 role = "female"
             else:
+                role = "male" # Дефолт для диалога
         segments.append({"text": p, "role": role})
     return segments
+async def process_fantasy_mode(text):
+    if not text.strip(): raise gr.Warning("Текст пуст!")
+    print("⚔️ [Fantasy Mode] Анализ текста...")
+    segments = analyze_text_roles(text)
     full_audio = AudioSegment.empty()
     temp_files = []
+    progress = gr.Progress()
+    for item in progress.tqdm(segments, desc="Ковка аудио..."):
+        # Берем настройки из пресетов
+        conf = FANTASY_PRESETS[item['role']]
+        path = await generate_segment_internal(item['text'], conf['voice'], conf['rate'], conf['pitch'])
+        if path:
+            temp_files.append(path)
+            seg = AudioSegment.from_mp3(path)
+            # Склейка с нахлестом (Crossfade)
+            if len(full_audio) > 0:
+                full_audio = full_audio.append(seg, crossfade=50)
+            else:
+                full_audio = seg
+            # Пауза для API
+            await asyncio.sleep(0.1)
+    out_path = os.path.join(TEMP_DIR, f"fantasy_{uuid.uuid4().hex}.mp3")
+    full_audio.export(out_path, format="mp3")
+    # Уборка
     for f in temp_files:
         try: os.remove(f)
         except: pass
+    return out_path, segments
+# === РЕЖИМ 2: РУЧНОЙ КОНТРОЛЬ ===
+async def process_manual_mode(text, voice_raw, rate, pitch):
+    if not text.strip(): raise gr.Warning("Текст пуст!")
+    if not voice_raw: raise gr.Warning("Выберите голос!")
+    print("🛠️ [Manual Mode] Генерация...")
+    voice = voice_raw.split(" (")[0]
+    # Здесь мы тоже используем pydub и Server-Side сохранение,
+    # чтобы браузер пользователя не напрягался.
+    out_path = await generate_segment_internal(text, voice, rate, pitch)
+    if not out_path:
+        raise gr.Error("Ошибка генерации. Попробуйте другой голос или текст.")
+    return out_path
 # --- ИНТЕРФЕЙС ---
+# Запуск загрузки голосов
+asyncio.run(load_voices_init())
+# Дефолты
+DEF_LANG = "ru-RU"
+DEF_VOICES = [f"{v['ShortName']} ({v['Gender']})" for v in VOICES_CACHE if v['Locale'] == DEF_LANG]
+DEF_VAL = next((v for v in DEF_VOICES if "Dmitry" in v), DEF_VOICES[0] if DEF_VOICES else None)
 css = """
+body {background-color: #111827; color: #e5e7eb;}
+.container {max-width: 950px; margin: auto;}
+h1 {color: #fbbf24; font-family: serif; text-align: center; font-size: 2.5em;}
 """
+theme = gr.themes.Soft(primary_hue="amber", secondary_hue="slate")
+with gr.Blocks(theme=theme, css=css, title="Final TTS Studio") as demo:
+    gr.Markdown("# 🍺 Fantasy TTS: Final Cut")
+    with gr.Tabs():
+        # --- Вкладка 1: Фэнтези Авто ---
+        with gr.TabItem("🧙‍♂️ Фэнтези Авто"):
+            with gr.Row():
+                with gr.Column(scale=2):
+                    f_text = gr.Textbox(
+                        label="Текст Легенды", lines=12,
+                        placeholder="— Кто там? — спросила ведьма.\nРыцарь ответил: — Твоя судьба.",
+                        value='— Стой! — крикнул рыцарь.\nВедьма обернулась и прошептала:\n— Тебе не пройти.'
+                    )
+                    f_btn = gr.Button("✨ Сотворить Магию (Auto)", variant="primary", size="lg")
+                with gr.Column(scale=1):
+                    gr.Markdown("### 📜 Пресеты (Вшито)")
+                    gr.Markdown("- **Рассказчик:** Дмитрий (-7Hz, -5%)")
+                    gr.Markdown("- **Мужчины:** Денис (-2Hz)")
+                    gr.Markdown("- **Женщины:** Светлана (+5Hz)")
+                    f_audio = gr.Audio(label="Результат", type="filepath")
+                    f_debug = gr.JSON(label="Разбор ролей")
+            f_btn.click(process_fantasy_mode, inputs=f_text, outputs=[f_audio, f_debug])
+        # --- Вкладка 2: Полный Ручной Контроль ---
+        with gr.TabItem("⚙️ Ручной Режим"):
+            with gr.Row():
+                with gr.Column(scale=1):
+                    gr.Markdown("### Настройки Голоса")
+                    m_lang = gr.Dropdown(choices=LANGUAGES_CACHE, value=DEF_LANG, label="1. Язык")
+                    m_voice = gr.Dropdown(choices=DEF_VOICES, value=DEF_VAL, label="2. Голос")
+                    gr.Markdown("---")
+                    m_rate = gr.Slider(-50, 50, value=0, step=1, label="Скорость (%)")
+                    m_pitch = gr.Slider(-20, 20, value=0, step=1, label="Тон (Hz)")
+                with gr.Column(scale=2):
+                    m_text = gr.Textbox(
+                        label="Текст", lines=10,
+                        value="Привет! Это ручной режим. Здесь ты сам себе режиссер."
+                    )
+                    m_btn = gr.Button("🔊 Озвучить (Manual)", variant="secondary", size="lg")
+                    m_audio = gr.Audio(label="Результат", type="filepath")
+            # Привязка событий ручного режима
+            m_lang.change(filter_voices_ui, inputs=m_lang, outputs=m_voice)
+            m_btn.click(process_manual_mode, inputs=[m_text, m_voice, m_rate, m_pitch], outputs=m_audio)
 if __name__ == "__main__":
     demo.queue().launch()