Cascade-Edge

Sleeping

App Files Files Community

VSPAN commited on Nov 21, 2025

Commit

ddd6448

verified ·

1 Parent(s): b6f87b9

Update app.py

Browse files

Files changed (1) hide show

app.py +144 -108

app.py CHANGED Viewed

@@ -5,142 +5,178 @@ import tempfile
 import os
 import uuid
 import re
-import emoji
-# --- НАСТРОЙКИ ---
-# Глобальные переменные
-VOICES_CACHE = []
-LANGUAGES_CACHE = []
-# --- ОЧИСТКА ТЕКСТА ---
-def clean_text(text):
-    if not text: return ""
-    # Microsoft не любит некоторые спецсимволы, убираем их
-    text = re.sub(r'[*_~><^]', '', text)
-    text = emoji.replace_emoji(text, replace='')
-    text = re.sub(r'\s+', ' ', text).strip()
-    return text
-# --- ЗАГРУЗКА ГОЛОСОВ ---
-async def load_voices_async():
-    global VOICES_CACHE, LANGUAGES_CACHE
-    try:
-        print("⏳ Загрузка голосов...")
-        voices = await edge_tts.list_voices()
-        VOICES_CACHE = sorted(voices, key=lambda x: x['Locale'])
-        seen = set()
-        LANGUAGES_CACHE = []
-        for v in VOICES_CACHE:
-            if v['Locale'] not in seen:
-                seen.add(v['Locale'])
-                LANGUAGES_CACHE.append(v['Locale'])
-        LANGUAGES_CACHE.sort()
-        print(f"✅ Успешно загружено {len(VOICES_CACHE)} голосов.")
-    except Exception as e:
-        print(f"❌ Ошибка загрузки: {e}")
-        LANGUAGES_CACHE = ["ru-RU", "en-US"]
-def filter_voices(language):
-    if not language: return gr.Dropdown(choices=[])
-    filtered = [f"{v['ShortName']} ({v['Gender']})" for v in VOICES_CACHE if v['Locale'] == language]
-    # Авто-выбор Светланы
-    default_voice = filtered[0] if filtered else None
-    for v in filtered:
-        if "Svetlana" in v:
-            default_voice = v
-            break
-    return gr.Dropdown(choices=filtered, value=default_voice)
-# --- ГЕНЕРАЦИЯ (С ЗАЩИТОЙ ОТ СБОЕВ) ---
-async def generate_speech(text, voice_str, rate, pitch):
     if not text.strip():
-        raise gr.Warning("Введите текст!")
-    if not voice_str:
-        raise gr.Warning("Выберите голос!")
-    voice_short = voice_str.split(" (")[0]
-    clean_input = clean_text(text)
-    # Форматирование: Microsoft любит "+0Hz", но и��огда "-7Hz" может вызвать сбой.
-    # Убедимся, что формат строгий.
-    rate_str = f"{int(rate):+d}%"
-    pitch_str = f"{int(pitch):+d}Hz"
-    filename = f"tts_{uuid.uuid4().hex}.mp3"
-    output_path = os.path.join(tempfile.gettempdir(), filename)
-    print(f"🎙️ Попытка генерации: {voice_short} | {pitch_str} | {rate_str}")
-    # 3 Попытки на случай разрыва соединения
-    max_retries = 3
-    last_error = ""
-    for attempt in range(max_retries):
         try:
-            communicate = edge_tts.Communicate(clean_input, voice_short, rate=rate_str, pitch=pitch_str)
-            await communicate.save(output_path)
-            if os.path.exists(output_path) and os.path.getsize(output_path) > 0:
-                return output_path
-            else:
-                raise Exception("Файл создан, но пуст (0 байт)")
         except Exception as e:
-            last_error = str(e)
-            print(f"⚠️ Попытка {attempt+1} не удалась: {last_error}")
-            await asyncio.sleep(1) # Ждем секунду перед повтором
-    # Если ничего не помогло
-    if "NoAudioReceived" in last_error:
-        raise gr.Error("Microsoft сбрасывает соединение. Попробуйте изменить текст или перезагрузить страницу.")
-    else:
-        raise gr.Error(f"Ошибка после {max_retries} попыток: {last_error}")
-# --- ЗАПУСК ---
-# Грузим голоса
-asyncio.run(load_voices_async())
-DEFAULT_LANG = "ru-RU"
-START_VOICES = []
-# Безопасный поиск стартовых голосов
-if VOICES_CACHE:
-    START_VOICES = [f"{v['ShortName']} ({v['Gender']})" for v in VOICES_CACHE if v['Locale'] == DEFAULT_LANG]
-DEFAULT_VOICE = None
-if START_VOICES:
-    # Ищем Светлану
-    DEFAULT_VOICE = next((v for v in START_VOICES if "Svetlana" in v), START_VOICES[0])
-css = "body {background-color: #0b0f19;} .container {max-width: 850px; margin: auto;}"
-theme = gr.themes.Soft(primary_hue="purple")
-with gr.Blocks(theme=theme, css=css, title="Fantasy TTS Fixed") as demo:
-    gr.Markdown("# 🧙‍♀️ Fantasy TTS (Stable)")
     with gr.Row():
         with gr.Column(scale=1):
-            gr.Markdown("### Настройки")
-            lang = gr.Dropdown(choices=LANGUAGES_CACHE, value=DEFAULT_LANG, label="Язык", interactive=True)
-            voice = gr.Dropdown(choices=START_VOICES, value=DEFAULT_VOICE, label="Голос", interactive=True)
-            # Слайдеры: по умолчанию -7 Hz
-            slider_rate = gr.Slider(-50, 50, value=0, step=1, label="Скорость (%)")
-            slider_pitch = gr.Slider(-20, 20, value=-7, step=1, label="Тон (Hz) [-7 для Фэнтези]")
-        with gr.Column(scale=2):
-            gr.Markdown("### Текст")
-            txt = gr.Textbox(lines=8, value="", label="")
-            btn = gr.Button("🔮 Озвучить", variant="primary")
-            audio = gr.Audio(label="Аудио")
-    lang.change(filter_voices, inputs=lang, outputs=voice)
-    btn.click(generate_speech, inputs=[txt, voice, slider_rate, slider_pitch], outputs=audio)
 if __name__ == "__main__":
     demo.queue().launch()

 import os
 import uuid
 import re
+import shutil
+from pydub import AudioSegment
+# --- ПРОВЕРКА ОКРУЖЕНИЯ СЕРВЕРА ---
+# Проверяем, готов ли сервер к работе с аудио
+if not shutil.which("ffmpeg"):
+    print("⚠️ ВНИМАНИЕ: На сервере не найден FFmpeg. Склейка будет работать медленнее или с ошибками.")
+# --- КОНФИГУРАЦИЯ (ФЭНТЕЗИ ПРЕСЕТ) ---
+# Все эти настройки применяются НА СЕРВЕРЕ перед отправкой запроса
+VOICE_CONFIG = {
+    "narrator": {"voice": "ru-RU-DmitryNeural", "pitch": "-7Hz", "rate": "-5%"}, # Рассказчик (Эпик)
+    "male":     {"voice": "ru-RU-DenisNeural",  "pitch": "-2Hz", "rate": "+0%"}, # Мужчина
+    "female":   {"voice": "ru-RU-SvetlanaNeural","pitch": "+5Hz", "rate": "+5%"}  # Женщина
+}
+# Папка для временных файлов на сервере
+TEMP_DIR = tempfile.gettempdir()
+# --- ЛОГИКА СЕРВЕРА (Server-Side Logic) ---
+def analyze_text_structure(text):
+    """
+    Анализирует текст, используя CPU сервера.
+    Определяет пол по окончаниям глаголов русского языка.
+    """
+    segments = []
+    paragraphs = text.split('\n')
+    # Слова-маркеры (женские)
+    female_markers = [
+        r"сказала", r"спросила", r"ответила", r"прошептала", r"крикнула",
+        r"подумала", r"заметила", r"взглянула", r"обернулась"
+    ]
+    for p in paragraphs:
+        p = p.strip()
+        if not p: continue
+        role = "narrator" # По умолчанию
+        # Если это прямая речь...
+        if p.startswith('—') or p.startswith('-') or '"' in p or '«' in p:
+            p_lower = p.lower()
+            # ...сервер ищет маркеры
+            is_female = any(re.search(m, p_lower) for m in female_markers)
+            if is_female:
+                role = "female"
+            else:
+                # Если маркеров нет, но это диалог -> считаем мужчиной (стандарт для фэнтези)
+                role = "male"
+        segments.append({"text": p, "role": role})
+    return segments
+async def generate_server_side(text, progress=gr.Progress()):
+    """
+    Основная функция. Работает полностью в памяти сервера.
+    """
     if not text.strip():
+        raise gr.Warning("Сервер не получил текст.")
+    print(f"⚙️ [Server] Начало обработки. RAM занята процессом...")
+    # 1. Анализ (CPU)
+    segments = analyze_text_structure(text)
+    # 2. Создаем пустой аудио-контейнер в памяти (RAM)
+    full_audio = AudioSegment.empty()
+    # Временный список файлов для очистки
+    temp_files = []
+    # 3. Цикл генерации
+    for item in progress.tqdm(segments, desc="Сервер генерирует аудио..."):
+        role = item["role"]
+        content = item["text"]
+        # Берем настройки
+        conf = VOICE_CONFIG.get(role, VOICE_CONFIG["narrator"])
+        # Путь к куску на диске сервера
+        segment_filename = f"server_seg_{uuid.uuid4().hex}.mp3"
+        segment_path = os.path.join(TEMP_DIR, segment_filename)
+        # Форматируем параметры
+        rate_str = conf["rate"]
+        pitch_str = conf["pitch"]
         try:
+            # Запрос от Сервера к Microsoft (Клиент тут не участвует)
+            comm = edge_tts.Communicate(content, conf["voice"], rate=rate_str, pitch=pitch_str)
+            await comm.save(segment_path)
+            if os.path.exists(segment_path):
+                temp_files.append(segment_path)
+                # Загружаем кусок в RAM
+                seg_audio = AudioSegment.from_mp3(segment_path)
+                # Склейка в RAM (Crossfade 50ms для плавности)
+                if len(full_audio) > 0:
+                    full_audio = full_audio.append(seg_audio, crossfade=50)
+                else:
+                    full_audio = seg_audio
         except Exception as e:
+            print(f"⚠️ [Server Error] Сбой на фразе '{content[:20]}': {e}")
+            # Если сбой, пробуем паузу и идем дальше
+            await asyncio.sleep(0.5)
+            continue
+    # 4. Сохранение итогового файла на диск сервера
+    output_filename = f"FANTASY_AUDIO_{uuid.uuid4().hex}.mp3"
+    output_path = os.path.join(TEMP_DIR, output_filename)
+    print(f"💾 [Server] Сохранение результата: {output_path}")
+    full_audio.export(output_path, format="mp3")
+    # 5. Очистка мусора с диска сервера
+    for f in temp_files:
+        try: os.remove(f)
+        except: pass
+    # Возвращаем путь. Gradio сам передаст файл клиенту.
+    return output_path
+# --- ИНТЕРФЕЙС ---
+css = """
+body { background-color: #111827; color: #f3f4f6; }
+.container { max-width: 900px; margin: auto; }
+"""
+theme = gr.themes.Soft(
+    primary_hue="indigo",
+    secondary_hue="slate",
+    neutral_hue="slate"
+)
+with gr.Blocks(theme=theme, css=css, title="Server-Side TTS Engine") as demo:
+    gr.Markdown("# 🖥️ Server-Side Fantasy Engine")
+    gr.Markdown("Вся обработка (анализ текста, генерация, склейка) выполняется на мощностях сервера.")
     with gr.Row():
+        with gr.Column(scale=2):
+            text_input = gr.Textbox(
+                label="Текст Книги",
+                lines=12,
+                placeholder="Введите текст. Сервер сам определит роли (Мужчина/Женщина) по контексту.",
+                value="— Тише! — прошептала ведьма, глядя в темноту.\nРыцарь обнажил меч и ответил:\n— Я ничего не боюсь."
+            )
+            generate_btn = gr.Button("⚡ Запустить обработку на сервере", variant="primary", size="lg")
         with gr.Column(scale=1):
+            gr.Markdown("### 📊 Монитор")
+            gr.Markdown("Используются ресурсы хостинга:")
+            gr.Code(value="CPU: Active (Parsing)\nRAM: Active (Audio Stitching)", language="yaml", label="Статус сервера")
+            audio_output = gr.Audio(label="Готовый файл с сервера", type="filepath")
+    # Привязка события
+    generate_btn.click(
+        fn=generate_server_side,
+        inputs=[text_input],
+        outputs=[audio_output]
+    )
 if __name__ == "__main__":
+    # Запуск сервера
     demo.queue().launch()