Cascade-Edge

Sleeping

App Files Files Community

VSPAN commited on Nov 21, 2025

Commit

ad98b57

verified ·

1 Parent(s): 08c188b

Update app.py

Browse files

Files changed (1) hide show

app.py +90 -179

app.py CHANGED Viewed

@@ -7,15 +7,13 @@ import uuid
 import re
 import shutil
 from pydub import AudioSegment
-from transformers import pipeline
-# --- ПРОВЕРКА СИСТЕМЫ ---
-# Проверяем, установлен ли ffmpeg (нужен для работы pydub)
 if not shutil.which("ffmpeg"):
-    print("⚠️ ВНИМАНИЕ: FFmpeg не найден! Склейка аудио может не работать.")
 # --- НАСТРОЙКИ ГОЛОСОВ ---
-VOICE_PRESETS = {
     "narrator": {"voice": "ru-RU-DmitryNeural", "pitch": "-7Hz", "rate": "-5%"},
     "male":     {"voice": "ru-RU-DenisNeural",  "pitch": "-2Hz", "rate": "+0%"},
     "female":   {"voice": "ru-RU-SvetlanaNeural","pitch": "+5Hz", "rate": "+5%"}
@@ -23,220 +21,133 @@ VOICE_PRESETS = {
 TEMP_DIR = tempfile.gettempdir()
-# --- ЗАГРУЗКА AI (0.5B) ---
-MODEL_ID = "Qwen/Qwen2.5-0.5B-Instruct"
-try:
-    print(f"🚀 Загрузка модели {MODEL_ID}...")
-    pipe = pipeline(
-        "text-generation",
-        model=MODEL_ID,
-        device_map="auto",
-        max_new_tokens=20, # Ограничиваем токены для скорости
-        trust_remote_code=True
-    )
-    print("✅ AI готов!")
-except Exception as e:
-    print(f"❌ Ошибка загрузки AI: {e}")
-    pipe = None
-# --- УМНЫЙ ПАРСЕР ---
-def classify_role(text):
-    """Определяет роль. Если диалог - заставляет AI выбирать."""
-    if not pipe: return "narrator"
-    # Если это явно не диалог, не тратим время AI
-    if not (text.startswith("—") or text.startswith("-") or '"' in text or "«" in text):
-        return "narrator"
-    # Жесткий промпт для маленькой модели
-    prompt = [
-        {"role": "system", "content": "You are a classifier. Determine gender of the speaker in the Russian text. Options: male, female. Answer with single word."},
-        {"role": "user", "content": f"Text: '{text}'\nGender:"}
     ]
-    try:
-        # Генерируем ответ
-        out = pipe(prompt)[0]["generated_text"][-1]["content"].lower()
-        if "female" in out or "жен" in out: return "female"
-        if "male" in out or "муж" in out: return "male"
-        return "male" # Если диалог, но не понятно - пусть будет мужчина (чаще всего)
-    except:
-        return "narrator"
-def robust_text_split(text):
-    """Разбивает текст на куски, сохраняя каждую букву."""
-    paragraphs = text.split('\n')
     segments = []
     for p in paragraphs:
         p = p.strip()
         if not p: continue
-        # Определяем роль
-        role = classify_role(p)
-        segments.append({"text": p, "role": role})
     return segments
-# --- ГЕНЕРАЦИЯ АУДИО (С ПРОВЕРКОЙ ФАЙЛОВ) ---
-async def generate_one_segment(text, voice, rate, pitch):
-    """Генерирует один кусок и проверяет, не пустой ли он."""
     if not text.strip(): return None
-    filename = f"seg_{uuid.uuid4().hex}.mp3"
-    path = os.path.join(TEMP_DIR, filename)
-    rate_str = f"{rate:+d}%" if isinstance(rate, int) else rate
-    pitch_str = f"{pitch:+d}Hz" if isinstance(pitch, int) else pitch
     try:
-        # Генерируем
-        comm = edge_tts.Communicate(text, voice, rate=rate_str, pitch=pitch_str)
         await comm.save(path)
-        # ПРОВЕРКА: Создался ли файл?
-        if os.path.exists(path) and os.path.getsize(path) > 100: # Больше 100 байт (заголовок mp3)
             return path
-        else:
-            print(f"⚠️ Файл создан, но пуст (0kb): {text[:20]}...")
-            return None
-    except Exception as e:
-        print(f"❌ Ошибка генерации куска: {e}")
-        return None
-async def main_process_loop(text):
-    """Главный цикл генерации"""
-    # 1. Анализ
-    print("🔍 Анализирую текст...")
-    segments = robust_text_split(text)
     full_audio = AudioSegment.empty()
-    files_to_cleanup = []
-    generated_count = 0
-    # Прогресс бар для Gradio
     progress = gr.Progress()
-    for item in progress.tqdm(segments, desc="Озвучка сцен"):
-        role = item["role"]
-        # Получаем настройки пресета
-        conf = VOICE_PRESETS.get(role, VOICE_PRESETS["narrator"])
-        print(f"🎙️ Генерирую: [{role}] {item['text'][:30]}...")
-        path = await generate_one_segment(
-            item["text"],
-            conf["voice"],
-            conf["rate"],
-            conf["pitch"]
-        )
         if path:
-            try:
-                seg_audio = AudioSegment.from_mp3(path)
-                # Добавляем в общий трек с кроссфейдом
-                if len(full_audio) > 0:
-                    full_audio = full_audio.append(seg_audio, crossfade=50)
-                else:
-                    full_audio = seg_audio
-                files_to_cleanup.append(path)
-                generated_count += 1
-            except Exception as e:
-                print(f"❌ Ошибка склейки Pydub: {e}")
-        # Пауза чтобы API не забанил
-        await asyncio.sleep(0.1)
-    if generated_count == 0:
-        raise Exception("Не удалось сгенерировать ни одного фрагмента аудио!")
-    # Экспорт
-    print("💾 Сохранение итогового файла...")
-    out_name = f"final_{uuid.uuid4().hex}.mp3"
-    out_path = os.path.join(TEMP_DIR, out_name)
     full_audio.export(out_path, format="mp3")
-    print(f"✅ Готово! Файл: {out_path}, Размер: {os.path.getsize(out_path)} байт")
-    # Уборка
-    for f in files_to_cleanup:
         try: os.remove(f)
         except: pass
     return out_path, segments
-# --- ОБЕРТКА ДЛЯ GRADIO ---
-def run_async_in_thread(text):
-    """Запускает async функцию безопасно для Gradio"""
-    try:
-        return asyncio.run(main_process_loop(text))
-    except RuntimeError:
-        # Если цикл уже запущен (в некоторых средах)
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(main_process_loop(text))
-# --- РУЧНОЙ РЕЖИМ (Бэкап) ---
-def manual_process(text, voice, rate, pitch):
-    async def _manual():
-        v = voice.split(" (")[0]
-        path = os.path.join(TEMP_DIR, f"man_{uuid.uuid4().hex}.mp3")
-        comm = edge_tts.Communicate(text, v, rate=f"{rate:+d}%", pitch=f"{pitch:+d}Hz")
-        await comm.save(path)
-        return path
-    return asyncio.run(_manual())
 # --- ИНТЕРФЕЙС ---
-async def get_voices():
-    v = await edge_tts.list_voices()
-    return sorted([f"{i['ShortName']} ({i['Gender']})" for i in v if i['Locale'] == "ru-RU"])
-RU_VOICES = asyncio.run(get_voices())
-css = """
-body {background-color: #0b0f19; color: #e2e8f0;}
-.container {max-width: 950px; margin: auto;}
-"""
-with gr.Blocks(theme=gr.themes.Soft(primary_hue="amber"), css=css, title="Fantasy Voice V4") as demo:
-    gr.Markdown("# 🏰 Fantasy Voice V4 (Robust)")
-    with gr.Tabs():
-        # ВКЛАДКА 1: АВТО
-        with gr.Tab("✨ AI Авто-режиссер"):
-            with gr.Row():
-                with gr.Column(scale=2):
-                    t_input = gr.Textbox(
-                        label="Текст", lines=12,
-                        value='— Кто ты? — спросил рыцарь.\nДевушка ответила: — Я твоя судьба.\nГром гремел вдалеке.',
-                        placeholder="Диалоги начинайте с тире (—) или кавычек..."
-                    )
-                    btn_ai = gr.Button("🎬 Создать", variant="primary", size="lg")
-                with gr.Column(scale=1):
-                    gr.Markdown("### Статус")
-                    audio_ai = gr.Audio(label="Результат")
-                    json_debug = gr.JSON(label="Разбор ролей")
-            btn_ai.click(run_async_in_thread, inputs=t_input, outputs=[audio_ai, json_debug])
-        # ВКЛАДКА 2: РУЧНОЙ
-        with gr.Tab("🛠️ Ручной режим"):
-            with gr.Row():
-                t_man = gr.Textbox(label="Текст", lines=8, value="Проверка связи.")
-                with gr.Column():
-                    v_man = gr.Dropdown(choices=RU_VOICES, value=RU_VOICES[0], label="Голос")
-                    r_man = gr.Slider(-50, 50, 0, label="Скорость")
-                    p_man = gr.Slider(-20, 20, 0, label="Тон")
-                    btn_man = gr.Button("🔊 Озвучить")
-            out_man = gr.Audio()
-            btn_man.click(manual_process, inputs=[t_man, v_man, r_man, p_man], outputs=out_man)
 if __name__ == "__main__":
     demo.queue().launch()

 import re
 import shutil
 from pydub import AudioSegment
+# --- ПРОВЕРКА FFmpeg ---
 if not shutil.which("ffmpeg"):
+    print("⚠️ FFmpeg не найден! Убедитесь, что он установлен на сервере.")
 # --- НАСТРОЙКИ ГОЛОСОВ ---
+VOICE_CONFIG = {
     "narrator": {"voice": "ru-RU-DmitryNeural", "pitch": "-7Hz", "rate": "-5%"},
     "male":     {"voice": "ru-RU-DenisNeural",  "pitch": "-2Hz", "rate": "+0%"},
     "female":   {"voice": "ru-RU-SvetlanaNeural","pitch": "+5Hz", "rate": "+5%"}
 TEMP_DIR = tempfile.gettempdir()
+# --- УМНАЯ ЛОГИКА (БЕЗ НЕЙРОСЕТИ) ---
+def analyze_gender_by_grammar(text):
+    """
+    Определяет пол по окончаниям русских глаголов в словах автора.
+    Работает мгновенно и точно.
+    """
+    text_lower = text.lower()
+    # Маркеры женского рода (прошедшее время + "а")
+    female_verbs = [
+        r"сказала", r"спросила", r"ответила", r"прошептала", r"крикнула",
+        r"подумала", r"заметила", r"усмехнулась", r"вздохнула", r"обернулась"
     ]
+    # Маркеры мужского рода
+    male_verbs = [
+        r"сказал\b", r"спросил\b", r"ответил\b", r"прошептал\b", r"крикнул\b",
+        r"подумал\b", r"заметил\b", r"усмехнулся", r"вздохнул", r"обернулся"
+    ]
+    # Проверяем контекст (слова автора)
+    for verb in female_verbs:
+        if re.search(verb, text_lower):
+            return "female"
+    for verb in male_verbs:
+        if re.search(verb, text_lower):
+            return "male"
+    return "narrator" # Если не понятно — читает рассказчик
+def smart_split_text(text):
+    """Разбивает текст на сцены и раздает роли"""
     segments = []
+    paragraphs = text.split('\n')
     for p in paragraphs:
         p = p.strip()
         if not p: continue
+        # Логика: Если это диалог (тире или кавычки)
+        if p.startswith('—') or p.startswith('-') or '"' in p or '«' in p:
+            # Пытаемся найти пол в этом же абзаце (слова автора)
+            role = analyze_gender_by_grammar(p)
+            # Если грамматика не помогла, но это явно диалог — ставим мужчину (как дефолт для героя)
+            if role == "narrator":
+                role = "male"
+            segments.append({"text": p, "role": role})
+        else:
+            # Просто описание
+            segments.append({"text": p, "role": "narrator"})
     return segments
+# --- ГЕНЕРАЦИЯ ---
+async def generate_segment(text, role):
     if not text.strip(): return None
+    conf = VOICE_CONFIG.get(role, VOICE_CONFIG["narrator"])
+    path = os.path.join(TEMP_DIR, f"seg_{uuid.uuid4().hex}.mp3")
     try:
+        comm = edge_tts.Communicate(text, conf["voice"], rate=conf["rate"], pitch=conf["pitch"])
         await comm.save(path)
+        if os.path.exists(path) and os.path.getsize(path) > 100:
             return path
+    except:
+        pass
+    return None
+async def process_book(text):
+    if not text.strip(): raise gr.Warning("Текст пуст!")
+    print("⚡ Мгновенный анализ текста...")
+    segments = smart_split_text(text)
     full_audio = AudioSegment.empty()
+    temp_files = []
     progress = gr.Progress()
+    for item in progress.tqdm(segments, desc="Озвучка"):
+        path = await generate_segment(item["text"], item["role"])
         if path:
+            temp_files.append(path)
+            seg = AudioSegment.from_mp3(path)
+            if len(full_audio) > 0:
+                full_audio = full_audio.append(seg, crossfade=50)
+            else:
+                full_audio = seg
+            await asyncio.sleep(0.1)
+    out_path = os.path.join(TEMP_DIR, f"turbo_book_{uuid.uuid4().hex}.mp3")
     full_audio.export(out_path, format="mp3")
+    for f in temp_files:
         try: os.remove(f)
         except: pass
     return out_path, segments
 # --- ИНТЕРФЕЙС ---
+css = "body {background-color: #111827;} .container {max-width: 900px; margin: auto;}"
+theme = gr.themes.Soft(primary_hue="green")
+with gr.Blocks(theme=theme, css=css, title="Turbo TTS") as demo:
+    gr.Markdown("# 🚀 Turbo Fantasy TTS (No GPU needed)")
+    gr.Markdown("Мгновенная загрузка. Умное определение пола по грамматике.")
+    with gr.Row():
+        with gr.Column(scale=2):
+            inp = gr.Textbox(
+                label="Текст", lines=12,
+                value='— Я пришла за тобой, — прошептала ведьма.\nРыцарь ответил: — Я готов.',
+                placeholder="Вставьте текст..."
+            )
+            btn = gr.Button("⚡ Создать моментально", variant="primary")
+        with gr.Column(scale=1):
+            out_audio = gr.Audio(label="Результат")
+            out_debug = gr.JSON(label="Роли (Debug)")
+    btn.click(process_book, inputs=inp, outputs=[out_audio, out_debug])
 if __name__ == "__main__":
     demo.queue().launch()