Cascade-Edge

Sleeping

App Files Files Community

VSPAN commited on Nov 21, 2025

Commit

2cbf263

verified ·

1 Parent(s): b2496fc

Update app.py

Browse files

Files changed (1) hide show

app.py +143 -79

app.py CHANGED Viewed

@@ -4,13 +4,12 @@ import asyncio
 import tempfile
 import os
 import uuid
-import json
 import re
 from pydub import AudioSegment
 from transformers import pipeline
-# --- НАСТРОЙКИ ГОЛОСОВ (ФЭНТЕЗИ) ---
-VOICE_CONFIG = {
     "narrator": {"voice": "ru-RU-DmitryNeural", "pitch": "-7Hz", "rate": "-5%"},
     "male":     {"voice": "ru-RU-DenisNeural",  "pitch": "-2Hz", "rate": "+0%"},
     "female":   {"voice": "ru-RU-SvetlanaNeural","pitch": "+5Hz", "rate": "+5%"}
@@ -18,140 +17,205 @@ VOICE_CONFIG = {
 TEMP_DIR = tempfile.gettempdir()
-# --- ЗАГРУЗКА МАЛЕНЬКОЙ НЕЙРОСЕТИ ---
-# Qwen 2.5 0.5B Instruct - очень легкая, но умная
 MODEL_ID = "Qwen/Qwen2.5-0.5B-Instruct"
-print(f"🚀 Загрузка модели {MODEL_ID}...")
 try:
     pipe = pipeline(
         "text-generation",
         model=MODEL_ID,
         device_map="auto",
-        max_new_tokens=2048,
         trust_remote_code=True
     )
-    print("✅ Модель готова!")
 except Exception as e:
-    print(f"❌ Ошибка загрузки модели: {e}")
     pipe = None
-def analyze_text_with_tiny_ai(text):
-    """Анализ текста легкой нейросетью."""
-    if not pipe:
-        return [{"text": text, "role": "narrator"}]
-    system_prompt = (
-        "Ты редактор. Твоя задача - определить роль для озвучки.\n"
-        "Роли: narrator (автор), male (мужчина), female (женщина).\n"
-        "Верни ТОЛЬКО JSON список."
-    )
-    user_prompt = f"""Разбей текст на роли:
-    "{text}"
-    Пример JSON ответа:
-    [{{"text": "- Привет", "role": "male"}}, {{"text": "- сказала она", "role": "narrator"}}]
     """
-    messages = [
-        {"role": "system", "content": system_prompt},
-        {"role": "user", "content": user_prompt},
     ]
     try:
-        outputs = pipe(messages)
-        result_text = outputs[0]["generated_text"][-1]["content"]
-        # Поиск JSON в ответе
-        json_match = re.search(r'\[.*\]', result_text, re.DOTALL)
-        if json_match:
-            json_str = json_match.group(0)
-            return json.loads(json_str)
         else:
-            print(f"⚠️ Не JSON: {result_text}")
-            return [{"text": text, "role": "narrator"}]
-    except Exception as e:
-        print(f"⚠️ Ошибка анализа: {e}")
-        return [{"text": text, "role": "narrator"}]
-# --- ГЕНЕРАЦИЯ ---
-async def generate_segment(text, role):
     if not text.strip(): return None
-    conf = VOICE_CONFIG.get(role, VOICE_CONFIG["narrator"])
-    path = os.path.join(TEMP_DIR, f"{uuid.uuid4().hex}.mp3")
     try:
-        comm = edge_tts.Communicate(text, conf["voice"], rate=conf["rate"], pitch=conf["pitch"])
         await comm.save(path)
         return path
-    except:
         return None
-async def process_book(text):
-    if not text.strip(): raise gr.Warning("Введите текст!")
-    print("⚡ Анализ текста...")
-    segments = analyze_text_with_tiny_ai(text)
     full_audio = AudioSegment.empty()
     temp_files = []
     progress = gr.Progress()
-    for item in progress.tqdm(segments, desc="Озвучка"):
-        # Защита от некорректного формата
-        if isinstance(item, dict):
-            txt = item.get("text", "")
-            role = item.get("role", "narrator")
-        else:
-            txt = str(item)
-            role = "narrator"
-        path = await generate_segment(txt, role)
         if path:
             temp_files.append(path)
             seg = AudioSegment.from_mp3(path)
-            # Плавная склейка (50ms)
             if len(full_audio) > 0:
-                full_audio = full_audio.append(seg, crossfade=50)
             else:
                 full_audio = seg
             await asyncio.sleep(0.1)
-    out_path = os.path.join(TEMP_DIR, f"fantasy_{uuid.uuid4().hex}.mp3")
     full_audio.export(out_path, format="mp3")
     for f in temp_files:
         try: os.remove(f)
         except: pass
     return out_path, segments
 # --- ИНТЕРФЕЙС ---
 css = """
-body {background-color: #111827; color: #e5e7eb;}
 .container {max-width: 900px; margin: auto;}
 """
-theme = gr.themes.Soft(primary_hue="indigo", secondary_hue="slate")
-with gr.Blocks(theme=theme, css=css, title="Fantasy Lite TTS") as demo:
-    gr.Markdown("# ⚡ Fantasy Lite TTS (Qwen 0.5B)")
-    with gr.Row():
-        with gr.Column(scale=2):
-            inp = gr.Textbox(label="Текст", lines=10, placeholder="Вставьте текст...", value='— Кто здесь? — спросил рыцарь.\nВедьма усмех��улась: — Твоя судьба.')
-            btn = gr.Button("🚀 Создать", variant="primary")
-        with gr.Column(scale=1):
-            out_audio = gr.Audio(label="Результат", type="filepath")
-            out_debug = gr.JSON(label="Лог нейросети")
-    btn.click(process_book, inputs=inp, outputs=[out_audio, out_debug])
 if __name__ == "__main__":
     demo.queue().launch()

 import tempfile
 import os
 import uuid
 import re
 from pydub import AudioSegment
 from transformers import pipeline
+# --- НАСТРОЙКИ ГОЛОСОВ (ФЭНТЕЗИ ПРЕСЕТЫ) ---
+VOICE_PRESETS = {
     "narrator": {"voice": "ru-RU-DmitryNeural", "pitch": "-7Hz", "rate": "-5%"},
     "male":     {"voice": "ru-RU-DenisNeural",  "pitch": "-2Hz", "rate": "+0%"},
     "female":   {"voice": "ru-RU-SvetlanaNeural","pitch": "+5Hz", "rate": "+5%"}
 TEMP_DIR = tempfile.gettempdir()
+# --- ЗАГРУЗКА AI (0.5B) ---
 MODEL_ID = "Qwen/Qwen2.5-0.5B-Instruct"
+print(f"🚀 Загрузка малыша {MODEL_ID}...")
 try:
     pipe = pipeline(
         "text-generation",
         model=MODEL_ID,
         device_map="auto",
+        max_new_tokens=50, # Нам нужен короткий ответ (Male/Female), а не поэма
         trust_remote_code=True
     )
+    print("✅ AI готов!")
 except Exception as e:
+    print(f"❌ Ошибка AI: {e}")
     pipe = None
+# --- ГИБРИДНЫЙ ПАРСЕР (БЕЗОПАСНЫЙ) ---
+def classify_segment_with_ai(text):
     """
+    Спрашиваем у AI только одно: КТО говорит?
+    Текст не меняем.
+    """
+    if not pipe: return "narrator"
+    # Упрощенный промпт для маленькой модели
+    prompt = [
+        {"role": "system", "content": "Classify the speaker of the text. Options: narrator, male, female. Answer with ONE word."},
+        {"role": "user", "content": f"Text: \"{text}\"\nSpeaker:"}
     ]
     try:
+        output = pipe(prompt)[0]["generated_text"][-1]["content"].lower()
+        if "female" in output: return "female"
+        if "male" in output: return "male"
+        return "narrator"
+    except:
+        return "narrator"
+def safe_split_text(text):
+    """
+    Разбивает текст на куски с помощью Python (Regex).
+    Гарантирует, что ни одна буква не пропадет.
+    """
+    # 1. Разбиваем на абзацы
+    paragraphs = text.split('\n')
+    segments = []
+    for p in paragraphs:
+        p = p.strip()
+        if not p: continue
+        # 2. Простая эвристика: если есть тире или кавычки - это может быть диалог
+        if p.startswith('—') or p.startswith('-') or '"' in p or '«' in p:
+            # Спрашиваем у AI, чей это голос
+            role = classify_segment_with_ai(p)
+            segments.append({"text": p, "role": role})
         else:
+            # Если нет диалога, это точно рассказчик (экономим время AI)
+            segments.append({"text": p, "role": "narrator"})
+    return segments
+# --- ГЕНЕРАТОР ---
+async def generate_segment_audio(text, voice, rate, pitch):
     if not text.strip(): return None
+    path = os.path.join(TEMP_DIR, f"seg_{uuid.uuid4().hex}.mp3")
+    rate_str = f"{rate:+d}%" if isinstance(rate, int) else rate
+    pitch_str = f"{pitch:+d}Hz" if isinstance(pitch, int) else pitch
     try:
+        comm = edge_tts.Communicate(text, voice, rate=rate_str, pitch=pitch_str)
         await comm.save(path)
         return path
+    except Exception as e:
+        print(f"Error gen: {e}")
         return None
+async def process_audiobook_ai(text):
+    """Режим AI: Сам определяет голоса"""
+    if not text.strip(): raise gr.Warning("Текст пуст!")
+    print("⚡ Python разбивает текст, AI классифицирует роли...")
+    # Используем безопасный метод разбиения
+    segments = safe_split_text(text)
     full_audio = AudioSegment.empty()
     temp_files = []
     progress = gr.Progress()
+    for item in progress.tqdm(segments, desc="Генерация сцен"):
+        # Берем пресеты
+        role = item["role"]
+        settings = VOICE_PRESETS.get(role, VOICE_PRESETS["narrator"])
+        path = await generate_segment_audio(
+            item["text"],
+            settings["voice"],
+            settings["rate"],
+            settings["pitch"]
+        )
         if path:
             temp_files.append(path)
             seg = AudioSegment.from_mp3(path)
+            # Мягкая склейка (70ms crossfade) для плавности
             if len(full_audio) > 0:
+                full_audio = full_audio.append(seg, crossfade=70)
             else:
                 full_audio = seg
             await asyncio.sleep(0.1)
+    out_path = os.path.join(TEMP_DIR, f"book_ai_{uuid.uuid4().hex}.mp3")
     full_audio.export(out_path, format="mp3")
+    # Чистка
     for f in temp_files:
         try: os.remove(f)
         except: pass
     return out_path, segments
+async def process_manual_mode(text, voice, rate, pitch):
+    """Классический режим: Один голос на всё"""
+    if not text.strip(): raise gr.Warning("Текст пуст!")
+    voice_short = voice.split(" (")[0]
+    out_path = os.path.join(TEMP_DIR, f"manual_{uuid.uuid4().hex}.mp3")
+    # В ручном режиме генерируем одним куском (или можно тоже разбить для длинных текстов)
+    # Edge-TTS поддерживает длинные тексты, но лучше разбивать
+    comm = edge_tts.Communicate(text, voice_short, rate=f"{rate:+d}%", pitch=f"{pitch:+d}Hz")
+    await comm.save(out_path)
+    return out_path
+# --- ЗАГРУЗКА СПИСКА ГОЛОСОВ ---
+async def get_voices_list():
+    voices = await edge_tts.list_voices()
+    # Сортируем: Сначала RU, потом остальные
+    ru_voices = sorted([f"{v['ShortName']} ({v['Gender']})" for v in voices if v['Locale'] == "ru-RU"])
+    en_voices = sorted([f"{v['ShortName']} ({v['Gender']})" for v in voices if v['Locale'] == "en-US"])
+    return ru_voices + en_voices
 # --- ИНТЕРФЕЙС ---
+VOICES_LIST = asyncio.run(get_voices_list())
 css = """
+body {background-color: #0b0f19; color: #e2e8f0;}
 .container {max-width: 900px; margin: auto;}
+h1 {color: #fbbf24; font-family: serif; text-align: center;}
+.tabs {border-bottom: 1px solid #374151;}
 """
+theme = gr.themes.Soft(primary_hue="amber", secondary_hue="slate")
+with gr.Blocks(theme=theme, css=css, title="Fantasy Studio Ultimate") as demo:
+    gr.Markdown("# 🐉 Fantasy Studio: Hybrid AI")
+    with gr.Tabs():
+        # --- ВКЛАДКА 1: AI РЕЖИССЕР ---
+        with gr.TabItem("✨ AI Режиссер (Авто)"):
+            with gr.Row():
+                with gr.Column(scale=2):
+                    ai_text = gr.Textbox(
+                        label="Текст книги", lines=12,
+                        placeholder="Вставьте текст. AI сам определит, где говорит мужчина, а где женщина.",
+                        value='— Стой! — крикнул рыцарь.\nДевушка обернулась и тихо спросила:\n— Зачем мне останавливаться?\nВетер выл в ушах.'
+                    )
+                    ai_btn = gr.Button("🎬 Создать Аудиоспектакль", variant="primary", size="lg")
+                with gr.Column(scale=1):
+                    gr.Markdown("### 🎭 Роли и настройки")
+                    gr.JSON(value=VOICE_PRESETS, label="Текущие пресеты")
+                    ai_audio = gr.Audio(label="Результат", type="filepath")
+                    ai_debug = gr.JSON(label="Как AI понял текст (без потерь)")
+            ai_btn.click(process_audiobook_ai, inputs=ai_text, outputs=[ai_audio, ai_debug])
+        # --- ВКЛАДКА 2: РУЧНОЙ РЕЖИМ ---
+        with gr.TabItem("🛠️ Ручное управление (Классика)"):
+            with gr.Row():
+                with gr.Column():
+                    man_text = gr.Textbox(label="Текст", lines=10, value="Привет! Это проверка ручного режима.")
+                with gr.Column():
+                    man_voice = gr.Dropdown(
+                        choices=VOICES_LIST,
+                        value="ru-RU-DmitryNeural (Male)" if VOICES_LIST else None,
+                        label="Голос"
+                    )
+                    man_rate = gr.Slider(-50, 50, value=0, step=1, label="Скорость (%)")
+                    man_pitch = gr.Slider(-20, 20, value=0, step=1, label="Тон (Hz)")
+                    man_btn = gr.Button("🔊 Озвучить (Ручной)", variant="secondary")
+                    man_audio = gr.Audio(label="Результат", type="filepath")
+            man_btn.click(process_manual_mode, inputs=[man_text, man_voice, man_rate, man_pitch], outputs=man_audio)
 if __name__ == "__main__":
     demo.queue().launch()