Cascade-Edge

Sleeping

App Files Files Community

VSPAN commited on Nov 21, 2025

Commit

2eb8293

verified ·

1 Parent(s): 04c9619

Update app.py

Browse files

Files changed (1) hide show

app.py +82 -111

app.py CHANGED Viewed

@@ -7,141 +7,129 @@ import uuid
 import json
 import re
 from pydub import AudioSegment
-from huggingface_hub import hf_hub_download
-from llama_cpp import Llama  # Библиотека для локального запуска нейросети
-# --- НАСТРОЙКИ ГОЛОСОВ (ФЭНТЕЗИ) ---
 VOICE_CONFIG = {
-    "narrator": {"voice": "ru-RU-DmitryNeural", "pitch": "-7Hz", "rate": "-5%"},
-    "male":     {"voice": "ru-RU-DenisNeural",  "pitch": "-2Hz", "rate": "+0%"},
-    "female":   {"voice": "ru-RU-SvetlanaNeural","pitch": "+5Hz", "rate": "+5%"}
 }
 TEMP_DIR = tempfile.gettempdir()
-# --- ЛОКАЛЬНАЯ НЕЙРОСЕТЬ (QWEN) ---
-# Мы используем Qwen 2.5 3B Instruct в формате GGUF.
-# Это позволяет запускать модель прямо на CPU сервера быстро и бесплатно.
-REPO_ID = "Qwen/Qwen2.5-3B-Instruct-GGUF"
-FILENAME = "qwen2.5-3b-instruct-q4_k_m.gguf"
-print("⏳ Загрузка нейросети в память сервера... Это может занять минуту.")
 try:
-    # Скачиваем модель локально (кэшируется)
-    model_path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
-    # Инициализируем модель (n_ctx=2048 - длина контекста)
-    llm = Llama(
-        model_path=model_path,
-        n_ctx=4096,       # Память контекста
-        n_threads=4,      # Используем 4 ядра процессора
-        verbose=False     # Отключаем лишний шум в консоли
     )
-    print("✅ Нейросеть успешно запущена локально!")
 except Exception as e:
-    print(f"❌ Ошибка запуска нейросети: {e}")
-    llm = None
-def ask_local_llm(text):
     """
-    Обрабатывает текст через локальную модель Qwen.
     """
-    if not llm:
         return [{"text": text, "role": "narrator"}]
-    system_prompt = """Ты помощник режиссера. Твоя задача - проанализировать текст и разбить его на реплики для озвучки.
-    1. Определи, кто говорит: "narrator" (автор), "male" (мужчина), "female" (женщина).
-    2. Верни ТОЛЬКО JSON массив. Без лишних слов.
-    Пример:
-    Вход: — Привет! — сказала Аня.
-    Выход: [{"text": "— Привет!", "role": "female"}, {"text": "— сказала Аня.", "role": "narrator"}]
     """
-    user_prompt = f"Текст для анализа:\n{text}"
-    # Формируем диалог в формате ChatML (понятный для Qwen)
     messages = [
         {"role": "system", "content": system_prompt},
-        {"role": "user", "content": user_prompt}
     ]
     try:
-        # Генерация ответа
-        response = llm.create_chat_completion(
-            messages=messages,
-            max_tokens=2000, # Максимальная длина ответа
-            temperature=0.1, # Минимальная креативность (для точности JSON)
-            top_p=0.9
-        )
-        content = response["choices"][0]["message"]["content"]
-        # Очистка ответа от мусора (если модель решила поболтать)
-        content = re.sub(r'```json', '', content)
-        content = re.sub(r'```', '', content).strip()
-        # Попытка распарсить JSON
-        data = json.loads(content)
-        return data
     except Exception as e:
-        print(f"⚠️ Ошибка парсинга LLM: {e}\nОтвет был: {content if 'content' in locals() else 'Пусто'}")
-        # Если нейронка ошиблась, возвращаем весь текст как рассказчика
         return [{"text": text, "role": "narrator"}]
-# --- ГЕНЕРАЦИЯ АУДИО (С КЭШИРОВАНИЕМ И СКЛЕЙКОЙ) ---
 async def generate_segment(text, role):
     if not text.strip(): return None
     conf = VOICE_CONFIG.get(role, VOICE_CONFIG["narrator"])
-    fname = f"{uuid.uuid4().hex}.mp3"
-    path = os.path.join(TEMP_DIR, fname)
     try:
         comm = edge_tts.Communicate(text, conf["voice"], rate=conf["rate"], pitch=conf["pitch"])
         await comm.save(path)
         return path
-    except:
-        return None
-async def process_audiobook(text):
-    if not text.strip(): raise gr.Warning("Введите текст!")
-    print("🧠 Локальная нейросеть анализирует текст...")
-    segments = ask_local_llm(text)
-    print(f"📊 Найдено фрагментов: {len(segments)}")
     full_audio = AudioSegment.empty()
     temp_files = []
     progress = gr.Progress()
-    for item in progress.tqdm(segments, desc="Озвучивание"):
-        path = await generate_segment(item["text"], item.get("role", "narrator"))
         if path:
             temp_files.append(path)
-            seg_audio = AudioSegment.from_mp3(path)
-            # УМНАЯ СКЛЕЙКА (Crossfade)
-            # Убирает паузы, накладывая конец одного куска на начало другого (50мс)
             if len(full_audio) > 0:
-                full_audio = full_audio.append(seg_audio, crossfade=50)
             else:
-                full_audio = seg_audio
-            # Микро-пауза для стабильности
             await asyncio.sleep(0.1)
-    out_name = f"fantasy_local_{uuid.uuid4().hex}.mp3"
-    out_path = os.path.join(TEMP_DIR, out_name)
-    print("💾 Сохранение файла...")
     full_audio.export(out_path, format="mp3")
-    # Уборка
     for f in temp_files:
         try: os.remove(f)
         except: pass
@@ -149,33 +137,16 @@ async def process_audiobook(text):
     return out_path, segments
 # --- ИНТЕРФЕЙС ---
-css = """
-body { background-color: #0f172a; }
-.container { max-width: 900px; margin: auto; }
-h1 { color: #fbbf24; text-align: center; font-family: serif; }
-"""
-with gr.Blocks(theme=gr.themes.Soft(primary_hue="amber"), css=css, title="Local AI Narrator") as demo:
-    gr.Markdown("# 🏰 Fantasy TTS: Local AI Edition")
-    gr.Markdown("Нейросеть Qwen работает прямо на этом сервере. Данные никуда не уходят.")
     with gr.Row():
-        with gr.Column(scale=2):
-            inp = gr.Textbox(
-                label="Текст книги", lines=10,
-                value='— Стой! — крикнул рыцарь.\nДевушка обернулась и тихо спросила:\n— Зачем мне останавливаться?\nВетер выл в ушах.',
-                placeholder="Вставьте текст..."
-            )
-            btn = gr.Button("✨ Создать (Обработка на сервере)", variant="primary", size="lg")
-        with gr.Column(scale=1):
-            out_audio = gr.Audio(label="Результат", type="filepath")
-            out_debug = gr.JSON(label="Как нейросеть увидела роли")
-    btn.click(process_audiobook, inputs=inp, outputs=[out_audio, out_debug])
-if __name__ == "__main__":
-    # max_size=5 ограничивает очередь, чтобы сервер не завис
-    demo.queue(max_size=5).launch()

 import json
 import re
 from pydub import AudioSegment
+from transformers import pipeline
+# --- НАСТРОЙКИ ФЭНТЕЗИ ---
 VOICE_CONFIG = {
+    "narrator": {"voice": "ru-RU-DmitryNeural", "pitch": "-7Hz", "rate": "-5%"}, # Эпичный бас
+    "male":     {"voice": "ru-RU-DenisNeural",  "pitch": "-2Hz", "rate": "+0%"}, # Обычный
+    "female":   {"voice": "ru-RU-SvetlanaNeural","pitch": "+5Hz", "rate": "+5%"}  # Нежный
 }
 TEMP_DIR = tempfile.gettempdir()
+# --- ЗАГРУЗКА МАЛЕНЬКОЙ НЕЙРОСЕТИ ---
+# Используем Qwen 2.5 0.5B Instruct. Она весит копейки и работает мгновенно.
+MODEL_ID = "Qwen/Qwen2.5-0.5B-Instruct"
+print(f"🚀 Загрузка легкой модели {MODEL_ID}...")
 try:
+    # Создаем пайплайн для генерации текста
+    pipe = pipeline(
+        "text-generation",
+        model=MODEL_ID,
+        device_map="auto", # Автоматически использует CPU или GPU
+        max_new_tokens=2048,
+        trust_remote_code=True
     )
+    print("✅ Модель готова к работе!")
 except Exception as e:
+    print(f"❌ Ошибка загрузки модели: {e}")
+    pipe = None
+def analyze_text_with_tiny_ai(text):
     """
+    Использует маленькую модель для разбора текста.
     """
+    if not pipe:
         return [{"text": text, "role": "narrator"}]
+    # Простой промпт для маленькой модели.
+    # Маленькие модели любят конкретику.
+    system_prompt = (
+        "Ты редактор. Твоя задача - определить, кто говорит фразу.\n"
+        "Варианты ролей: narrator (автор), male (мужчина), female (женщина).\n"
+        "Ответь СТРОГО в формате JSON списка."
+    )
+    user_prompt = f"""Разбей этот текст на роли:
+    "{text}"
+    Пример ответа:
+    [{{"text": "- Привет", "role": "male"}}, {{"text": "- сказала она", "role": "narrator"}}]
     """
     messages = [
         {"role": "system", "content": system_prompt},
+        {"role": "user", "content": user_prompt},
     ]
     try:
+        outputs = pipe(messages)
+        result_text = outputs[0]["generated_text"][-1]["content"]
+        # Очистка ответа (маленькие модели могут добавить лишний текст)
+        json_match = re.search(r'\[.*\]', result_text, re.DOTALL)
+        if json_match:
+            json_str = json_match.group(0)
+            data = json.loads(json_str)
+            return data
+        else:
+            # Если JSON не найден, пробуем распарсить грубо или возвращаем ошибку
+            print(f"⚠️ Модель ответила не JSON: {result_text}")
+            return [{"text": text, "role": "narrator"}]
     except Exception as e:
+        print(f"⚠️ Ошибка анализа: {e}")
         return [{"text": text, "role": "narrator"}]
+# --- ГЕНЕРАЦИЯ ---
 async def generate_segment(text, role):
     if not text.strip(): return None
     conf = VOICE_CONFIG.get(role, VOICE_CONFIG["narrator"])
+    path = os.path.join(TEMP_DIR, f"{uuid.uuid4().hex}.mp3")
     try:
         comm = edge_tts.Communicate(text, conf["voice"], rate=conf["rate"], pitch=conf["pitch"])
         await comm.save(path)
         return path
+    except: return None
+async def process_book(text):
+    if not text.strip(): raise gr.Warning("Пустой текст!")
+    print("⚡ AI анализ (Lite)...")
+    segments = analyze_text_with_tiny_ai(text)
+    print(f"Результат анализа: {len(segments)} кусков.")
     full_audio = AudioSegment.empty()
     temp_files = []
     progress = gr.Progress()
+    for item in progress.tqdm(segments, desc="Озвучка"):
+        # Если модель вернула просто строку вместо словаря (бывает у маленьких моделей)
+        if isinstance(item, str):
+            txt, role = item, "narrator"
+        else:
+            txt = item.get("text", "")
+            role = item.get("role", "narrator")
+        path = await generate_segment(txt, role)
         if path:
             temp_files.append(path)
+            seg = AudioSegment.from_mp3(path)
+            # Мягкая склейка (Crossfade 50ms)
             if len(full_audio) > 0:
+                full_audio = full_audio.append(seg, crossfade=50)
             else:
+                full_audio = seg
             await asyncio.sleep(0.1)
+    out_path = os.path.join(TEMP_DIR, f"lite_fantasy_{uuid.uuid4().hex}.mp3")
     full_audio.export(out_path, format="mp3")
     for f in temp_files:
         try: os.remove(f)
         except: pass
     return out_path, segments
 # --- ИНТЕРФЕЙС ---
+css = "body {background-color: #1e1e2e; color: #cdd6f4;} .gradio-container {font-family: 'Verdana', sans-serif;}"
+theme = gr.themes.Soft(primary_hue="indigo")
+with gr.Blocks(theme=theme, css=css, title="Fantasy TTS Lite") as demo:
+    gr.Markdown("# ⚡ Fantasy TTS: Lite Edition (Qwen 0.5B)")
+    gr.Markdown("Использует сверхлегкую нейросеть для скорости. Работает на слабом железе.")
+    with gr.Row():
+        inp = gr.Textbox(label="Текст", lines=8, value='— Стой! — крикнул он.\nОна обернулась: — Зачем?')
+        btn = gr.Button("🚀 Озвучить", variant="primary")
     with gr.Row():
+        out_audio = gr.