Cascade-Edge

Sleeping

App Files Files Community

VSPAN commited on Nov 21, 2025

Commit

0a59ddb

verified ·

1 Parent(s): f81803f

Update app.py

Browse files

Files changed (1) hide show

app.py +111 -152

app.py CHANGED Viewed

@@ -7,216 +7,175 @@ import uuid
 import json
 import re
 from pydub import AudioSegment
-from huggingface_hub import InferenceClient
-# --- НАСТРОЙКИ ГОЛОСОВ (ФЭНТЕЗИ ПРЕСЕТ) ---
-# Подбираем идеальные параметры, чтобы уши "радовались"
 VOICE_CONFIG = {
-    "narrator": { # Рассказчик (Глубокий, спокойный)
-        "voice": "ru-RU-DmitryNeural",
-        "pitch": "-7Hz",  # Тот самый приятный низкий бас
-        "rate": "-5%"     # Чуть медленнее для эпичности
-    },
-    "male": { # Персонаж мужчина
-        "voice": "ru-RU-DenisNeural",
-        "pitch": "-2Hz",  # Обычный мужской тон
-        "rate": "+0%"
-    },
-    "female": { # Персонаж женщина
-        "voice": "ru-RU-SvetlanaNeural",
-        "pitch": "+5Hz",  # Приятный женский, не писклявый (не +30!)
-        "rate": "+5%"     # Женщины часто говорят чуть быстрее
-    }
 }
 TEMP_DIR = tempfile.gettempdir()
-# --- МОЗГ: LLM QWEN ---
-# Мы используем Qwen-2.5-72B через бесплатный API HuggingFace.
-# Это мощнее, чем модель 2B, и не жрет вашу память.
-client = InferenceClient("Qwen/Qwen2.5-72B-Instruct")
-def ask_llm_to_parse(text):
     """
-    Отправляет текст в Qwen, чтобы тот разбил его на роли.
     """
-    system_prompt = """
-    Ты профессиональный режиссер аудиокниг. Твоя задача - разметить текст для озвучки.
-    Правила:
-    1. Определи, кто говорит: Рассказчик (narrator), Мужчина (male) или Женщина (female).
-    2. Определи интонацию по контексту.
-    3. Верни ТОЛЬКО валидный JSON список. Никаких пояснений.
-    Формат JSON:
-    [
-      {"text": "Текст фрагмента", "role": "narrator/male/female", "mood": "neutral"}
-    ]
     Пример:
-    Вход: — Привет, — сказала Анна.
-    Выход: [{"text": "— Привет,", "role": "female"}, {"text": "— сказала Анна.", "role": "narrator"}]
     """
     try:
-        messages = [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": f"Разметь этот текст:\n{text}"}
-        ]
-        # Запрос к API (выполняется на серверах HF)
-        response = client.chat_completion(messages, max_tokens=4000, temperature=0.1)
-        content = response.choices[0].message.content
-        # Чистим ответ от возможного markdown (```json ... ```)
-        content = re.sub(r'```json\s*', '', content)
-        content = re.sub(r'```', '', content)
         data = json.loads(content)
         return data
     except Exception as e:
-        print(f"⚠️ Ошибка LLM: {e}")
-        # Фолбэк: если LLM ошиблась, возвращаем весь текст как рассказчика
         return [{"text": text, "role": "narrator"}]
-# --- ГЕНЕРАТОР АУДИО ---
 async def generate_segment(text, role):
-    """Генерирует кусок аудио с нужными настройками."""
-    if not text or not text.strip(): return None
-    # Берем настройки из конфига
-    config = VOICE_CONFIG.get(role, VOICE_CONFIG["narrator"])
-    filename = f"seg_{uuid.uuid4().hex}.mp3"
-    path = os.path.join(TEMP_DIR, filename)
     try:
-        communicate = edge_tts.Communicate(
-            text,
-            config["voice"],
-            rate=config["rate"],
-            pitch=config["pitch"]
-        )
-        await communicate.save(path)
         return path
-    except Exception as e:
-        print(f"Err gen: {e}")
         return None
-async def process_book(text, api_key_input=None):
-    """
-    Главная функция: LLM -> TTS -> Stitching
-    """
-    if not text.strip(): raise gr.Warning("Нет текста!")
-    # Если пользователь ввел свой ключ (для стабильности), используем его
-    global client
-    if api_key_input and api_key_input.strip():
-        client = InferenceClient("Qwen/Qwen2.5-72B-Instruct", token=api_key_input)
-    print("🧠 1. Qwen анализирует сцену...")
-    # Шаг 1: Анализ текста (выполняется на сервере)
-    segments_data = ask_llm_to_parse(text)
-    print(f"📊 Найдено сегментов: {len(segments_data)}")
-    # Шаг 2: Генерация кусочков
-    temp_files = []
     full_audio = AudioSegment.empty()
-    # Используем прогресс-бар
     progress = gr.Progress()
-    for item in progress.tqdm(segments_data, desc="Озвучка ролей"):
-        audio_path = await generate_segment(item["text"], item["role"])
-        if audio_path:
-            segment = AudioSegment.from_mp3(audio_path)
-            temp_files.append(audio_path)
-            # Шаг 3: Умная склейка (удаляем паузы)
             if len(full_audio) > 0:
-                # Crossfade (нахлест) в 50мс убирает щелчки и делает переход "бесшовным"
-                # Мы НЕ добавляем тишину, мы наоборот склеиваем вплотную
-                full_audio = full_audio.append(segment, crossfade=50)
             else:
-                full_audio = segment
-            # Маленькая задержка, чтобы API Microsoft не забанил
             await asyncio.sleep(0.1)
-    # Шаг 4: Экспорт
-    print("💾 Финальный рендеринг...")
-    output_filename = f"fantasy_masterpiece_{uuid.uuid4().hex}.mp3"
-    output_path = os.path.join(TEMP_DIR, output_filename)
-    full_audio.export(output_path, format="mp3")
-    # Чистка
     for f in temp_files:
-        try:
-            os.remove(f)
         except: pass
-    return output_path, segments_data  # Возвращаем аудио и JSON для отладки
 # --- ИНТЕРФЕЙС ---
 css = """
-body { background-color: #0b0f19; }
 .container { max-width: 900px; margin: auto; }
-h1 { color: #d4af37; font-family: serif; text-align: center; font-size: 2.5rem; }
-.gradio-container { font-family: 'Merriweather', serif; }
 """
-theme = gr.themes.Soft(
-    primary_hue="amber",
-    secondary_hue="zinc",
-    neutral_hue="slate"
-)
-with gr.Blocks(theme=theme, css=css, title="Fantasy AI Studio") as demo:
-    gr.Markdown("# 🐉 Fantasy AI Studio: Qwen Edition")
-    gr.Markdown("Вся работа происходит на сервере. Ваш ПК только получает результат.")
     with gr.Row():
         with gr.Column(scale=2):
-            text_input = gr.Textbox(
-                label="Текст главы",
-                lines=12,
-                placeholder="Вставьте текст. Qwen сам поймет, где мужчина, а где женщина...",
-                value='— Тише! — прошептал следопыт, прижимаясь к земле.\nДевушка испуганно оглянулась:\n— Ты что-то слышишь?\n— Дыхание дракона, — мрачно ответил он.'
             )
-            # Опционально: Ключ HF (если бесплатный лимит кончился)
-            hf_token = gr.Textbox(
-                label="HuggingFace Token (Опционально)",
-                type="password",
-                placeholder="Если есть свой токен, вставьте сюда для скорости",
-                info="Можно оставить пустым, используется публичный доступ."
-            )
         with gr.Column(scale=1):
-            gr.Markdown("### 🎛️ Параметры Голосов")
-            gr.JSON(
-                value=VOICE_CONFIG,
-                label="Текущие настройки (Narrator -7Hz)"
-            )
-            btn = gr.Button("✨ Создать Шедевр", variant="primary", size="lg")
-            audio_output = gr.Audio(label="Результат", type="filepath")
-            # Показываем, как Qwen распарсил текст
-            debug_json = gr.JSON(label="Как ИИ понял текст (Debug)")
-    btn.click(
-        fn=process_book,
-        inputs=[text_input, hf_token],
-        outputs=[audio_output, debug_json]
-    )
 if __name__ == "__main__":
-    demo.queue(max_size=10).launch()

 import json
 import re
 from pydub import AudioSegment
+from huggingface_hub import hf_hub_download
+from llama_cpp import Llama  # Библиотека для локального запуска нейросети
+# --- НАСТРОЙКИ ГОЛОСОВ (ФЭНТЕЗИ) ---
 VOICE_CONFIG = {
+    "narrator": {"voice": "ru-RU-DmitryNeural", "pitch": "-7Hz", "rate": "-5%"},
+    "male":     {"voice": "ru-RU-DenisNeural",  "pitch": "-2Hz", "rate": "+0%"},
+    "female":   {"voice": "ru-RU-SvetlanaNeural","pitch": "+5Hz", "rate": "+5%"}
 }
 TEMP_DIR = tempfile.gettempdir()
+# --- ЛОКАЛЬНАЯ НЕЙРОСЕТЬ (QWEN) ---
+# Мы используем Qwen 2.5 3B Instruct в формате GGUF.
+# Это позволяет запускать модель прямо на CPU сервера быстро и бесплатно.
+REPO_ID = "Qwen/Qwen2.5-3B-Instruct-GGUF"
+FILENAME = "qwen2.5-3b-instruct-q4_k_m.gguf"
+print("⏳ Загрузка нейросети в память сервера... Это может занять минуту.")
+try:
+    # Скачиваем модель локально (кэшируется)
+    model_path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
+    # Инициализируем модель (n_ctx=2048 - длина контекста)
+    llm = Llama(
+        model_path=model_path,
+        n_ctx=4096,       # Память контекста
+        n_threads=4,      # Используем 4 ядра процессора
+        verbose=False     # Отключаем лишний шум в консоли
+    )
+    print("✅ Нейросеть успешно запущена локально!")
+except Exception as e:
+    print(f"❌ Ошибка запуска нейросети: {e}")
+    llm = None
+def ask_local_llm(text):
     """
+    Обрабатывает текст через локальную модель Qwen.
     """
+    if not llm:
+        return [{"text": text, "role": "narrator"}]
+    system_prompt = """Ты помощник режиссера. Твоя задача - проанализировать текст и разбить его на реплики для озвучки.
+    1. Определи, кто говорит: "narrator" (автор), "male" (мужчина), "female" (женщина).
+    2. Верни ТОЛЬКО JSON массив. Без лишних слов.
     Пример:
+    Вход: — Привет! — сказала Аня.
+    Выход: [{"text": "— Привет!", "role": "female"}, {"text": "— сказала Аня.", "role": "narrator"}]
     """
+    user_prompt = f"Текст для анализа:\n{text}"
+    # Формируем диалог в формате ChatML (понятный для Qwen)
+    messages = [
+        {"role": "system", "content": system_prompt},
+        {"role": "user", "content": user_prompt}
+    ]
     try:
+        # Генерация ответа
+        response = llm.create_chat_completion(
+            messages=messages,
+            max_tokens=2000, # Максимальная длина ответа
+            temperature=0.1, # Минимальная креативность (для точности JSON)
+            top_p=0.9
+        )
+        content = response["choices"][0]["message"]["content"]
+        # Очистка ответа от мусора (если модель решила поболтать)
+        content = re.sub(r'```json', '', content)
+        content = re.sub(r'```', '', content).strip()
+        # Попытка распарсить JSON
         data = json.loads(content)
         return data
     except Exception as e:
+        print(f"⚠️ Ошибка парсинга LLM: {e}\nОтвет был: {content if 'content' in locals() else 'Пусто'}")
+        # Если нейронка ошиблась, возвращаем весь текст как рассказчика
         return [{"text": text, "role": "narrator"}]
+# --- ГЕНЕРАЦИЯ АУДИО (С КЭШИРОВАНИЕМ И СКЛЕЙКОЙ) ---
 async def generate_segment(text, role):
+    if not text.strip(): return None
+    conf = VOICE_CONFIG.get(role, VOICE_CONFIG["narrator"])
+    fname = f"{uuid.uuid4().hex}.mp3"
+    path = os.path.join(TEMP_DIR, fname)
     try:
+        comm = edge_tts.Communicate(text, conf["voice"], rate=conf["rate"], pitch=conf["pitch"])
+        await comm.save(path)
         return path
+    except:
         return None
+async def process_audiobook(text):
+    if not text.strip(): raise gr.Warning("Введите текст!")
+    print("🧠 Локальная нейросеть анализирует текст...")
+    segments = ask_local_llm(text)
+    print(f"📊 Найдено фрагментов: {len(segments)}")
     full_audio = AudioSegment.empty()
+    temp_files = []
     progress = gr.Progress()
+    for item in progress.tqdm(segments, desc="Озвучивание"):
+        path = await generate_segment(item["text"], item.get("role", "narrator"))
+        if path:
+            temp_files.append(path)
+            seg_audio = AudioSegment.from_mp3(path)
+            # УМНАЯ СКЛЕЙКА (Crossfade)
+            # Убирает паузы, накладывая конец одного куска на начало другого (50мс)
             if len(full_audio) > 0:
+                full_audio = full_audio.append(seg_audio, crossfade=50)
             else:
+                full_audio = seg_audio
+            # Микро-пауза для стабильности
             await asyncio.sleep(0.1)
+    out_name = f"fantasy_local_{uuid.uuid4().hex}.mp3"
+    out_path = os.path.join(TEMP_DIR, out_name)
+    print("💾 Сохранение файла...")
+    full_audio.export(out_path, format="mp3")
+    # Уборка
     for f in temp_files:
+        try: os.remove(f)
         except: pass
+    return out_path, segments
 # --- ИНТЕРФЕЙС ---
 css = """
+body { background-color: #0f172a; }
 .container { max-width: 900px; margin: auto; }
+h1 { color: #fbbf24; text-align: center; font-family: serif; }
 """
+with gr.Blocks(theme=gr.themes.Soft(primary_hue="amber"), css=css, title="Local AI Narrator") as demo:
+    gr.Markdown("# 🏰 Fantasy TTS: Local AI Edition")
+    gr.Markdown("Нейросеть Qwen работает прямо на этом сервере. Данные никуда не уходят.")
     with gr.Row():
         with gr.Column(scale=2):
+            inp = gr.Textbox(
+                label="Текст книги", lines=10,
+                value='— Стой! — крикнул рыцарь.\nДевушка обернулась и тихо спросила:\n— Зачем мне останавливаться?\nВетер выл в ушах.',
+                placeholder="Вставьте текст..."
             )
+            btn = gr.Button("✨ Создать (Обработка на сервере)", variant="primary", size="lg")
         with gr.Column(scale=1):
+            out_audio = gr.Audio(label="Результат", type="filepath")
+            out_debug = gr.JSON(label="Как нейросеть увидела роли")
+    btn.click(process_audiobook, inputs=inp, outputs=[out_audio, out_debug])
 if __name__ == "__main__":
+    # max_size=5 ограничивает очередь, чтобы сервер не завис
+    demo.queue(max_size=5).launch()