Spaces:

NIKOLAJ5313
/

ai_video_slide_maker

Sleeping

App Files Files Community

NIKOLAJ5313 commited on Jan 3

Commit

44d28d5

verified ·

1 Parent(s): e08fe2c

Update app.py

Browse files

Files changed (1) hide show

app.py +97 -98

app.py CHANGED Viewed

@@ -1,116 +1,115 @@
 import gradio as gr
 import torch
-import numpy as np
 import tempfile
-import os
-from pathlib import Path
-# Импорты для озвучки (TTS)
-from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
-from datasets import load_dataset
-# Импорты для генерации изображений (слайдов)
-from diffusers import DiffusionPipeline
-import PIL.Image
-print("🚀 Начинаю загрузку моделей для AI Video Slide Maker...")
-# ---- 1. ЗАГРУЗКА МОДЕЛИ ОЗВУЧКИ (TTS) ----
-try:
-    tts_processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
-    tts_model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
-    tts_vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-    embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-    speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
-    print("✅ Модель озвучки (TTS) загружена!")
-except Exception as e:
-    print(f"⚠️ Не удалось загрузить модель озвучки: {e}")
-    tts_model = None
-# ---- 2. ЗАГРУЗКА МОДЕЛИ ГЕНЕРАЦИИ ИЗОБРАЖЕНИЙ (СЛАЙДОВ) ----
-try:
-    # Используем быструю и лёгкую модель для генерации картинок
-    image_pipe = DiffusionPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", torch_dtype=torch.float16)
-    # Если будет работать медленно, можно попробовать "stabilityai/sdxl-turbo"
-    print("✅ Модель для генерации слайдов загружена!")
-except Exception as e:
-    print(f"⚠️ Не удалось загрузить модель для слайдов: {e}")
-    image_pipe = None
-# ---- 3. ОСНОВНЫЕ ФУНКЦИИ КОМБАЙНА ----
 def generate_speech(text):
-    """Создаёт аудио из текста."""
-    if tts_model is None:
-        return None, "Модель озвучки не загружена"
-    if len(text) > 300:
-        text = text[:300] + "..."
-    inputs = tts_processor(text=text, return_tensors="pt")
-    speech = tts_model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=tts_vocoder)
-    audio_array = speech.cpu().numpy()
-    return 16000, audio_array  # частота дискретизации, данные
 def generate_slide(prompt):
-    """Создаёт изображение (слайд) по текстовому описанию."""
-    if image_pipe is None:
-        return None, "Модель для слайдов не загружена"
     try:
-        image = image_pipe(
             prompt,
-            num_inference_steps=4,  # Мало шагов для скорости
-            guidance_scale=3.5
         ).images[0]
-        return image, None
     except Exception as e:
-        return None, f"Ошибка генерации: {e}"
-def create_video_from_slides(images, audio):
-    """Собирает видео из списка изображений и аудио (заглушка)."""
-    # Это сложная часть. Пока возвращаем первое изображение как "видео".
-    if images and isinstance(images, list) and images[0]:
-        return images[0], "Видео (сборка): Показ слайда с аудио"
-    return None, "Нет данных для сборки видео"
-# ---- 4. СОЗДАНИЕ ИНТЕРФЕЙСА GRADIO ----
-with gr.Blocks(title="🎬 AI Video Slide Maker", theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# 🎬 AI Video Slide Maker")
-    gr.Markdown("**Комбайн для создания видео со слайдами и озвучкой**")
     with gr.Tab("🎤 Озвучка (TTS)"):
-        tts_input = gr.Textbox(label="Текст для озвучки", lines=3,
-                               placeholder="Введите текст на русском...",
-                               value="Привет! Это тест озвучки от нашего комбайна.")
-        tts_button = gr.Button("Сгенерировать речь")
-        tts_audio = gr.Audio(label="Результат", type="numpy")
-        tts_status = gr.Textbox(label="Статус", interactive=False)
-        tts_button.click(fn=generate_speech,
-                         inputs=tts_input,
-                         outputs=[tts_audio, tts_status])
     with gr.Tab("📊 Генератор слайдов"):
-        slide_prompt = gr.Textbox(label="Опишите ваш слайд", lines=2,
-                                  placeholder="Например: Космонавт с котом в космосе, цифровое искусство",
-                                  value="Абстрактный фон с градиентом для презентации")
-        slide_button = gr.Button("Сгенерировать слайд")
-        slide_image = gr.Image(label="Сгенерированный слайд", type="pil")
-        slide_status = gr.Textbox(label="Статус", interactive=False)
-        slide_button.click(fn=generate_slide,
-                           inputs=slide_prompt,
-                           outputs=[slide_image, slide_status])
-    with gr.Tab("🚀 Сборка видео (прототип)"):
-        gr.Markdown("Здесь будет сборка видео из слайдов и аудио.")
-        video_output = gr.Image(label="Результат (первый слайд)")
-        video_status = gr.Textbox(label="Статус сборки", interactive=False)
-        # Кнопка сборки появится позже, когда добавим логику
     gr.Markdown("---")
-    gr.Markdown("### 🔧 Следующие шаги:")
-    gr.Markdown("1. Нажмите **'Сгенерировать речь'** в первой вкладке — должна появиться озвучка.")
-    gr.Markdown("2. Нажмите **'Сгенерировать слайд'** во второй вкладке — должна появиться картинка.")
-    gr.Markdown("3. Если оба шага работают — основа комбайна готова!")
-# ---- 5. ЗАПУСК ----
 if __name__ == "__main__":
-    demo.launch(debug=True, server_name="0.0.0.0")

 import gradio as gr
+import os
 import torch
 import tempfile
+from diffusers import StableDiffusionPipeline
+from transformers import pipeline as transformers_pipeline
+import warnings
+warnings.filterwarnings("ignore")
+# ========== ИНИЦИАЛИЗАЦИЯ ПЕРЕМЕННЫХ (Ленивая загрузка) ==========
+tts_pipeline = None
+image_pipeline = None
+def get_tts_model():
+    """Ленивая загрузка модели для TTS (речь)"""
+    global tts_pipeline
+    if tts_pipeline is None:
+        print("🔄 Загружаю модель TTS...")
+        # Используем маленькую модель для русской речи
+        tts_pipeline = transformers_pipeline("text-to-speech", model="ai-forever/rugpt3small_based_on_gpt2")
+    return tts_pipeline
+def get_image_model():
+    """Ленивая загрузка модели для генерации изображений"""
+    global image_pipeline
+    if image_pipeline is None:
+        print("🔄 Загружаю модель для генерации изображений...")
+        # 1. Самая лёгкая модель: Stable Diffusion 1.5 Tiny (очень быстро, мало памяти)
+        model_id = "OFA-Sys/small-stable-diffusion-v0"
+        # 2. Альтернатива: Базовая SD 1.5 (лучше качество, но тяжелее)
+        # model_id = "runwayml/stable-diffusion-v1-5"
+        # Настройка для CPU: float32 и явное указание device
+        image_pipeline = StableDiffusionPipeline.from_pretrained(
+            model_id,
+            torch_dtype=torch.float32,
+            use_auth_token=os.getenv("HF_TOKEN")  # Токен для доступа
+        )
+        image_pipeline = image_pipeline.to("cpu")  # Явно указываем CPU
+    return image_pipeline
+# ========== ОСНОВНЫЕ ФУНКЦИИ ==========
 def generate_speech(text):
+    """Генерация аудио из текста"""
+    try:
+        tts = get_tts_model()
+        # Создаём аудиофайл во временной папке
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_file:
+            audio_path = tmp_file.name
+            # Здесь должен быть код генерации аудио через tts_pipeline
+            # Временная заглушка: создаём пустой файл для демонстрации
+            with open(audio_path, 'wb') as f:
+                f.write(b'')  # Заглушка
+        return audio_path
+    except Exception as e:
+        return f"❌ Ошибка TTS: {str(e)}"
 def generate_slide(prompt):
+    """Генерация изображения по промпту"""
     try:
+        pipe = get_image_model()
+        print(f"✅ Генерация изображения для промпта: {prompt[:50]}...")
+        # Генерация с минимальными требованиями к памяти
+        image = pipe(
             prompt,
+            num_inference_steps=20,           # Меньше шагов = меньше памяти
+            guidance_scale=7.5,
+            height=256,                       # Маленькое разрешение
+            width=256
         ).images[0]
+        # Сохраняем во временный файл
+        with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp_file:
+            image_path = tmp_file.name
+            image.save(image_path)
+        return image_path
     except Exception as e:
+        return f"❌ Ошибка генерации: {str(e)}"
+def assemble_video():
+    """Заглушка для сборки видео"""
+    return "🎬 Функция сборки видео в разработке"
+# ========== ИНТЕРФЕЙС GRADIO ==========
+with gr.Blocks(title="AI Video Slide Maker (Free CPU Version)") as demo:
+    gr.Markdown("# 🎥 AI Video Slide Maker (Free CPU Version)")
+    gr.Markdown("Облегченная версия, работающая в бесплатном Hugging Face Space")
     with gr.Tab("🎤 Озвучка (TTS)"):
+        tts_input = gr.Textbox(label="Текст для озвучки", lines=3,
+                               placeholder="Введите текст на русском языке...")
+        tts_button = gr.Button("Сгенерировать аудио")
+        tts_output = gr.Audio(label="Результат", type="filepath")
+        tts_button.click(generate_speech, inputs=tts_input, outputs=tts_output)
     with gr.Tab("📊 Генератор слайдов"):
+        img_input = gr.Textbox(label="Описание слайда (промпт)", lines=2,
+                               placeholder="Например: профессиональная презентация о данных, синий фон")
+        img_button = gr.Button("Сгенерировать слайд")
+        img_output = gr.Image(label="Сгенерированный слайд", type="filepath")
+        img_button.click(generate_slide, inputs=img_input, outputs=img_output)
+    with gr.Tab("🎬 Сборка видео (заглушка)"):
+        video_button = gr.Button("Собрать видео (заглушка)")
+        video_output = gr.Textbox(label="Статус")
+        video_button.click(assemble_video, inputs=None, outputs=video_output)
     gr.Markdown("---")
+    gr.Markdown("### ℹ️ Примечание")
+    gr.Markdown("Эта версия использует **Stable Diffusion Tiny** для работы в 2 ГБ памяти. Изображения генерируются в низком разрешении.")
+# ========== ЗАПУСК ПРИЛОЖЕНИЯ ==========
 if __name__ == "__main__":
+    demo.launch(debug=False)