phunter_space / ACTIVATION_GUIDE.md
rocketmandrey's picture
Upload folder using huggingface_hub
d18daa3 verified

🎬 Активация реальной генерации MeiGen-MultiTalk

✅ ЧТО УЖЕ СДЕЛАНО:

  1. ✅ Активирована загрузка реальных моделей в app.py
  2. ✅ Создан реальный генератор real_generation.py
  3. ✅ Обновлены зависимости в requirements.txt
  4. ✅ Настроен пайплайн для полной интеграции

🚀 ПОШАГОВАЯ АКТИВАЦИЯ:

Шаг 1: Установка зависимостей

pip install -r requirements.txt

Шаг 2: Запуск приложения

streamlit run app.py --server.port 8501

Шаг 3: Использование

  1. Откройте: http://localhost:8501
  2. Загрузите:
    • 🖼️ Изображение (PNG/JPG) - четкое фото лица
    • 🎵 Аудио (MP3/WAV) - чистая речь
  3. Настройте параметры:
    • Audio CFG: 3.0-5.0
    • Guidance Scale: 7.5
    • Steps: 25
  4. Нажмите: "🎬 Generate Video"

🔧 ЧТО ПРОИСХОДИТ ПРИ ГЕНЕРАЦИИ:

Автоматическая загрузка моделей:

  • TencentGameMate/chinese-wav2vec2-base - аудио обработка
  • MeiGen-AI/MeiGen-MultiTalk - видео генерация
  • Первый запуск: 5-10 минут загрузки
  • Последующие: мгновенный старт

Процесс генерации:

  1. 🔄 Загрузка моделей (если не загружены)
  2. 🎵 Обработка аудио с Wav2Vec2
  3. 🖼️ Обработка изображения (resize, normalize)
  4. 🎬 Генерация видео (кадр за кадром)
  5. 💾 Сохранение в MP4 формате

💻 СИСТЕМНЫЕ ТРЕБОВАНИЯ:

Минимальные:

  • CPU: 4+ ядра
  • RAM: 8GB
  • Storage: 10GB

Рекомендуемые:

  • GPU: RTX 4090 (24GB VRAM)
  • RAM: 32GB
  • Storage: 50GB SSD
  • CPU: Intel i7/AMD Ryzen 7+

Для демо (без GPU):

  • ✅ Работает на CPU
  • ⏳ Медленнее (5-10 минут)
  • 🎯 Базовое качество

🎯 РЕЗУЛЬТАТ:

После генерации вы получите:

  • 📹 MP4 видео с синхронизацией губ
  • 📊 Детальный лог процесса
  • ⏱️ Информацию о времени генерации
  • 💾 Возможность скачать результат

🔍 ДИАГНОСТИКА:

Если не работает:

  1. Проверьте зависимости: pip list | grep torch
  2. Проверьте CUDA: python -c "import torch; print(torch.cuda.is_available())"
  3. Проверьте место: df -h
  4. Проверьте логи: в интерфейсе Streamlit

Типичные ошибки:

  • 404 Error: Модель не найдена → автоматический fallback
  • CUDA Error: Нет GPU → работа на CPU
  • Memory Error: Мало RAM → уменьшите resolution
  • Timeout: Долгая генерация → увеличьте timeout

🎉 ГОТОВО К РАБОТЕ!

Теперь ваше приложение:

  • Загружает реальные модели MeiGen-MultiTalk
  • Генерирует настоящие видео с lip-sync
  • Работает локально и на HF Spaces
  • Готово к продакшену

🎬 Просто загрузите файлы и нажмите "Generate Video"!