phunter_space / ACTIVATION_GUIDE.md

Upload folder using huggingface_hub

d18daa3 verified 7 months ago

3.77 kB

	# 🎬 Активация реальной генерации MeiGen-MultiTalk

	## ✅ ЧТО УЖЕ СДЕЛАНО:

	1. ✅ Активирована загрузка реальных моделей в `app.py`
	2. ✅ Создан реальный генератор `real_generation.py`
	3. ✅ Обновлены зависимости в `requirements.txt`
	4. ✅ Настроен пайплайн для полной интеграции

	## 🚀 ПОШАГОВАЯ АКТИВАЦИЯ:

	### Шаг 1: Установка зависимостей
	```bash
	pip install -r requirements.txt
	```

	### Шаг 2: Запуск приложения
	```bash
	streamlit run app.py --server.port 8501
	```

	### Шаг 3: Использование
	1. Откройте: http://localhost:8501
	2. Загрузите:
	- 🖼️ Изображение (PNG/JPG) - четкое фото лица
	- 🎵 Аудио (MP3/WAV) - чистая речь
	3. Настройте параметры:
	- Audio CFG: 3.0-5.0
	- Guidance Scale: 7.5
	- Steps: 25
	4. Нажмите: "🎬 Generate Video"

	## 🔧 ЧТО ПРОИСХОДИТ ПРИ ГЕНЕРАЦИИ:

	### Автоматическая загрузка моделей:
	- ✅ TencentGameMate/chinese-wav2vec2-base - аудио обработка
	- ✅ MeiGen-AI/MeiGen-MultiTalk - видео генерация
	- ⏳ Первый запуск: 5-10 минут загрузки
	- ⚡ Последующие: мгновенный старт

	### Процесс генерации:
	1. 🔄 Загрузка моделей (если не загружены)
	2. 🎵 Обработка аудио с Wav2Vec2
	3. 🖼️ Обработка изображения (resize, normalize)
	4. 🎬 Генерация видео (кадр за кадром)
	5. 💾 Сохранение в MP4 формате

	## 💻 СИСТЕМНЫЕ ТРЕБОВАНИЯ:

	### Минимальные:
	- CPU: 4+ ядра
	- RAM: 8GB
	- Storage: 10GB

	### Рекомендуемые:
	- GPU: RTX 4090 (24GB VRAM)
	- RAM: 32GB
	- Storage: 50GB SSD
	- CPU: Intel i7/AMD Ryzen 7+

	### Для демо (без GPU):
	- ✅ Работает на CPU
	- ⏳ Медленнее (5-10 минут)
	- 🎯 Базовое качество

	## 🎯 РЕЗУЛЬТАТ:

	После генерации вы получите:
	- 📹 MP4 видео с синхронизацией губ
	- 📊 Детальный лог процесса
	- ⏱️ Информацию о времени генерации
	- 💾 Возможность скачать результат

	## 🔍 ДИАГНОСТИКА:

	### Если не работает:
	1. Проверьте зависимости: `pip list \| grep torch`
	2. Проверьте CUDA: `python -c "import torch; print(torch.cuda.is_available())"`
	3. Проверьте место: `df -h`
	4. Проверьте логи: в интерфейсе Streamlit

	### Типичные ошибки:
	- 404 Error: Модель не найдена → автоматический fallback
	- CUDA Error: Нет GPU → работа на CPU
	- Memory Error: Мало RAM → уменьшите resolution
	- Timeout: Долгая генерация → увеличьте timeout

	## 🎉 ГОТОВО К РАБОТЕ!

	Теперь ваше приложение:
	- ✅ Загружает реальные модели MeiGen-MultiTalk
	- ✅ Генерирует настоящие видео с lip-sync
	- ✅ Работает локально и на HF Spaces
	- ✅ Готово к продакшену

	🎬 Просто загрузите файлы и нажмите "Generate Video"!

	# 🎬 Активация реальной генерации MeiGen-MultiTalk

	## ✅ ЧТО УЖЕ СДЕЛАНО:

	1. ✅ Активирована загрузка реальных моделей в `app.py`
	2. ✅ Создан реальный генератор `real_generation.py`
	3. ✅ Обновлены зависимости в `requirements.txt`
	4. ✅ Настроен пайплайн для полной интеграции

	## 🚀 ПОШАГОВАЯ АКТИВАЦИЯ:

	### Шаг 1: Установка зависимостей
	```bash
	pip install -r requirements.txt
	```

	### Шаг 2: Запуск приложения
	```bash
	streamlit run app.py --server.port 8501
	```

	### Шаг 3: Использование
	1. Откройте: http://localhost:8501
	2. Загрузите:
	- 🖼️ Изображение (PNG/JPG) - четкое фото лица
	- 🎵 Аудио (MP3/WAV) - чистая речь
	3. Настройте параметры:
	- Audio CFG: 3.0-5.0
	- Guidance Scale: 7.5
	- Steps: 25
	4. Нажмите: "🎬 Generate Video"

	## 🔧 ЧТО ПРОИСХОДИТ ПРИ ГЕНЕРАЦИИ:

	### Автоматическая загрузка моделей:
	- ✅ TencentGameMate/chinese-wav2vec2-base - аудио обработка
	- ✅ MeiGen-AI/MeiGen-MultiTalk - видео генерация
	- ⏳ Первый запуск: 5-10 минут загрузки
	- ⚡ Последующие: мгновенный старт

	### Процесс генерации:
	1. 🔄 Загрузка моделей (если не загружены)
	2. 🎵 Обработка аудио с Wav2Vec2
	3. 🖼️ Обработка изображения (resize, normalize)
	4. 🎬 Генерация видео (кадр за кадром)
	5. 💾 Сохранение в MP4 формате

	## 💻 СИСТЕМНЫЕ ТРЕБОВАНИЯ:

	### Минимальные:
	- CPU: 4+ ядра
	- RAM: 8GB
	- Storage: 10GB

	### Рекомендуемые:
	- GPU: RTX 4090 (24GB VRAM)
	- RAM: 32GB
	- Storage: 50GB SSD
	- CPU: Intel i7/AMD Ryzen 7+

	### Для демо (без GPU):
	- ✅ Работает на CPU
	- ⏳ Медленнее (5-10 минут)
	- 🎯 Базовое качество

	## 🎯 РЕЗУЛЬТАТ:

	После генерации вы получите:
	- 📹 MP4 видео с синхронизацией губ
	- 📊 Детальный лог процесса
	- ⏱️ Информацию о времени генерации
	- 💾 Возможность скачать результат

	## 🔍 ДИАГНОСТИКА:

	### Если не работает:
	1. Проверьте зависимости: `pip list \| grep torch`
	2. Проверьте CUDA: `python -c "import torch; print(torch.cuda.is_available())"`
	3. Проверьте место: `df -h`
	4. Проверьте логи: в интерфейсе Streamlit

	### Типичные ошибки:
	- 404 Error: Модель не найдена → автоматический fallback
	- CUDA Error: Нет GPU → работа на CPU
	- Memory Error: Мало RAM → уменьшите resolution
	- Timeout: Долгая генерация → увеличьте timeout

	## 🎉 ГОТОВО К РАБОТЕ!

	Теперь ваше приложение:
	- ✅ Загружает реальные модели MeiGen-MultiTalk
	- ✅ Генерирует настоящие видео с lip-sync
	- ✅ Работает локально и на HF Spaces
	- ✅ Готово к продакшену

	🎬 Просто загрузите файлы и нажмите "Generate Video"!