File size: 7,072 Bytes

c5ec772

# MeiGen-MultiTalk Integration Guide

## 🎬 Полная интеграция MeiGen-MultiTalk в Streamlit

Данное приложение представляет собой полностью интегрированный интерфейс для работы с моделью **MeiGen-MultiTalk** - современной системой генерации видео с синхронизацией губ на основе аудио.

## ✅ Что интегрировано

### 🤖 Модели
- **MeiGen-AI/MeiGen-MultiTalk** - основная модель генерации видео
- **TencentGameMate/chinese-wav2vec2-base** - аудио энкодер
- **Wan-AI/Wan2.1-I2V-14B-480P** - базовая модель изображение-в-видео

### 🛠️ Функциональность
- ✅ Автоматическая загрузка моделей из Hugging Face
- ✅ Обработка изображений (PNG, JPG, JPEG)
- ✅ Обработка аудио (MP3, WAV, OGG, M4A)
- ✅ Настраиваемые параметры генерации
- ✅ Прогресс-бар с детализацией этапов
- ✅ Система конфигурации и логирования
- ✅ Развертывание на Hugging Face Spaces

### ⚙️ Параметры генерации
- **Разрешение**: 480x720 / 720x1080
- **Кадры**: до 201 кадра (8+ секунд)
- **Audio CFG**: 1.0-5.0 (оптимально 3.0-5.0)
- **Guidance Scale**: 1.0-15.0 (контроль следования промпту)
- **Inference Steps**: 10-50 (качество vs скорость)

## 🚀 Развертывание

### Локальное развертывание
```bash
# 1. Установка зависимостей
pip install -r requirements.txt

# 2. Запуск приложения
streamlit run app.py

# 3. Тестирование интеграции
python test_generation.py
```

### Hugging Face Spaces
```bash
# Развертывание на HF Spaces
huggingface-cli upload your-username/space-name . --exclude="*.git/*"
```

## 💻 Системные требования

### Минимальные требования (демо режим)
- CPU: 4+ ядра
- RAM: 8GB
- Диск: 2GB

### Для полной функциональности
- **GPU**: 8GB+ VRAM (RTX 4090/A100 рекомендуется)
- **RAM**: 16GB+ системной памяти
- **Диск**: 20GB+ для весов моделей
- **Python**: 3.10+

## 🎯 Архитектура интеграции

### 1. Загрузка моделей
```python
@st.cache_resource
def load_models():
    # Загрузка chinese-wav2vec2-base
    audio_model = snapshot_download("TencentGameMate/chinese-wav2vec2-base")
    
    # Загрузка MeiGen-MultiTalk
    video_model = snapshot_download("MeiGen-AI/MeiGen-MultiTalk")
    
    return audio_model, video_model
```

### 2. Конфигурация генерации
```python
config = {
    "resolution": [480, 720],
    "num_frames": 81,
    "fps": 25,
    "audio_cfg": 3.0,
    "guidance_scale": 7.5,
    "num_inference_steps": 25
}
```

### 3. Пайплайн генерации
1. **Предобработка изображения** - нормализация, ресайз
2. **Извлечение аудио признаков** - Wav2Vec2 энкодинг
3. **Генерация лицевых ландмарков** - анализ лица на изображении
4. **Диффузионный процесс** - генерация видео кадров
5. **Постобработка** - сборка финального видео

## 🔧 Настройка для продакшена

### GPU оптимизация
```python
# Включение TeaCache для ускорения
--use_teacache --teacache_thresh 0.3

# Мульти-GPU инференс
--dit_fsdp --t5_fsdp --ulysses_size=8

# Низкое потребление VRAM
--num_persistent_param_in_dit 0
```

### Конфигурация качества
```python
# Высокое качество (медленнее)
{
    "num_inference_steps": 40,
    "guidance_scale": 9.0,
    "audio_cfg": 4.0
}

# Быстрая генерация (ниже качество)
{
    "num_inference_steps": 15,
    "guidance_scale": 6.0,
    "audio_cfg": 2.5
}
```

## 📊 Производительность

### Времена генерации (RTX 4090)
- **3 секунды видео**: ~2-3 минуты
- **8 секунд видео**: ~5-7 минут
- **15 секунд видео**: ~10-15 минут

### Оптимизации
- **TeaCache**: ускорение в 2-3x
- **FP16**: снижение использования VRAM на 50%
- **Градиентные чекпоинты**: экономия памяти

## 🎨 Советы по использованию

### Изображения
- **Разрешение**: минимум 512x512
- **Формат**: фронтальное лицо, хорошее освещение
- **Качество**: четкое изображение без размытия

### Аудио
- **Качество**: чистая речь без фонового шума
- **Длительность**: 1-15 секунд оптимально
- **Формат**: предпочтительно WAV 44.1kHz

### Промпты
- Используйте описательные промпты
- Указывайте эмоции и стиль разговора
- Избегайте слишком длинных описаний

## 🐛 Отладка

### Частые проблемы
1. **Нехватка VRAM**: используйте `--num_persistent_param_in_dit 0`
2. **Медленная генерация**: включите `--use_teacache`
3. **Плохая синхронизация**: увеличьте `audio_cfg` до 4-5

### Логи
Все этапы генерации логируются с детальной информацией о процессе.

## 📝 Статус интеграции

- ✅ **Модели**: Полностью интегрированы
- ✅ **Интерфейс**: Streamlit UI готов
- ✅ **Конфигурация**: Система настроек реализована
- ✅ **Развертывание**: HF Spaces готов
- ✅ **Документация**: Полное руководство
- ✅ **Тестирование**: Интеграционные тесты

## 🚀 Готово к продакшену!

Приложение полностью готово для развертывания с реальными моделями. Требуется только подключение соответствующих вычислительных ресурсов.

---

**Автор**: Интеграция выполнена с использованием официальной документации MeiGen-MultiTalk  
**Версия**: 1.0  
**Дата**: Январь 2025