Spaces:

Gerchegg
/

Qwen-ImageForFlo-Advanced

Paused

App Files Files Community

Gerchegg commited on Oct 17, 2025

Commit

ea5f6b0

verified ·

1 Parent(s): aaf792b

Upload README.md with huggingface_hub

Browse files

Files changed (1) hide show

README.md +105 -142

README.md CHANGED Viewed

@@ -1,216 +1,179 @@
 ---
-title: Qwen Soloband - Image2Image + ControlNet + LoRA
 emoji: 🎨
-colorFrom: blue
-colorTo: purple
 sdk: gradio
 sdk_version: "5.9.1"
 app_file: app.py
 pinned: true
 license: apache-2.0
-suggested_hardware: a100-large
-suggested_storage: large
 models:
   - Gerchegg/Qwen-Soloband-Diffusers
-  - InstantX/Qwen-Image-ControlNet-Union
 tags:
   - image-generation
-  - image-to-image
-  - controlnet
-  - lora
   - qwen
-  - diffusers
-short_description: Advanced generation with ControlNet and LoRA
-preload_from_hub:
-  - Gerchegg/Qwen-Soloband-Diffusers
-  - InstantX/Qwen-Image-ControlNet-Union
 ---
-# 🎨 Qwen Soloband - Image2Image + ControlNet + LoRA
-**Продвинутая модель генерации изображений** с полным набором инструментов.
 ## ✨ Возможности
-### 📝 Text-to-Image
-- Генерация изображений из текста
-- Кастомная модель Qwen-Soloband
-- Разрешения до 2048×2048
-- Настройка параметров (steps, CFG, seed)
-### 🔄 Image-to-Image
-- Модификация существующих изображений
-- **Denoising Strength** - контроль степени изменения (0.0-1.0)
-- Сохранение структуры оригинала
-- Стилизация и улучшение
-### 🎮 ControlNet
-- **Canny** - контроль по краям
-- **Depth** - контроль по глубине
-- **Pose** - контроль по позе
-- **Control Strength** - сила воздействия (0.0-2.0)
-### 🎭 LoRA Support
-- **Realism** - фотореалистичные изображения
-- **Anime** - японский стиль аниме
-- **Analog Film** - пленочная фотография
-- **LoRA Scale** - вес стиля (0.0-2.0)
-- Комбинируется с любым режимом
-## 🔌 API Usage
-### Text-to-Image API
 ```python
-from gradio_client import Client
 client = Client("Gerchegg/Qwen-ImageForFlo-Advanced")
 result = client.predict(
-    prompt="SB_AI, a beautiful landscape",
     negative_prompt="blurry, low quality",
-    width=1664,
-    height=928,
     seed=42,
     randomize_seed=False,
     guidance_scale=2.5,
     num_inference_steps=40,
-    lora_name="None",  # или "Realism", "Anime", "Analog Film"
     lora_scale=1.0,
     api_name="/text2img"
 )
 image, seed = result
-```
-### Image-to-Image API
-```python
 result = client.predict(
-    input_image="path/to/image.png",  # PIL Image или path
-    prompt="Transform this into a painting",
     negative_prompt="blurry, low quality",
-    strength=0.75,  # 0.0-1.0, больше = сильнее изменение
     seed=42,
     randomize_seed=False,
     guidance_scale=2.5,
     num_inference_steps=40,
-    lora_name="Analog Film",
     lora_scale=1.0,
     api_name="/img2img"
 )
 image, seed = result
 ```
-### ControlNet API
-```python
-result = client.predict(
-    input_image="path/to/image.png",
-    prompt="A woman in futuristic outfit",
-    control_type="Pose",  # "Canny", "Depth", "Pose"
-    negative_prompt="blurry, low quality",
-    controlnet_scale=1.0,  # 0.0-2.0
-    seed=42,
-    randomize_seed=False,
-    guidance_scale=5.0,
-    num_inference_steps=30,
-    lora_name="Realism",
-    lora_scale=1.0,
-    api_name="/controlnet"
-)
-generated_image, control_preview, seed = result
-```
-## 💡 Примеры использования
-### Text-to-Image
-```
-Prompt: "SB_AI, a beautiful mountain landscape at sunset, detailed"
-Size: 1664×928
-Steps: 40, CFG: 2.5
-LoRA: None
-```
-### Image-to-Image
-```
-Input: фото человека
-Prompt: "Transform into oil painting style"
-Strength: 0.75 (сохранить структуру, изменить стиль)
-LoRA: Analog Film
-```
-### ControlNet
-```
-Input: фото позы человека
-Control: Pose (извлекает скелет)
-Prompt: "A superhero in the same pose"
-Control Scale: 1.0
-LoRA: Realism
-```
-## 🎭 Доступные LoRA
-| Name | Trigger Word | Description |
-|------|--------------|-------------|
-| **Realism** | "Super Realism portrait of" | Фотореалистичные изображения |
-| **Anime** | "Japanese modern anime style, " | Современное аниме |
-| **Analog Film** | "fifthel" | Эффект пленочной фотографии |
-LoRA автоматически добавляют trigger words к промпту.
-## 📊 Параметры
-### Denoising Strength (Image2Image)
-- **0.0-0.3**: Минимальные изменения, сохранение деталей
-- **0.4-0.6**: Умеренные изменения, баланс
-- **0.7-0.9**: Сильные изменения, новое изображение
-- **1.0**: Полная перерисовка
-### ControlNet Scale
-- **0.0**: Нет контроля (как Text2Image)
-- **0.5**: Слабый контроль, творческая свобода
-- **1.0**: Нормальный контроль (рекомендуется)
-- **1.5-2.0**: Жесткий контроль, точное следование
-### LoRA Scale
-- **0.0**: Без эффекта
-- **0.5**: Слабый эффект стиля
-- **1.0**: Нормальный эффект (рекомендуется)
-- **1.5-2.0**: Сильный эффект стиля
-## 🔧 Технические детали
-### Модели:
-- **Base**: Gerchegg/Qwen-Soloband-Diffusers
-- **ControlNet**: InstantX/Qwen-Image-ControlNet-Union
-- **LoRAs**: Различные (загружаются динамически)
-### Препроцессоры:
-- **Canny**: OpenCV edge detection
-- **Depth**: Grayscale depth approximation
-- **Pose**: OpenPose (если доступен)
-### Оптимизации:
-- VAE tiling для больших изображений
-- VAE slicing для batch
-- Автоматическое управление LoRA
-## 💰 Требования
-- **GPU**: A100 (80GB) или A40 (48GB)
-- **VRAM**: ~40GB для базовой модели + ~2GB для ControlNet
-- **Storage**: ~50GB (модели)
-## 📚 Дополнительная информация
-- **Base Model**: [Qwen-Soloband-Diffusers](https://huggingface.co/Gerchegg/Qwen-Soloband-Diffusers)
-- **ControlNet**: [InstantX/Qwen-Image-ControlNet-Union](https://huggingface.co/InstantX/Qwen-Image-ControlNet-Union)
-- **Qwen-Image**: [Qwen/Qwen-Image](https://huggingface.co/Qwen/Qwen-Image)
 ## 📝 License
 Apache 2.0

 ---
+title: Qwen Soloband Image Generator
 emoji: 🎨
+colorFrom: purple
+colorTo: pink
 sdk: gradio
 sdk_version: "5.9.1"
 app_file: app.py
 pinned: true
 license: apache-2.0
 models:
   - Gerchegg/Qwen-Soloband-Diffusers
 tags:
   - image-generation
+  - diffusion
   - qwen
+  - soloband
+  - lora
+  - image2image
+short_description: Text2Image + Image2Image + LoRA for Qwen-Soloband model
 ---
+# 🎨 Qwen Soloband: Text2Image + Image2Image + LoRA
+**Кастомная модель генерации изображений** на базе Qwen-Image DiT архитектуры с поддержкой LoRA и Image-to-Image.
 ## ✨ Возможности
+- 🔥 **Text-to-Image** - Генерация изображений из текстовых промптов
+- 🖼️ **Image-to-Image** - Преобразование и улучшение изображений
+- 🎯 **LoRA Support** - 3 стиля: Realism, Anime, Analog Film
+- 🚀 **Multi-GPU Ready** - Автоматическое распределение по GPU
+- ⚡ **Оптимизирован** - VAE tiling/slicing для экономии памяти
+- 🔌 **Full API** - Программный доступ через Gradio Client
+- 💻 **RunPod Ready** - Работает на RunPod/Local/HF Spaces
+## 🚀 Быстрый старт
+### Web UI
+Используйте этот Space!
+### API (Gradio Client)
 ```python
+from gradio_client import Client, handle_file
 client = Client("Gerchegg/Qwen-ImageForFlo-Advanced")
+# Text-to-Image
 result = client.predict(
+    prompt="SB_AI, a beautiful landscape with mountains and lake",
     negative_prompt="blurry, low quality",
+    width=1024,
+    height=1024,
     seed=42,
     randomize_seed=False,
     guidance_scale=2.5,
     num_inference_steps=40,
+    lora_name="None",  # "Realism", "Anime", "Analog Film"
     lora_scale=1.0,
     api_name="/text2img"
 )
 image, seed = result
+# Image-to-Image
 result = client.predict(
+    input_image=handle_file("input.png"),
+    prompt="Enhanced detailed version",
     negative_prompt="blurry, low quality",
+    strength=0.75,
     seed=42,
     randomize_seed=False,
     guidance_scale=2.5,
     num_inference_steps=40,
+    lora_name="Realism",
     lora_scale=1.0,
     api_name="/img2img"
 )
 image, seed = result
 ```
+## 🎭 Доступные LoRA
+| LoRA | Trigger Word | Стиль |
+|------|--------------|-------|
+| **Realism** | "Super Realism portrait of" | Фотореалистичные портреты |
+| **Anime** | "Japanese modern anime style, " | Современный аниме стиль |
+| **Analog Film** | "fifthel" | Винтажный пленочный эффект |
+## 📊 Производительность
+### Время генерации (H100):
+| Операция | Разрешение | Время | LoRA |
+|----------|------------|-------|------|
+| Text2Image | 1024×1024 | ~20s | +0s |
+| Text2Image | 1664×928 | ~40s | +0s |
+| Image2Image | 1024×1024 | ~15s | +0s |
+### Требования:
+- **Минимум**: A40 (48GB VRAM), 32GB RAM, 100GB Storage
+- **Рекомендуется**: A100/H100 (80GB VRAM), 64GB RAM, 200GB SSD
+- **Multi-GPU**: 2x GPU автоматически распределяет модель
+## 🔧 RunPod Deployment
+### Одна команда:
+```bash
+export HF_HUB_ENABLE_HF_TRANSFER=0 && \
+pip install -q huggingface_hub[cli] && \
+hf auth login --token YOUR_HF_TOKEN && \
+cd /workspace && \
+hf download Gerchegg/Qwen-ImageForFlo-Advanced --repo-type space --local-dir Qwen-ImageForFlo-Advanced && \
+cd Qwen-ImageForFlo-Advanced && \
+pip install -r requirements.txt && \
+python app.py
+```
+Сервер запустится на порту **7860**.
+## 💡 Советы по использованию
+### Промпты
+- Используйте префикс `SB_AI,` для лучших результатов
+- Добавляйте trigger words для LoRA
+- Будьте детальны в описании
+### Разрешения
+- **1664×928** (16:9) - широкоформатное
+- **1328×1328** (1:1) - квадрат
+- **928×1664** (9:16) - портрет
+- **1472×1140** (4:3) - стандарт
+### Параметры
+- **Steps**: 30-45 для высокого качества
+- **CFG**: 2.5-3.5 для Qwen-Image
+- **LoRA Scale**: 0.6-1.2 для тонкой настройки
+- **Strength (img2img)**: 0.5-0.8 для сохранения структуры
+## 📚 Модель
+**Базовая модель**: [Gerchegg/Qwen-Soloband-Diffusers](https://huggingface.co/Gerchegg/Qwen-Soloband-Diffusers)
+Полная diffusers версия с:
+- DiT архитектурой Qwen-Image
+- Оптимизированными весами
+- Multi-GPU поддержкой
+- LoRA совместимостью
+## 🐛 Troubleshooting
+### OOM (Out of Memory)
+- Уменьшите разрешение (1024×1024 → 768×768)
+- Используйте меньше steps
+- Используйте GPU с большей памятью
+### Медленная генерация
+- Проверьте GPU: `torch.cuda.is_available()`
+- Используйте меньше steps (30 вместо 45)
+- Рассмотрите Multi-GPU setup
 ## 📝 License
 Apache 2.0
+## 🤝 Credits
+- Qwen Team за базовую модель Qwen-Image
+- Diffusers Team за библиотеку
+- LoRA авторы за стилевые адаптеры
+- Community за тестирование и feedback
+---
+**Автор**: Gerchegg
+**Версия**: Simple v1.0 (Text2Image + Image2Image + LoRA)
+**Обновлено**: 17.10.2025