metadata
title: Qwen Soloband - Image2Image + ControlNet + LoRA
emoji: 🎨
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 5.9.1
app_file: app.py
pinned: true
license: apache-2.0
suggested_hardware: a100-large
suggested_storage: large
models:
- Gerchegg/Qwen-Soloband-Diffusers
- InstantX/Qwen-Image-ControlNet-Union
tags:
- image-generation
- image-to-image
- controlnet
- lora
- qwen
- diffusers
short_description: Advanced generation with ControlNet and LoRA
preload_from_hub:
- Gerchegg/Qwen-Soloband-Diffusers
- InstantX/Qwen-Image-ControlNet-Union
🎨 Qwen Soloband - Image2Image + ControlNet + LoRA
Продвинутая модель генерации изображений с полным набором инструментов.
✨ Возможности
📝 Text-to-Image
- Генерация изображений из текста
- Кастомная модель Qwen-Soloband
- Разрешения до 2048×2048
- Настройка параметров (steps, CFG, seed)
🔄 Image-to-Image
- Модификация существующих изображений
- Denoising Strength - контроль степени изменения (0.0-1.0)
- Сохранение структуры оригинала
- Стилизация и улучшение
🎮 ControlNet
- Canny - контроль по краям
- Depth - контроль по глубине
- Pose - контроль по позе
- Control Strength - сила воздействия (0.0-2.0)
🎭 LoRA Support
- Realism - фотореалистичные изображения
- Anime - японский стиль аниме
- Analog Film - пленочная фотография
- LoRA Scale - вес стиля (0.0-2.0)
- Комбинируется с любым режимом
🔌 API Usage
Text-to-Image API
from gradio_client import Client
client = Client("Gerchegg/Qwen-ImageForFlo-Advanced")
result = client.predict(
prompt="SB_AI, a beautiful landscape",
negative_prompt="blurry, low quality",
width=1664,
height=928,
seed=42,
randomize_seed=False,
guidance_scale=2.5,
num_inference_steps=40,
lora_name="None", # или "Realism", "Anime", "Analog Film"
lora_scale=1.0,
api_name="/text2img"
)
image, seed = result
Image-to-Image API
result = client.predict(
input_image="path/to/image.png", # PIL Image или path
prompt="Transform this into a painting",
negative_prompt="blurry, low quality",
strength=0.75, # 0.0-1.0, больше = сильнее изменение
seed=42,
randomize_seed=False,
guidance_scale=2.5,
num_inference_steps=40,
lora_name="Analog Film",
lora_scale=1.0,
api_name="/img2img"
)
image, seed = result
ControlNet API
result = client.predict(
input_image="path/to/image.png",
prompt="A woman in futuristic outfit",
control_type="Pose", # "Canny", "Depth", "Pose"
negative_prompt="blurry, low quality",
controlnet_scale=1.0, # 0.0-2.0
seed=42,
randomize_seed=False,
guidance_scale=5.0,
num_inference_steps=30,
lora_name="Realism",
lora_scale=1.0,
api_name="/controlnet"
)
generated_image, control_preview, seed = result
💡 Примеры использования
Text-to-Image
Prompt: "SB_AI, a beautiful mountain landscape at sunset, detailed"
Size: 1664×928
Steps: 40, CFG: 2.5
LoRA: None
Image-to-Image
Input: фото человека
Prompt: "Transform into oil painting style"
Strength: 0.75 (сохранить структуру, изменить стиль)
LoRA: Analog Film
ControlNet
Input: фото позы человека
Control: Pose (извлекает скелет)
Prompt: "A superhero in the same pose"
Control Scale: 1.0
LoRA: Realism
🎭 Доступные LoRA
| Name | Trigger Word | Description |
|---|---|---|
| Realism | "Super Realism portrait of" | Фотореалистичные изображения |
| Anime | "Japanese modern anime style, " | Современное аниме |
| Analog Film | "fifthel" | Эффект пленочной фотографии |
LoRA автоматически добавляют trigger words к промпту.
📊 Параметры
Denoising Strength (Image2Image)
- 0.0-0.3: Минимальные изменения, сохранение деталей
- 0.4-0.6: Умеренные изменения, баланс
- 0.7-0.9: Сильные изменения, новое изображение
- 1.0: Полная перерисовка
ControlNet Scale
- 0.0: Нет контроля (как Text2Image)
- 0.5: Слабый контроль, творческая свобода
- 1.0: Нормальный контроль (рекомендуется)
- 1.5-2.0: Жесткий контроль, точное следование
LoRA Scale
- 0.0: Без эффекта
- 0.5: Слабый эффект стиля
- 1.0: Нормальный эффект (рекомендуется)
- 1.5-2.0: Сильный эффект стиля
🔧 Технические детали
Модели:
- Base: Gerchegg/Qwen-Soloband-Diffusers
- ControlNet: InstantX/Qwen-Image-ControlNet-Union
- LoRAs: Различные (загружаются динамически)
Препроцессоры:
- Canny: OpenCV edge detection
- Depth: Grayscale depth approximation
- Pose: OpenPose (если доступен)
Оптимизации:
- VAE tiling для больших изображений
- VAE slicing для batch
- Автоматическое управление LoRA
💰 Требования
- GPU: A100 (80GB) или A40 (48GB)
- VRAM: ~40GB для базовой модели + ~2GB для ControlNet
- Storage: ~50GB (модели)
📚 Дополнительная информация
- Base Model: Qwen-Soloband-Diffusers
- ControlNet: InstantX/Qwen-Image-ControlNet-Union
- Qwen-Image: Qwen/Qwen-Image
📝 License
Apache 2.0