Spaces:

Gerchegg
/

Qwen-ImageForFlo-Advanced

Paused

App Files Files Community

Qwen-ImageForFlo-Advanced / README.md

Gerchegg

Upload README.md with huggingface_hub

fb35bab verified 6 months ago

6.68 kB

title: Qwen Soloband - Image2Image + ControlNet + LoRA
emoji: 🎨
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 5.9.1
app_file: app.py
pinned: true
license: apache-2.0
suggested_hardware: a100-large
suggested_storage: large
models:
  - Gerchegg/Qwen-Soloband-Diffusers
  - InstantX/Qwen-Image-ControlNet-Union
tags:
  - image-generation
  - image-to-image
  - controlnet
  - lora
  - qwen
  - diffusers
short_description: Advanced generation with ControlNet and LoRA
preload_from_hub:
  - Gerchegg/Qwen-Soloband-Diffusers
  - InstantX/Qwen-Image-ControlNet-Union

🎨 Qwen Soloband - Image2Image + ControlNet + LoRA

Продвинутая модель генерации изображений с полным набором инструментов.

✨ Возможности

📝 Text-to-Image

Генерация изображений из текста
Кастомная модель Qwen-Soloband
Разрешения до 2048×2048
Настройка параметров (steps, CFG, seed)

🔄 Image-to-Image

Модификация существующих изображений
Denoising Strength - контроль степени изменения (0.0-1.0)
Сохранение структуры оригинала
Стилизация и улучшение

🎮 ControlNet

Canny - контроль по краям
Depth - контроль по глубине
Pose - контроль по позе
Control Strength - сила воздействия (0.0-2.0)

🎭 LoRA Support

Realism - фотореалистичные изображения
Anime - японский стиль аниме
Analog Film - пленочная фотография
LoRA Scale - вес стиля (0.0-2.0)
Комбинируется с любым режимом

🔌 API Usage

Text-to-Image API

from gradio_client import Client

client = Client("Gerchegg/Qwen-ImageForFlo-Advanced")

result = client.predict(
    prompt="SB_AI, a beautiful landscape",
    negative_prompt="blurry, low quality",
    width=1664,
    height=928,
    seed=42,
    randomize_seed=False,
    guidance_scale=2.5,
    num_inference_steps=40,
    lora_name="None",  # или "Realism", "Anime", "Analog Film"
    lora_scale=1.0,
    api_name="/text2img"
)

image, seed = result

Image-to-Image API

result = client.predict(
    input_image="path/to/image.png",  # PIL Image или path
    prompt="Transform this into a painting",
    negative_prompt="blurry, low quality",
    strength=0.75,  # 0.0-1.0, больше = сильнее изменение
    seed=42,
    randomize_seed=False,
    guidance_scale=2.5,
    num_inference_steps=40,
    lora_name="Analog Film",
    lora_scale=1.0,
    api_name="/img2img"
)

image, seed = result

ControlNet API

result = client.predict(
    input_image="path/to/image.png",
    prompt="A woman in futuristic outfit",
    control_type="Pose",  # "Canny", "Depth", "Pose"
    negative_prompt="blurry, low quality",
    controlnet_scale=1.0,  # 0.0-2.0
    seed=42,
    randomize_seed=False,
    guidance_scale=5.0,
    num_inference_steps=30,
    lora_name="Realism",
    lora_scale=1.0,
    api_name="/controlnet"
)

generated_image, control_preview, seed = result

💡 Примеры использования

Text-to-Image

Prompt: "SB_AI, a beautiful mountain landscape at sunset, detailed"
Size: 1664×928
Steps: 40, CFG: 2.5
LoRA: None

Image-to-Image

Input: фото человека
Prompt: "Transform into oil painting style"
Strength: 0.75 (сохранить структуру, изменить стиль)
LoRA: Analog Film

ControlNet

Input: фото позы человека
Control: Pose (извлекает скелет)
Prompt: "A superhero in the same pose"
Control Scale: 1.0
LoRA: Realism

🎭 Доступные LoRA

Name	Trigger Word	Description
Realism	"Super Realism portrait of"	Фотореалистичные изображения
Anime	"Japanese modern anime style, "	Современное аниме
Analog Film	"fifthel"	Эффект пленочной фотографии

LoRA автоматически добавляют trigger words к промпту.

📊 Параметры

Denoising Strength (Image2Image)

0.0-0.3: Минимальные изменения, сохранение деталей
0.4-0.6: Умеренные изменения, баланс
0.7-0.9: Сильные изменения, новое изображение
1.0: Полная перерисовка

ControlNet Scale

0.0: Нет контроля (как Text2Image)
0.5: Слабый контроль, творческая свобода
1.0: Нормальный контроль (рекомендуется)
1.5-2.0: Жесткий контроль, точное следование

LoRA Scale

0.0: Без эффекта
0.5: Слабый эффект стиля
1.0: Нормальный эффект (рекомендуется)
1.5-2.0: Сильный эффект стиля

🔧 Технические детали

Модели:

Base: Gerchegg/Qwen-Soloband-Diffusers
ControlNet: InstantX/Qwen-Image-ControlNet-Union
LoRAs: Различные (загружаются динамически)

Препроцессоры:

Canny: OpenCV edge detection
Depth: Grayscale depth approximation
Pose: OpenPose (если доступен)

Оптимизации:

VAE tiling для больших изображений
VAE slicing для batch
Автоматическое управление LoRA

💰 Требования

GPU: A100 (80GB) или A40 (48GB)
VRAM: ~40GB для базовой модели + ~2GB для ControlNet
Storage: ~50GB (модели)

📚 Дополнительная информация

Base Model: Qwen-Soloband-Diffusers
ControlNet: InstantX/Qwen-Image-ControlNet-Union
Qwen-Image: Qwen/Qwen-Image

📝 License

Apache 2.0