Gerchegg's picture
Upload README.md with huggingface_hub
fb35bab verified
|
raw
history blame
6.68 kB
metadata
title: Qwen Soloband - Image2Image + ControlNet + LoRA
emoji: 🎨
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 5.9.1
app_file: app.py
pinned: true
license: apache-2.0
suggested_hardware: a100-large
suggested_storage: large
models:
  - Gerchegg/Qwen-Soloband-Diffusers
  - InstantX/Qwen-Image-ControlNet-Union
tags:
  - image-generation
  - image-to-image
  - controlnet
  - lora
  - qwen
  - diffusers
short_description: Advanced generation with ControlNet and LoRA
preload_from_hub:
  - Gerchegg/Qwen-Soloband-Diffusers
  - InstantX/Qwen-Image-ControlNet-Union

🎨 Qwen Soloband - Image2Image + ControlNet + LoRA

Продвинутая модель генерации изображений с полным набором инструментов.

✨ Возможности

📝 Text-to-Image

  • Генерация изображений из текста
  • Кастомная модель Qwen-Soloband
  • Разрешения до 2048×2048
  • Настройка параметров (steps, CFG, seed)

🔄 Image-to-Image

  • Модификация существующих изображений
  • Denoising Strength - контроль степени изменения (0.0-1.0)
  • Сохранение структуры оригинала
  • Стилизация и улучшение

🎮 ControlNet

  • Canny - контроль по краям
  • Depth - контроль по глубине
  • Pose - контроль по позе
  • Control Strength - сила воздействия (0.0-2.0)

🎭 LoRA Support

  • Realism - фотореалистичные изображения
  • Anime - японский стиль аниме
  • Analog Film - пленочная фотография
  • LoRA Scale - вес стиля (0.0-2.0)
  • Комбинируется с любым режимом

🔌 API Usage

Text-to-Image API

from gradio_client import Client

client = Client("Gerchegg/Qwen-ImageForFlo-Advanced")

result = client.predict(
    prompt="SB_AI, a beautiful landscape",
    negative_prompt="blurry, low quality",
    width=1664,
    height=928,
    seed=42,
    randomize_seed=False,
    guidance_scale=2.5,
    num_inference_steps=40,
    lora_name="None",  # или "Realism", "Anime", "Analog Film"
    lora_scale=1.0,
    api_name="/text2img"
)

image, seed = result

Image-to-Image API

result = client.predict(
    input_image="path/to/image.png",  # PIL Image или path
    prompt="Transform this into a painting",
    negative_prompt="blurry, low quality",
    strength=0.75,  # 0.0-1.0, больше = сильнее изменение
    seed=42,
    randomize_seed=False,
    guidance_scale=2.5,
    num_inference_steps=40,
    lora_name="Analog Film",
    lora_scale=1.0,
    api_name="/img2img"
)

image, seed = result

ControlNet API

result = client.predict(
    input_image="path/to/image.png",
    prompt="A woman in futuristic outfit",
    control_type="Pose",  # "Canny", "Depth", "Pose"
    negative_prompt="blurry, low quality",
    controlnet_scale=1.0,  # 0.0-2.0
    seed=42,
    randomize_seed=False,
    guidance_scale=5.0,
    num_inference_steps=30,
    lora_name="Realism",
    lora_scale=1.0,
    api_name="/controlnet"
)

generated_image, control_preview, seed = result

💡 Примеры использования

Text-to-Image

Prompt: "SB_AI, a beautiful mountain landscape at sunset, detailed"
Size: 1664×928
Steps: 40, CFG: 2.5
LoRA: None

Image-to-Image

Input: фото человека
Prompt: "Transform into oil painting style"
Strength: 0.75 (сохранить структуру, изменить стиль)
LoRA: Analog Film

ControlNet

Input: фото позы человека
Control: Pose (извлекает скелет)
Prompt: "A superhero in the same pose"
Control Scale: 1.0
LoRA: Realism

🎭 Доступные LoRA

Name Trigger Word Description
Realism "Super Realism portrait of" Фотореалистичные изображения
Anime "Japanese modern anime style, " Современное аниме
Analog Film "fifthel" Эффект пленочной фотографии

LoRA автоматически добавляют trigger words к промпту.

📊 Параметры

Denoising Strength (Image2Image)

  • 0.0-0.3: Минимальные изменения, сохранение деталей
  • 0.4-0.6: Умеренные изменения, баланс
  • 0.7-0.9: Сильные изменения, новое изображение
  • 1.0: Полная перерисовка

ControlNet Scale

  • 0.0: Нет контроля (как Text2Image)
  • 0.5: Слабый контроль, творческая свобода
  • 1.0: Нормальный контроль (рекомендуется)
  • 1.5-2.0: Жесткий контроль, точное следование

LoRA Scale

  • 0.0: Без эффекта
  • 0.5: Слабый эффект стиля
  • 1.0: Нормальный эффект (рекомендуется)
  • 1.5-2.0: Сильный эффект стиля

🔧 Технические детали

Модели:

  • Base: Gerchegg/Qwen-Soloband-Diffusers
  • ControlNet: InstantX/Qwen-Image-ControlNet-Union
  • LoRAs: Различные (загружаются динамически)

Препроцессоры:

  • Canny: OpenCV edge detection
  • Depth: Grayscale depth approximation
  • Pose: OpenPose (если доступен)

Оптимизации:

  • VAE tiling для больших изображений
  • VAE slicing для batch
  • Автоматическое управление LoRA

💰 Требования

  • GPU: A100 (80GB) или A40 (48GB)
  • VRAM: ~40GB для базовой модели + ~2GB для ControlNet
  • Storage: ~50GB (модели)

📚 Дополнительная информация

📝 License

Apache 2.0