Gerchegg commited on
Commit
ea5f6b0
·
verified ·
1 Parent(s): aaf792b

Upload README.md with huggingface_hub

Browse files
Files changed (1) hide show
  1. README.md +105 -142
README.md CHANGED
@@ -1,216 +1,179 @@
1
  ---
2
- title: Qwen Soloband - Image2Image + ControlNet + LoRA
3
  emoji: 🎨
4
- colorFrom: blue
5
- colorTo: purple
6
  sdk: gradio
7
  sdk_version: "5.9.1"
8
  app_file: app.py
9
  pinned: true
10
  license: apache-2.0
11
- suggested_hardware: a100-large
12
- suggested_storage: large
13
  models:
14
  - Gerchegg/Qwen-Soloband-Diffusers
15
- - InstantX/Qwen-Image-ControlNet-Union
16
  tags:
17
  - image-generation
18
- - image-to-image
19
- - controlnet
20
- - lora
21
  - qwen
22
- - diffusers
23
- short_description: Advanced generation with ControlNet and LoRA
24
- preload_from_hub:
25
- - Gerchegg/Qwen-Soloband-Diffusers
26
- - InstantX/Qwen-Image-ControlNet-Union
27
  ---
28
 
29
- # 🎨 Qwen Soloband - Image2Image + ControlNet + LoRA
30
 
31
- **Продвинутая модель генерации изображений** с полным набором инструментов.
32
 
33
  ## ✨ Возможности
34
 
35
- ### 📝 Text-to-Image
36
- - Генерация изображений из текста
37
- - Кастомная модель Qwen-Soloband
38
- - Разрешения до 2048×2048
39
- - Настройка параметров (steps, CFG, seed)
40
-
41
- ### 🔄 Image-to-Image
42
- - Модификация существующих изображений
43
- - **Denoising Strength** - контроль степени изменения (0.0-1.0)
44
- - Сохранение структуры оригинала
45
- - Стилизация и улучшение
46
-
47
- ### 🎮 ControlNet
48
- - **Canny** - контроль по краям
49
- - **Depth** - контроль по глубине
50
- - **Pose** - контроль по позе
51
- - **Control Strength** - сила воздействия (0.0-2.0)
52
 
53
- ### 🎭 LoRA Support
54
- - **Realism** - фотореалистичные изображения
55
- - **Anime** - японский стиль аниме
56
- - **Analog Film** - пленочная фотография
57
- - **LoRA Scale** - вес стиля (0.0-2.0)
58
- - Комбинируется с любым режимом
59
 
60
- ## 🔌 API Usage
 
61
 
62
- ### Text-to-Image API
63
 
64
  ```python
65
- from gradio_client import Client
66
 
67
  client = Client("Gerchegg/Qwen-ImageForFlo-Advanced")
68
 
 
69
  result = client.predict(
70
- prompt="SB_AI, a beautiful landscape",
71
  negative_prompt="blurry, low quality",
72
- width=1664,
73
- height=928,
74
  seed=42,
75
  randomize_seed=False,
76
  guidance_scale=2.5,
77
  num_inference_steps=40,
78
- lora_name="None", # или "Realism", "Anime", "Analog Film"
79
  lora_scale=1.0,
80
  api_name="/text2img"
81
  )
82
-
83
  image, seed = result
84
- ```
85
 
86
- ### Image-to-Image API
87
-
88
- ```python
89
  result = client.predict(
90
- input_image="path/to/image.png", # PIL Image или path
91
- prompt="Transform this into a painting",
92
  negative_prompt="blurry, low quality",
93
- strength=0.75, # 0.0-1.0, больше = сильнее изменение
94
  seed=42,
95
  randomize_seed=False,
96
  guidance_scale=2.5,
97
  num_inference_steps=40,
98
- lora_name="Analog Film",
99
  lora_scale=1.0,
100
  api_name="/img2img"
101
  )
102
-
103
  image, seed = result
104
  ```
105
 
106
- ### ControlNet API
107
-
108
- ```python
109
- result = client.predict(
110
- input_image="path/to/image.png",
111
- prompt="A woman in futuristic outfit",
112
- control_type="Pose", # "Canny", "Depth", "Pose"
113
- negative_prompt="blurry, low quality",
114
- controlnet_scale=1.0, # 0.0-2.0
115
- seed=42,
116
- randomize_seed=False,
117
- guidance_scale=5.0,
118
- num_inference_steps=30,
119
- lora_name="Realism",
120
- lora_scale=1.0,
121
- api_name="/controlnet"
122
- )
123
 
124
- generated_image, control_preview, seed = result
125
- ```
 
 
 
126
 
127
- ## 💡 Примеры использования
128
 
129
- ### Text-to-Image
130
- ```
131
- Prompt: "SB_AI, a beautiful mountain landscape at sunset, detailed"
132
- Size: 1664×928
133
- Steps: 40, CFG: 2.5
134
- LoRA: None
135
- ```
136
 
137
- ### Image-to-Image
138
- ```
139
- Input: фото человека
140
- Prompt: "Transform into oil painting style"
141
- Strength: 0.75 (сохранить структуру, изменить стиль)
142
- LoRA: Analog Film
143
- ```
144
 
145
- ### ControlNet
146
- ```
147
- Input: фото позы человека
148
- Control: Pose (извлекает скелет)
149
- Prompt: "A superhero in the same pose"
150
- Control Scale: 1.0
151
- LoRA: Realism
152
- ```
153
 
154
- ## 🎭 Доступные LoRA
 
 
155
 
156
- | Name | Trigger Word | Description |
157
- |------|--------------|-------------|
158
- | **Realism** | "Super Realism portrait of" | Фотореалистичные изображения |
159
- | **Anime** | "Japanese modern anime style, " | Современное аниме |
160
- | **Analog Film** | "fifthel" | Эффект пленочной фотографии |
161
 
162
- LoRA автоматически добавляют trigger words к промпту.
163
 
164
- ## 📊 Параметры
 
 
 
 
 
 
 
 
 
165
 
166
- ### Denoising Strength (Image2Image)
167
- - **0.0-0.3**: Минимальные изменения, сохранение деталей
168
- - **0.4-0.6**: Умеренные изменения, баланс
169
- - **0.7-0.9**: Сильные изменения, новое изображение
170
- - **1.0**: Полная перерисовка
171
 
172
- ### ControlNet Scale
173
- - **0.0**: Нет контроля (как Text2Image)
174
- - **0.5**: Слабый контроль, творческая свобода
175
- - **1.0**: Нормальный контроль (рекомендуется)
176
- - **1.5-2.0**: Жесткий контроль, точное следование
177
 
178
- ### LoRA Scale
179
- - **0.0**: Без эффекта
180
- - **0.5**: Слабый эффект стиля
181
- - **1.0**: Нормальный эффект (рекомендуется)
182
- - **1.5-2.0**: Сильный эффект стиля
183
 
184
- ## 🔧 Технические детали
 
 
 
 
185
 
186
- ### Модели:
187
- - **Base**: Gerchegg/Qwen-Soloband-Diffusers
188
- - **ControlNet**: InstantX/Qwen-Image-ControlNet-Union
189
- - **LoRAs**: Различные (загружаются динамически)
 
190
 
191
- ### Препроцессоры:
192
- - **Canny**: OpenCV edge detection
193
- - **Depth**: Grayscale depth approximation
194
- - **Pose**: OpenPose (если доступен)
195
 
196
- ### Оптимизации:
197
- - VAE tiling для больших изображений
198
- - VAE slicing для batch
199
- - Автоматическое управление LoRA
200
 
201
- ## 💰 Требования
 
 
 
 
202
 
203
- - **GPU**: A100 (80GB) или A40 (48GB)
204
- - **VRAM**: ~40GB для базовой модели + ~2GB для ControlNet
205
- - **Storage**: ~50GB (модели)
206
 
207
- ## 📚 Дополнительная информация
 
 
 
208
 
209
- - **Base Model**: [Qwen-Soloband-Diffusers](https://huggingface.co/Gerchegg/Qwen-Soloband-Diffusers)
210
- - **ControlNet**: [InstantX/Qwen-Image-ControlNet-Union](https://huggingface.co/InstantX/Qwen-Image-ControlNet-Union)
211
- - **Qwen-Image**: [Qwen/Qwen-Image](https://huggingface.co/Qwen/Qwen-Image)
 
212
 
213
  ## 📝 License
214
 
215
  Apache 2.0
216
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ title: Qwen Soloband Image Generator
3
  emoji: 🎨
4
+ colorFrom: purple
5
+ colorTo: pink
6
  sdk: gradio
7
  sdk_version: "5.9.1"
8
  app_file: app.py
9
  pinned: true
10
  license: apache-2.0
 
 
11
  models:
12
  - Gerchegg/Qwen-Soloband-Diffusers
 
13
  tags:
14
  - image-generation
15
+ - diffusion
 
 
16
  - qwen
17
+ - soloband
18
+ - lora
19
+ - image2image
20
+ short_description: Text2Image + Image2Image + LoRA for Qwen-Soloband model
 
21
  ---
22
 
23
+ # 🎨 Qwen Soloband: Text2Image + Image2Image + LoRA
24
 
25
+ **Кастомная модель генерации изображений** на базе Qwen-Image DiT архитектуры с поддержкой LoRA и Image-to-Image.
26
 
27
  ## ✨ Возможности
28
 
29
+ - 🔥 **Text-to-Image** - Генерация изображений из текстовых промптов
30
+ - 🖼️ **Image-to-Image** - Преобразование и улучшение изображений
31
+ - 🎯 **LoRA Support** - 3 стиля: Realism, Anime, Analog Film
32
+ - 🚀 **Multi-GPU Ready** - Автоматическое распределение по GPU
33
+ - **Оптимизирован** - VAE tiling/slicing для экономии памяти
34
+ - 🔌 **Full API** - Программный доступ через Gradio Client
35
+ - 💻 **RunPod Ready** - Работает на RunPod/Local/HF Spaces
 
 
 
 
 
 
 
 
 
 
36
 
37
+ ## 🚀 Быстрый старт
 
 
 
 
 
38
 
39
+ ### Web UI
40
+ Используйте этот Space!
41
 
42
+ ### API (Gradio Client)
43
 
44
  ```python
45
+ from gradio_client import Client, handle_file
46
 
47
  client = Client("Gerchegg/Qwen-ImageForFlo-Advanced")
48
 
49
+ # Text-to-Image
50
  result = client.predict(
51
+ prompt="SB_AI, a beautiful landscape with mountains and lake",
52
  negative_prompt="blurry, low quality",
53
+ width=1024,
54
+ height=1024,
55
  seed=42,
56
  randomize_seed=False,
57
  guidance_scale=2.5,
58
  num_inference_steps=40,
59
+ lora_name="None", # "Realism", "Anime", "Analog Film"
60
  lora_scale=1.0,
61
  api_name="/text2img"
62
  )
 
63
  image, seed = result
 
64
 
65
+ # Image-to-Image
 
 
66
  result = client.predict(
67
+ input_image=handle_file("input.png"),
68
+ prompt="Enhanced detailed version",
69
  negative_prompt="blurry, low quality",
70
+ strength=0.75,
71
  seed=42,
72
  randomize_seed=False,
73
  guidance_scale=2.5,
74
  num_inference_steps=40,
75
+ lora_name="Realism",
76
  lora_scale=1.0,
77
  api_name="/img2img"
78
  )
 
79
  image, seed = result
80
  ```
81
 
82
+ ## 🎭 Доступные LoRA
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
83
 
84
+ | LoRA | Trigger Word | Стиль |
85
+ |------|--------------|-------|
86
+ | **Realism** | "Super Realism portrait of" | Фотореалистичные портреты |
87
+ | **Anime** | "Japanese modern anime style, " | Современный аниме стиль |
88
+ | **Analog Film** | "fifthel" | Винтажный пленочный эффект |
89
 
90
+ ## 📊 Производительность
91
 
92
+ ### Время генерации (H100):
 
 
 
 
 
 
93
 
94
+ | Операция | Разрешение | Время | LoRA |
95
+ |----------|------------|-------|------|
96
+ | Text2Image | 1024×1024 | ~20s | +0s |
97
+ | Text2Image | 1664×928 | ~40s | +0s |
98
+ | Image2Image | 1024×1024 | ~15s | +0s |
 
 
99
 
100
+ ### Требования:
 
 
 
 
 
 
 
101
 
102
+ - **Минимум**: A40 (48GB VRAM), 32GB RAM, 100GB Storage
103
+ - **Рекомендуется**: A100/H100 (80GB VRAM), 64GB RAM, 200GB SSD
104
+ - **Multi-GPU**: 2x GPU автоматически распределяет модель
105
 
106
+ ## 🔧 RunPod Deployment
 
 
 
 
107
 
108
+ ### Одна команда:
109
 
110
+ ```bash
111
+ export HF_HUB_ENABLE_HF_TRANSFER=0 && \
112
+ pip install -q huggingface_hub[cli] && \
113
+ hf auth login --token YOUR_HF_TOKEN && \
114
+ cd /workspace && \
115
+ hf download Gerchegg/Qwen-ImageForFlo-Advanced --repo-type space --local-dir Qwen-ImageForFlo-Advanced && \
116
+ cd Qwen-ImageForFlo-Advanced && \
117
+ pip install -r requirements.txt && \
118
+ python app.py
119
+ ```
120
 
121
+ Сервер запустится на порту **7860**.
 
 
 
 
122
 
123
+ ## 💡 Советы по использованию
 
 
 
 
124
 
125
+ ### Промпты
126
+ - Используйте префикс `SB_AI,` для лучших результатов
127
+ - Добавляйте trigger words для LoRA
128
+ - Будьте детальны в описании
 
129
 
130
+ ### Разрешения
131
+ - **1664×928** (16:9) - широкоформатное
132
+ - **1328×1328** (1:1) - квадрат
133
+ - **928×1664** (9:16) - портрет
134
+ - **1472×1140** (4:3) - стандарт
135
 
136
+ ### Параметры
137
+ - **Steps**: 30-45 для высокого качества
138
+ - **CFG**: 2.5-3.5 для Qwen-Image
139
+ - **LoRA Scale**: 0.6-1.2 для тонкой настройки
140
+ - **Strength (img2img)**: 0.5-0.8 для сохранения структуры
141
 
142
+ ## 📚 Модель
 
 
 
143
 
144
+ **Базовая модель**: [Gerchegg/Qwen-Soloband-Diffusers](https://huggingface.co/Gerchegg/Qwen-Soloband-Diffusers)
 
 
 
145
 
146
+ Полная diffusers версия с:
147
+ - DiT архитектурой Qwen-Image
148
+ - Оптимизированными весами
149
+ - Multi-GPU поддержкой
150
+ - LoRA совместимостью
151
 
152
+ ## 🐛 Troubleshooting
 
 
153
 
154
+ ### OOM (Out of Memory)
155
+ - Уменьшите разрешение (1024×1024 → 768×768)
156
+ - Используйте меньше steps
157
+ - Используйте GPU с большей памятью
158
 
159
+ ### Медленная генерация
160
+ - Проверьте GPU: `torch.cuda.is_available()`
161
+ - Используйте меньше steps (30 вместо 45)
162
+ - Рассмотрите Multi-GPU setup
163
 
164
  ## 📝 License
165
 
166
  Apache 2.0
167
 
168
+ ## 🤝 Credits
169
+
170
+ - Qwen Team за базовую модель Qwen-Image
171
+ - Diffusers Team за библиотеку
172
+ - LoRA авторы за стилевые адаптеры
173
+ - Community за тестирование и feedback
174
+
175
+ ---
176
+
177
+ **Автор**: Gerchegg
178
+ **Версия**: Simple v1.0 (Text2Image + Image2Image + LoRA)
179
+ **Обновлено**: 17.10.2025