File size: 9,591 Bytes
85d407d
51fda59
 
 
 
 
 
 
 
 
 
 
 
 
85d407d
f736153
51fda59
 
 
 
f736153
c36bebb
ff36f1f
c36bebb
f736153
 
 
 
 
 
 
 
 
 
 
 
 
51fda59
f736153
2792eea
f736153
e440c94
51fda59
f736153
85d407d
51fda59
 
 
f736153
85d407d
 
 
 
 
 
 
 
 
 
 
 
 
 
51fda59
85d407d
51fda59
 
 
 
 
 
 
85d407d
51fda59
 
 
 
 
 
 
 
85d407d
51fda59
85d407d
51fda59
 
 
 
 
 
 
 
 
 
 
85d407d
 
f736153
85d407d
51fda59
 
 
 
 
 
 
 
 
 
 
 
 
85d407d
51fda59
f736153
51fda59
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
85d407d
f736153
51fda59
 
 
 
 
 
 
 
 
 
 
 
 
85d407d
51fda59
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f736153
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204

---
license: apache-2.0
language:
- ru
- en
pipeline_tag: text-to-image
library_name: diffusers
tags:
- text-to-image
- diffusion
- russian
- fine-tuned
- preview
- 6b
- s3-dit
base_model: Tongyi-MAI/Z-Image
---

<div align="center">
  <h1>🌞 Helio-Image-Preview</h1>
  <p align="center">
  <img src="logo.png" width="200" alt="HelioAI Logo">
</p>
  <h3>Русскоязычная модель генерации изображений — 6B параметров</h3>
  <p><i>Предварительная версия. Архитектура S3-DiT. Кириллица в изображениях.</i></p>
  <br>
  <p>
    <img src="https://img.shields.io/badge/Parameters-6B-green" alt="params"/>
    <img src="https://img.shields.io/badge/Architecture-S3--DiT-blue" alt="arch"/>
    <img src="https://img.shields.io/badge/Resolution-1024×1024-purple" alt="res"/>
    <img src="https://img.shields.io/badge/Language-RU%20%7C%20EN-orange" alt="lang"/>
    <img src="https://img.shields.io/badge/License-Apache%202.0-lightgrey" alt="license"/>
  </p>
</div>

---

<div align="center">
<img src="https://huggingface.co/HelioAI/Helio-Image-Preview/resolve/main/teaser.png" alt="Helio-Image-Preview Examples" width="800">
</div>

**Helio-Image-Preview** — первый публичный выпуск семейства Helio-Image.
Модель содержит **~6 млрд (6B) параметров**, построена на архитектуре S3-DiT.
Это предварительная версия, демонстрирующая возможности архитектуры перед полноценным релизом.

---

## 📋 Характеристики

| | |
|---|---|
| **Параметры** | **~6B (6 млрд)** |
| **Архитектура** | S3-DiT |
| **Базовая модель** | [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) |
| **Языки** | 🇷🇺 Русский, 🇬🇧 Английский |
| **Эталонное разрешение** | 1024 × 1024 |
| **Точность** | bf16 |
| **Лицензия** | Apache 2.0 |

---

## 🔎 О проекте

**Helio-Image** — семейство моделей генерации изображений на базе архитектуры S3-DiT (**~6B параметров**), ориентированное на качественную работу с русским языком: генерация надписей на кириллице, понимание русскоязычных описаний сцен и стилей.

### 🔮 Что впереди

Полноценная модель **Helio-Image** находится в активной разработке и будет обучена на **500–800K изображений** с расширенным покрытием стилей, жанров и сценариев. Preview-версия обучена на ~110K изображений за одну эпоху и уже покрывает большинство популярных направлений генерации — от фотореализма до аниме, от игровых сцен до киберпанка.

## ✨ Возможности Preview-версии

- **~6B параметров** — масштабная архитектура S3-DiT для высококачественной генерации
- **Русский текст в изображениях** — генерация надписей, вывесок, логотипов на кириллице
- **Широкий спектр стилей** — фотореализм, аниме, пиксельарт, киберпанк, фэнтези, Minecraft и многое другое
- **Эталонное разрешение** — 1024×1024 (1:1), оптимизировано под квадратный формат
- **Полная совместимость** — работает через `diffusers`, поддерживает CFG, negative prompts
- **Готова к использованию** — скачал, загрузил, генерируй

### ⚡ Preview vs Полная версия

| | Helio-Image-Preview (6B) | Helio-Image (в разработке) |
|---|---|---|
| Параметры | **~6B** | **~6B** |
| Датасет | ~110K изображений | 500–800K изображений |
| Эпохи обучения | 1 | Несколько |
| Покрытие стилей | Основные направления | Полное покрытие |
| Разрешение | 1024×1024 (1:1) | Мульти-разрешение |
| Качество русского текста | Хорошее | Улучшенное |
| Статус | ✅ Доступна | 🔧 В разработке |

> 💡 **Примечание:** Preview-версия может иногда давать неожиданные результаты в редких стилях или сложных композициях — это нормально для ранней версии с одной эпохой обучения. На популярных запросах (портреты, пейзажи, игровые сцены, аниме, текст) модель работает стабильно и выдаёт качественные результаты.

## 🚀 Быстрый старт

### Требования к оборудованию

> Модель содержит **~6 млрд параметров**. В формате `bf16` — около **~12 ГБ VRAM** только для весов трансформера (плюс VAE, текстовый энкодер и рабочая память). Рекомендуется GPU с ≥ 24 ГБ VRAM (RTX 3090 / 4090 / A5000 и выше).

### Установка

```bash
pip install git+https://github.com/huggingface/diffusers
pip install torch transformers accelerate safetensors
```

### Использование

```python
import torch
from diffusers import ZImagePipeline

# Загрузка модели (~6B параметров)
pipe = ZImagePipeline.from_pretrained(
    "HelioAI/Helio-Image-Preview",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

# Генерация изображения
image = pipe(
    prompt="Красивый закат над Москвой с надписью РОССИЯ",
    negative_prompt="",
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=7.5,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("result.png")
```

### Рекомендуемые параметры

| Параметр | Рекомендация |
|---|---|
| Разрешение | **1024×1024** (1:1, эталонное) |
| Guidance Scale | 7.5 — 9.0 |
| Inference Steps | 50 — 100 (больше = качественнее) |
| Precision | `torch.bfloat16` |

## 📝 Примеры промптов

```
Котёнок играет с клубком ниток на ковре
Киберпанк город будущего с неоновыми вывесками на русском
Minecraft деревня с табличкой ДОБРО ПОЖАЛОВАТЬ
Логотип с надписью ГЕЛИОС золотыми буквами на чёрном фоне
Космонавт на Луне с флагом и надписью КОСМОС
Фэнтези замок на вершине горы в тумане
Star Wars штурмовики маршируют с надписью ИМПЕРИЯ
Аниме школьница с зонтиком под дождём в Токио
Деревенский дом зимой с дымом из трубы
Портрет девушки в русском народном костюме
```

## 📊 Детали обучения

| Параметр | Значение |
|---|---|
| **Архитектура** | **S3-DiT (~6B параметров)** |
| **Базовая модель** | [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) |
| Датасет | ~110K изображений 1024×1024 |
| GPU | 4× RTX PRO 6000 96GB |
| DeepSpeed | ZeRO-2 |
| Precision | bf16 + TF32 |
| Optimizer | 8-bit AdamW |
| Learning Rate | 1e-5 (cosine decay) |
| Effective Batch | 128 (16 × 4 GPU × 2 accum) |
| Эпохи | 1 |

## 🏗️ Структура модели

```
Helio-Image-Preview/
├── transformer/          # Файнтюнутый S3-DiT трансформер (~6B параметров)
│   ├── config.json
│   └── diffusion_pytorch_model.safetensors
├── vae/                  # VAE декодер
├── text_encoder/         # Текстовый энкодер
├── tokenizer/            # Токенизатор
├── scheduler/            # Scheduler
├── model_index.json      # Конфигурация пайплайна
└── README.md
```

## 📜 Лицензия

Apache 2.0. Базовая архитектура: [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) от Tongyi-MAI.

## 🙏 Благодарности

- [Tongyi-MAI](https://github.com/Tongyi-MAI) — архитектура S3-DiT и базовая модель Z-Image
- [Hugging Face Diffusers](https://github.com/huggingface/diffusers) — инфраструктура и инференс

---

<div align="center">
  <h3>☀️ Built by Helios</h3>
  <p>4× RTX PRO 6000 • 110K images • S3-DiT 6B • Preview</p>
  <p><b><i>Helio-Image-Preview — это только начало. Следите за обновлениями!</i></b></p>
</div>