File size: 7,866 Bytes
51fda59
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2792eea
e440c94
51fda59
 
 
 
 
 
 
87d6eda
51fda59
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
87d6eda
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
---
license: apache-2.0
language:
- ru
- en
pipeline_tag: text-to-image
library_name: diffusers
tags:
- text-to-image
- diffusion
- russian
- fine-tuned
- preview
base_model: Tongyi-MAI/Z-Image
---

<h1 align="center">🌞 Helio-Image-Preview<br><sub><sup>Русскоязычная модель генерации изображений — предварительная версия</sup></sub></h1>

<div align="center">

<img src="https://huggingface.co/HelioAI/Helio-Image-Preview/resolve/main/teaser.png" alt="Helio-Image-Preview Examples" width="800">

**Helio-Image-Preview** — первый публичный выпуск семейства Helio-Image.
Это предварительная версия модели, демонстрирующая возможности архитектуры перед полноценным релизом.

</div>

---

## � О проекте

**Helio-Image** — семейство моделей генерации изображений на базе архитектуры S3-DiT (~6B параметров), ориентированное на качественную работу с русским языком: генерация надписей на кириллице, понимание русскоязычных описаний сцен и стилей.

**Preview-версия** — это ранний доступ к модели, который показывает текущее направление разработки и уже сейчас демонстрирует впечатляющие результаты на широком спектре задач.

### 🔮 Что впереди

Полноценная модель **Helio-Image** находится в активной разработке и будет обучена на **500–800K изображений** с расширенным покрытием стилей, жанров и сценариев. Preview-версия обучена на ~110K изображений за одну эпоху и уже покрывает большинство популярных направлений генерации — от фотореализма до аниме, от игровых сцен до киберпанка.

## ✨ Возможности Preview-версии

- **Русский текст в изображениях** — генерация надписей, вывесок, логотипов на кириллице
- **Широкий спектр стилей** — фотореализм, аниме, пиксельарт, киберпанк, фэнтези, Minecraft и многое другое
- **Эталонное разрешение** — 1024×1024 (1:1), оптимизировано под квадратный формат
- **Полная совместимость** — работает через `diffusers`, поддерживает CFG, negative prompts
- **Готова к использованию** — скачал, загрузил, генерируй

### ⚡ Preview vs Полная версия

| | Helio-Image-Preview | Helio-Image (в разработке) |
|---|---|---|
| Датасет | ~110K изображений | 500–800K изображений |
| Эпохи обучения | 1 | Несколько |
| Покрытие стилей | Основные направления | Полное покрытие |
| Разрешение | 1024×1024 (1:1) | Мульти-разрешение |
| Качество русского текста | Хорошее | Улучшенное |
| Статус | ✅ Доступна | 🔧 В разработке |

> 💡 **Примечание:** Preview-версия может иногда давать неожиданные результаты в редких стилях или сложных композициях — это нормально для ранней версии с одной эпохой обучения. На популярных запросах (портреты, пейзажи, игровые сцены, аниме, текст) модель работает стабильно и выдаёт качественные результаты.

## 🚀 Быстрый старт

### Установка

```bash
pip install git+https://github.com/huggingface/diffusers
pip install torch transformers accelerate safetensors
```

### Использование

```python
import torch
from diffusers import ZImagePipeline

# Загрузка модели
pipe = ZImagePipeline.from_pretrained(
    "./Helio-Image-Preview",  # или путь к скачанной модели
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

# Генерация изображения
image = pipe(
    prompt="Красивый закат над Москвой с надписью РОССИЯ",
    negative_prompt="",
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=7.5,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("result.png")
```

### Рекомендуемые параметры

| Параметр | Рекомендация |
|---|---|
| Разрешение | **1024×1024** (1:1, эталонное) |
| Guidance Scale | 7.5 — 9.0 |
| Inference Steps | 50 — 100 (больше = качественнее) |
| Precision | `torch.bfloat16` |

## 📝 Примеры промптов

```
Котёнок играет с клубком ниток на ковре
Киберпанк город будущего с неоновыми вывесками на русском
Minecraft деревня с табличкой ДОБРО ПОЖАЛОВАТЬ
Логотип с надписью ГЕЛИОС золотыми буквами на чёрном фоне
Космонавт на Луне с флагом и надписью КОСМОС
Фэнтези замок на вершине горы в тумане
Star Wars штурмовики маршируют с надписью ИМПЕРИЯ
Аниме школьница с зонтиком под дождём в Токио
Деревенский дом зимой с дымом из трубы
Портрет девушки в русском народном костюме
```

## 📊 Детали обучения

| Параметр | Значение |
|---|---|
| Базовая модель | Z-Image S3-DiT (~6B параметров) |
| Датасет | ~110K изображений 1024×1024 |
| GPU | 4× RTX PRO 6000 96GB |
| DeepSpeed | ZeRO-2 |
| Precision | bf16 + TF32 |
| Optimizer | 8-bit AdamW |
| Learning Rate | 1e-5 (cosine decay) |
| Effective Batch | 128 (16 × 4 GPU × 2 accum) |
| Эпохи | 1 |

## 🏗️ Структура модели

```
Helio-Image-Preview/
├── transformer/          # Файнтюнутый S3-DiT трансформер (~6B)
│   ├── config.json
│   └── diffusion_pytorch_model.safetensors
├── vae/                  # VAE декодер
├── text_encoder/         # Текстовый энкодер
├── tokenizer/            # Токенизатор
├── scheduler/            # Scheduler
├── model_index.json      # Конфигурация пайплайна
└── README.md
```

## 📜 Лицензия

Apache 2.0. Базовая архитектура: [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) от Tongyi-MAI.

## 🙏 Благодарности

- [Tongyi-MAI](https://github.com/Tongyi-MAI) — архитектура S3-DiT и базовая модель Z-Image
- [Hugging Face Diffusers](https://github.com/huggingface/diffusers) — инфраструктура и инференс

---

<div align="center">

*Helio-Image-Preview — это только начало. Следите за обновлениями!* ☀️

</div>