File size: 9,591 Bytes
85d407d 51fda59 85d407d f736153 51fda59 f736153 c36bebb ff36f1f c36bebb f736153 51fda59 f736153 2792eea f736153 e440c94 51fda59 f736153 85d407d 51fda59 f736153 85d407d 51fda59 85d407d 51fda59 85d407d 51fda59 85d407d 51fda59 85d407d 51fda59 85d407d f736153 85d407d 51fda59 85d407d 51fda59 f736153 51fda59 85d407d f736153 51fda59 85d407d 51fda59 f736153 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 |
---
license: apache-2.0
language:
- ru
- en
pipeline_tag: text-to-image
library_name: diffusers
tags:
- text-to-image
- diffusion
- russian
- fine-tuned
- preview
- 6b
- s3-dit
base_model: Tongyi-MAI/Z-Image
---
<div align="center">
<h1>🌞 Helio-Image-Preview</h1>
<p align="center">
<img src="logo.png" width="200" alt="HelioAI Logo">
</p>
<h3>Русскоязычная модель генерации изображений — 6B параметров</h3>
<p><i>Предварительная версия. Архитектура S3-DiT. Кириллица в изображениях.</i></p>
<br>
<p>
<img src="https://img.shields.io/badge/Parameters-6B-green" alt="params"/>
<img src="https://img.shields.io/badge/Architecture-S3--DiT-blue" alt="arch"/>
<img src="https://img.shields.io/badge/Resolution-1024×1024-purple" alt="res"/>
<img src="https://img.shields.io/badge/Language-RU%20%7C%20EN-orange" alt="lang"/>
<img src="https://img.shields.io/badge/License-Apache%202.0-lightgrey" alt="license"/>
</p>
</div>
---
<div align="center">
<img src="https://huggingface.co/HelioAI/Helio-Image-Preview/resolve/main/teaser.png" alt="Helio-Image-Preview Examples" width="800">
</div>
**Helio-Image-Preview** — первый публичный выпуск семейства Helio-Image.
Модель содержит **~6 млрд (6B) параметров**, построена на архитектуре S3-DiT.
Это предварительная версия, демонстрирующая возможности архитектуры перед полноценным релизом.
---
## 📋 Характеристики
| | |
|---|---|
| **Параметры** | **~6B (6 млрд)** |
| **Архитектура** | S3-DiT |
| **Базовая модель** | [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) |
| **Языки** | 🇷🇺 Русский, 🇬🇧 Английский |
| **Эталонное разрешение** | 1024 × 1024 |
| **Точность** | bf16 |
| **Лицензия** | Apache 2.0 |
---
## 🔎 О проекте
**Helio-Image** — семейство моделей генерации изображений на базе архитектуры S3-DiT (**~6B параметров**), ориентированное на качественную работу с русским языком: генерация надписей на кириллице, понимание русскоязычных описаний сцен и стилей.
### 🔮 Что впереди
Полноценная модель **Helio-Image** находится в активной разработке и будет обучена на **500–800K изображений** с расширенным покрытием стилей, жанров и сценариев. Preview-версия обучена на ~110K изображений за одну эпоху и уже покрывает большинство популярных направлений генерации — от фотореализма до аниме, от игровых сцен до киберпанка.
## ✨ Возможности Preview-версии
- **~6B параметров** — масштабная архитектура S3-DiT для высококачественной генерации
- **Русский текст в изображениях** — генерация надписей, вывесок, логотипов на кириллице
- **Широкий спектр стилей** — фотореализм, аниме, пиксельарт, киберпанк, фэнтези, Minecraft и многое другое
- **Эталонное разрешение** — 1024×1024 (1:1), оптимизировано под квадратный формат
- **Полная совместимость** — работает через `diffusers`, поддерживает CFG, negative prompts
- **Готова к использованию** — скачал, загрузил, генерируй
### ⚡ Preview vs Полная версия
| | Helio-Image-Preview (6B) | Helio-Image (в разработке) |
|---|---|---|
| Параметры | **~6B** | **~6B** |
| Датасет | ~110K изображений | 500–800K изображений |
| Эпохи обучения | 1 | Несколько |
| Покрытие стилей | Основные направления | Полное покрытие |
| Разрешение | 1024×1024 (1:1) | Мульти-разрешение |
| Качество русского текста | Хорошее | Улучшенное |
| Статус | ✅ Доступна | 🔧 В разработке |
> 💡 **Примечание:** Preview-версия может иногда давать неожиданные результаты в редких стилях или сложных композициях — это нормально для ранней версии с одной эпохой обучения. На популярных запросах (портреты, пейзажи, игровые сцены, аниме, текст) модель работает стабильно и выдаёт качественные результаты.
## 🚀 Быстрый старт
### Требования к оборудованию
> Модель содержит **~6 млрд параметров**. В формате `bf16` — около **~12 ГБ VRAM** только для весов трансформера (плюс VAE, текстовый энкодер и рабочая память). Рекомендуется GPU с ≥ 24 ГБ VRAM (RTX 3090 / 4090 / A5000 и выше).
### Установка
```bash
pip install git+https://github.com/huggingface/diffusers
pip install torch transformers accelerate safetensors
```
### Использование
```python
import torch
from diffusers import ZImagePipeline
# Загрузка модели (~6B параметров)
pipe = ZImagePipeline.from_pretrained(
"HelioAI/Helio-Image-Preview",
torch_dtype=torch.bfloat16,
)
pipe.to("cuda")
# Генерация изображения
image = pipe(
prompt="Красивый закат над Москвой с надписью РОССИЯ",
negative_prompt="",
height=1024,
width=1024,
num_inference_steps=50,
guidance_scale=7.5,
generator=torch.Generator("cuda").manual_seed(42),
).images[0]
image.save("result.png")
```
### Рекомендуемые параметры
| Параметр | Рекомендация |
|---|---|
| Разрешение | **1024×1024** (1:1, эталонное) |
| Guidance Scale | 7.5 — 9.0 |
| Inference Steps | 50 — 100 (больше = качественнее) |
| Precision | `torch.bfloat16` |
## 📝 Примеры промптов
```
Котёнок играет с клубком ниток на ковре
Киберпанк город будущего с неоновыми вывесками на русском
Minecraft деревня с табличкой ДОБРО ПОЖАЛОВАТЬ
Логотип с надписью ГЕЛИОС золотыми буквами на чёрном фоне
Космонавт на Луне с флагом и надписью КОСМОС
Фэнтези замок на вершине горы в тумане
Star Wars штурмовики маршируют с надписью ИМПЕРИЯ
Аниме школьница с зонтиком под дождём в Токио
Деревенский дом зимой с дымом из трубы
Портрет девушки в русском народном костюме
```
## 📊 Детали обучения
| Параметр | Значение |
|---|---|
| **Архитектура** | **S3-DiT (~6B параметров)** |
| **Базовая модель** | [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) |
| Датасет | ~110K изображений 1024×1024 |
| GPU | 4× RTX PRO 6000 96GB |
| DeepSpeed | ZeRO-2 |
| Precision | bf16 + TF32 |
| Optimizer | 8-bit AdamW |
| Learning Rate | 1e-5 (cosine decay) |
| Effective Batch | 128 (16 × 4 GPU × 2 accum) |
| Эпохи | 1 |
## 🏗️ Структура модели
```
Helio-Image-Preview/
├── transformer/ # Файнтюнутый S3-DiT трансформер (~6B параметров)
│ ├── config.json
│ └── diffusion_pytorch_model.safetensors
├── vae/ # VAE декодер
├── text_encoder/ # Текстовый энкодер
├── tokenizer/ # Токенизатор
├── scheduler/ # Scheduler
├── model_index.json # Конфигурация пайплайна
└── README.md
```
## 📜 Лицензия
Apache 2.0. Базовая архитектура: [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) от Tongyi-MAI.
## 🙏 Благодарности
- [Tongyi-MAI](https://github.com/Tongyi-MAI) — архитектура S3-DiT и базовая модель Z-Image
- [Hugging Face Diffusers](https://github.com/huggingface/diffusers) — инфраструктура и инференс
---
<div align="center">
<h3>☀️ Built by Helios</h3>
<p>4× RTX PRO 6000 • 110K images • S3-DiT 6B • Preview</p>
<p><b><i>Helio-Image-Preview — это только начало. Следите за обновлениями!</i></b></p>
</div>
|