🌞 Helio-Image-Preview


---
license: apache-2.0
language:
- ru
- en
pipeline_tag: text-to-image
library_name: diffusers
tags:
- text-to-image
- diffusion
- russian
- fine-tuned
- preview
- 6b
- s3-dit
base_model: Tongyi-MAI/Z-Image
---

<div align="center">
  <h1>🌞 Helio-Image-Preview</h1>
  <p align="center">
  <img src="logo.png" width="200" alt="HelioAI Logo">
</p>
  <h3>Русскоязычная модель генерации изображений — 6B параметров</h3>
  <p><i>Предварительная версия. Архитектура S3-DiT. Кириллица в изображениях.</i></p>
  <br>
  <p>
    <img src="https://img.shields.io/badge/Parameters-6B-green" alt="params"/>
    <img src="https://img.shields.io/badge/Architecture-S3--DiT-blue" alt="arch"/>
    <img src="https://img.shields.io/badge/Resolution-1024×1024-purple" alt="res"/>
    <img src="https://img.shields.io/badge/Language-RU%20%7C%20EN-orange" alt="lang"/>
    <img src="https://img.shields.io/badge/License-Apache%202.0-lightgrey" alt="license"/>
  </p>
</div>

---

<div align="center">
<img src="https://huggingface.co/HelioAI/Helio-Image-Preview/resolve/main/teaser.png" alt="Helio-Image-Preview Examples" width="800">
</div>

**Helio-Image-Preview** — первый публичный выпуск семейства Helio-Image.
Модель содержит **~6 млрд (6B) параметров**, построена на архитектуре S3-DiT.
Это предварительная версия, демонстрирующая возможности архитектуры перед полноценным релизом.

---

## 📋 Характеристики

| | |
|---|---|
| **Параметры** | **~6B (6 млрд)** |
| **Архитектура** | S3-DiT |
| **Базовая модель** | [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) |
| **Языки** | 🇷🇺 Русский, 🇬🇧 Английский |
| **Эталонное разрешение** | 1024 × 1024 |
| **Точность** | bf16 |
| **Лицензия** | Apache 2.0 |

---

## 🔎 О проекте

**Helio-Image** — семейство моделей генерации изображений на базе архитектуры S3-DiT (**~6B параметров**), ориентированное на качественную работу с русским языком: генерация надписей на кириллице, понимание русскоязычных описаний сцен и стилей.

### 🔮 Что впереди

Полноценная модель **Helio-Image** находится в активной разработке и будет обучена на **500–800K изображений** с расширенным покрытием стилей, жанров и сценариев. Preview-версия обучена на ~110K изображений за одну эпоху и уже покрывает большинство популярных направлений генерации — от фотореализма до аниме, от игровых сцен до киберпанка.

## ✨ Возможности Preview-версии

- **~6B параметров** — масштабная архитектура S3-DiT для высококачественной генерации
- **Русский текст в изображениях** — генерация надписей, вывесок, логотипов на кириллице
- **Широкий спектр стилей** — фотореализм, аниме, пиксельарт, киберпанк, фэнтези, Minecraft и многое другое
- **Эталонное разрешение** — 1024×1024 (1:1), оптимизировано под квадратный формат
- **Полная совместимость** — работает через `diffusers`, поддерживает CFG, negative prompts
- **Готова к использованию** — скачал, загрузил, генерируй

### ⚡ Preview vs Полная версия

| | Helio-Image-Preview (6B) | Helio-Image (в разработке) |
|---|---|---|
| Параметры | **~6B** | **~6B** |
| Датасет | ~110K изображений | 500–800K изображений |
| Эпохи обучения | 1 | Несколько |
| Покрытие стилей | Основные направления | Полное покрытие |
| Разрешение | 1024×1024 (1:1) | Мульти-разрешение |
| Качество русского текста | Хорошее | Улучшенное |
| Статус | ✅ Доступна | 🔧 В разработке |

> 💡 **Примечание:** Preview-версия может иногда давать неожиданные результаты в редких стилях или сложных композициях — это нормально для ранней версии с одной эпохой обучения. На популярных запросах (портреты, пейзажи, игровые сцены, аниме, текст) модель работает стабильно и выдаёт качественные результаты.

## 🚀 Быстрый старт

### Требования к оборудованию

> Модель содержит **~6 млрд параметров**. В формате `bf16` — около **~12 ГБ VRAM** только для весов трансформера (плюс VAE, текстовый энкодер и рабочая память). Рекомендуется GPU с ≥ 24 ГБ VRAM (RTX 3090 / 4090 / A5000 и выше).

### Установка

```bash
pip install git+https://github.com/huggingface/diffusers
pip install torch transformers accelerate safetensors
```

### Использование

```python
import torch
from diffusers import ZImagePipeline

# Загрузка модели (~6B параметров)
pipe = ZImagePipeline.from_pretrained(
    "HelioAI/Helio-Image-Preview",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

# Генерация изображения
image = pipe(
    prompt="Красивый закат над Москвой с надписью РОССИЯ",
    negative_prompt="",
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=7.5,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("result.png")
```

### Рекомендуемые параметры

| Параметр | Рекомендация |
|---|---|
| Разрешение | **1024×1024** (1:1, эталонное) |
| Guidance Scale | 7.5 — 9.0 |
| Inference Steps | 50 — 100 (больше = качественнее) |
| Precision | `torch.bfloat16` |

## 📝 Примеры промптов

```
Котёнок играет с клубком ниток на ковре
Киберпанк город будущего с неоновыми вывесками на русском
Minecraft деревня с табличкой ДОБРО ПОЖАЛОВАТЬ
Логотип с надписью ГЕЛИОС золотыми буквами на чёрном фоне
Космонавт на Луне с флагом и надписью КОСМОС
Фэнтези замок на вершине горы в тумане
Star Wars штурмовики маршируют с надписью ИМПЕРИЯ
Аниме школьница с зонтиком под дождём в Токио
Деревенский дом зимой с дымом из трубы
Портрет девушки в русском народном костюме
```

## 📊 Детали обучения

| Параметр | Значение |
|---|---|
| **Архитектура** | **S3-DiT (~6B параметров)** |
| **Базовая модель** | [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) |
| Датасет | ~110K изображений 1024×1024 |
| GPU | 4× RTX PRO 6000 96GB |
| DeepSpeed | ZeRO-2 |
| Precision | bf16 + TF32 |
| Optimizer | 8-bit AdamW |
| Learning Rate | 1e-5 (cosine decay) |
| Effective Batch | 128 (16 × 4 GPU × 2 accum) |
| Эпохи | 1 |

## 🏗️ Структура модели

```
Helio-Image-Preview/
├── transformer/          # Файнтюнутый S3-DiT трансформер (~6B параметров)
│   ├── config.json
│   └── diffusion_pytorch_model.safetensors
├── vae/                  # VAE декодер
├── text_encoder/         # Текстовый энкодер
├── tokenizer/            # Токенизатор
├── scheduler/            # Scheduler
├── model_index.json      # Конфигурация пайплайна
└── README.md
```

## 📜 Лицензия

Apache 2.0. Базовая архитектура: [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) от Tongyi-MAI.

## 🙏 Благодарности

- [Tongyi-MAI](https://github.com/Tongyi-MAI) — архитектура S3-DiT и базовая модель Z-Image
- [Hugging Face Diffusers](https://github.com/huggingface/diffusers) — инфраструктура и инференс

---

<div align="center">
  <h3>☀️ Built by Helios</h3>
  <p>4× RTX PRO 6000 • 110K images • S3-DiT 6B • Preview</p>
  <p><b><i>Helio-Image-Preview — это только начало. Следите за обновлениями!</i></b></p>
</div>