🌞 Helio-Image-Preview
Русскоязычная модель генерации изображений — предварительная версия
Helio-Image-Preview — первый публичный выпуск семейства Helio-Image. Это предварительная версия модели, демонстрирующая возможности архитектуры перед полноценным релизом.
� О проекте
Helio-Image — семейство моделей генерации изображений на базе архитектуры S3-DiT (~6B параметров), ориентированное на качественную работу с русским языком: генерация надписей на кириллице, понимание русскоязычных описаний сцен и стилей.
Preview-версия — это ранний доступ к модели, который показывает текущее направление разработки и уже сейчас демонстрирует впечатляющие результаты на широком спектре задач.
🔮 Что впереди
Полноценная модель Helio-Image находится в активной разработке и будет обучена на 500–800K изображений с расширенным покрытием стилей, жанров и сценариев. Preview-версия обучена на ~110K изображений за одну эпоху и уже покрывает большинство популярных направлений генерации — от фотореализма до аниме, от игровых сцен до киберпанка.
✨ Возможности Preview-версии
- Русский текст в изображениях — генерация надписей, вывесок, логотипов на кириллице
- Широкий спектр стилей — фотореализм, аниме, пиксельарт, киберпанк, фэнтези, Minecraft и многое другое
- Эталонное разрешение — 1024×1024 (1:1), оптимизировано под квадратный формат
- Полная совместимость — работает через
diffusers, поддерживает CFG, negative prompts - Готова к использованию — скачал, загрузил, генерируй
⚡ Preview vs Полная версия
| Helio-Image-Preview | Helio-Image (в разработке) | |
|---|---|---|
| Датасет | ~110K изображений | 500–800K изображений |
| Эпохи обучения | 1 | Несколько |
| Покрытие стилей | Основные направления | Полное покрытие |
| Разрешение | 1024×1024 (1:1) | Мульти-разрешение |
| Качество русского текста | Хорошее | Улучшенное |
| Статус | ✅ Доступна | 🔧 В разработке |
💡 Примечание: Preview-версия может иногда давать неожиданные результаты в редких стилях или сложных композициях — это нормально для ранней версии с одной эпохой обучения. На популярных запросах (портреты, пейзажи, игровые сцены, аниме, текст) модель работает стабильно и выдаёт качественные результаты.
🚀 Быстрый старт
Установка
pip install git+https://github.com/huggingface/diffusers
pip install torch transformers accelerate safetensors
Использование
import torch
from diffusers import ZImagePipeline
# Загрузка модели
pipe = ZImagePipeline.from_pretrained(
"./Helio-Image-Preview", # или путь к скачанной модели
torch_dtype=torch.bfloat16,
)
pipe.to("cuda")
# Генерация изображения
image = pipe(
prompt="Красивый закат над Москвой с надписью РОССИЯ",
negative_prompt="",
height=1024,
width=1024,
num_inference_steps=50,
guidance_scale=7.5,
generator=torch.Generator("cuda").manual_seed(42),
).images[0]
image.save("result.png")
Рекомендуемые параметры
| Параметр | Рекомендация |
|---|---|
| Разрешение | 1024×1024 (1:1, эталонное) |
| Guidance Scale | 7.5 — 9.0 |
| Inference Steps | 50 — 100 (больше = качественнее) |
| Precision | torch.bfloat16 |
📝 Примеры промптов
Котёнок играет с клубком ниток на ковре
Киберпанк город будущего с неоновыми вывесками на русском
Minecraft деревня с табличкой ДОБРО ПОЖАЛОВАТЬ
Логотип с надписью ГЕЛИОС золотыми буквами на чёрном фоне
Космонавт на Луне с флагом и надписью КОСМОС
Фэнтези замок на вершине горы в тумане
Star Wars штурмовики маршируют с надписью ИМПЕРИЯ
Аниме школьница с зонтиком под дождём в Токио
Деревенский дом зимой с дымом из трубы
Портрет девушки в русском народном костюме
📊 Детали обучения
| Параметр | Значение |
|---|---|
| Базовая модель | Z-Image S3-DiT (~6B параметров) |
| Датасет | ~110K изображений 1024×1024 |
| GPU | 4× RTX PRO 6000 96GB |
| DeepSpeed | ZeRO-2 |
| Precision | bf16 + TF32 |
| Optimizer | 8-bit AdamW |
| Learning Rate | 1e-5 (cosine decay) |
| Effective Batch | 128 (16 × 4 GPU × 2 accum) |
| Эпохи | 1 |
🏗️ Структура модели
Helio-Image-Preview/
├── transformer/ # Файнтюнутый S3-DiT трансформер (~6B)
│ ├── config.json
│ └── diffusion_pytorch_model.safetensors
├── vae/ # VAE декодер
├── text_encoder/ # Текстовый энкодер
├── tokenizer/ # Токенизатор
├── scheduler/ # Scheduler
├── model_index.json # Конфигурация пайплайна
└── README.md
📜 Лицензия
Apache 2.0. Базовая архитектура: Z-Image от Tongyi-MAI.
🙏 Благодарности
- Tongyi-MAI — архитектура S3-DiT и базовая модель Z-Image
- Hugging Face Diffusers — инфраструктура и инференс
Helio-Image-Preview — это только начало. Следите за обновлениями! ☀️
- Downloads last month
- -
Model tree for HelioAI/Helio-Image-Preview
Base model
Tongyi-MAI/Z-Image