🌞 Helio-Image-Preview
Русскоязычная модель генерации изображений — предварительная версия

Helio-Image-Preview Examples

Helio-Image-Preview — первый публичный выпуск семейства Helio-Image. Это предварительная версия модели, демонстрирующая возможности архитектуры перед полноценным релизом.


� О проекте

Helio-Image — семейство моделей генерации изображений на базе архитектуры S3-DiT (~6B параметров), ориентированное на качественную работу с русским языком: генерация надписей на кириллице, понимание русскоязычных описаний сцен и стилей.

Preview-версия — это ранний доступ к модели, который показывает текущее направление разработки и уже сейчас демонстрирует впечатляющие результаты на широком спектре задач.

🔮 Что впереди

Полноценная модель Helio-Image находится в активной разработке и будет обучена на 500–800K изображений с расширенным покрытием стилей, жанров и сценариев. Preview-версия обучена на ~110K изображений за одну эпоху и уже покрывает большинство популярных направлений генерации — от фотореализма до аниме, от игровых сцен до киберпанка.

✨ Возможности Preview-версии

  • Русский текст в изображениях — генерация надписей, вывесок, логотипов на кириллице
  • Широкий спектр стилей — фотореализм, аниме, пиксельарт, киберпанк, фэнтези, Minecraft и многое другое
  • Эталонное разрешение — 1024×1024 (1:1), оптимизировано под квадратный формат
  • Полная совместимость — работает через diffusers, поддерживает CFG, negative prompts
  • Готова к использованию — скачал, загрузил, генерируй

⚡ Preview vs Полная версия

Helio-Image-Preview Helio-Image (в разработке)
Датасет ~110K изображений 500–800K изображений
Эпохи обучения 1 Несколько
Покрытие стилей Основные направления Полное покрытие
Разрешение 1024×1024 (1:1) Мульти-разрешение
Качество русского текста Хорошее Улучшенное
Статус ✅ Доступна 🔧 В разработке

💡 Примечание: Preview-версия может иногда давать неожиданные результаты в редких стилях или сложных композициях — это нормально для ранней версии с одной эпохой обучения. На популярных запросах (портреты, пейзажи, игровые сцены, аниме, текст) модель работает стабильно и выдаёт качественные результаты.

🚀 Быстрый старт

Установка

pip install git+https://github.com/huggingface/diffusers
pip install torch transformers accelerate safetensors

Использование

import torch
from diffusers import ZImagePipeline

# Загрузка модели
pipe = ZImagePipeline.from_pretrained(
    "./Helio-Image-Preview",  # или путь к скачанной модели
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

# Генерация изображения
image = pipe(
    prompt="Красивый закат над Москвой с надписью РОССИЯ",
    negative_prompt="",
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=7.5,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("result.png")

Рекомендуемые параметры

Параметр Рекомендация
Разрешение 1024×1024 (1:1, эталонное)
Guidance Scale 7.5 — 9.0
Inference Steps 50 — 100 (больше = качественнее)
Precision torch.bfloat16

📝 Примеры промптов

Котёнок играет с клубком ниток на ковре
Киберпанк город будущего с неоновыми вывесками на русском
Minecraft деревня с табличкой ДОБРО ПОЖАЛОВАТЬ
Логотип с надписью ГЕЛИОС золотыми буквами на чёрном фоне
Космонавт на Луне с флагом и надписью КОСМОС
Фэнтези замок на вершине горы в тумане
Star Wars штурмовики маршируют с надписью ИМПЕРИЯ
Аниме школьница с зонтиком под дождём в Токио
Деревенский дом зимой с дымом из трубы
Портрет девушки в русском народном костюме

📊 Детали обучения

Параметр Значение
Базовая модель Z-Image S3-DiT (~6B параметров)
Датасет ~110K изображений 1024×1024
GPU 4× RTX PRO 6000 96GB
DeepSpeed ZeRO-2
Precision bf16 + TF32
Optimizer 8-bit AdamW
Learning Rate 1e-5 (cosine decay)
Effective Batch 128 (16 × 4 GPU × 2 accum)
Эпохи 1

🏗️ Структура модели

Helio-Image-Preview/
├── transformer/          # Файнтюнутый S3-DiT трансформер (~6B)
│   ├── config.json
│   └── diffusion_pytorch_model.safetensors
├── vae/                  # VAE декодер
├── text_encoder/         # Текстовый энкодер
├── tokenizer/            # Токенизатор
├── scheduler/            # Scheduler
├── model_index.json      # Конфигурация пайплайна
└── README.md

📜 Лицензия

Apache 2.0. Базовая архитектура: Z-Image от Tongyi-MAI.

🙏 Благодарности

  • Tongyi-MAI — архитектура S3-DiT и базовая модель Z-Image
  • Hugging Face Diffusers — инфраструктура и инференс

Helio-Image-Preview — это только начало. Следите за обновлениями! ☀️

Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for HelioAI/Helio-Image-Preview

Base model

Tongyi-MAI/Z-Image
Finetuned
(14)
this model