--- license: apache-2.0 language: - ru - en pipeline_tag: text-to-image library_name: diffusers tags: - text-to-image - diffusion - russian - fine-tuned - preview - 6b - s3-dit base_model: Tongyi-MAI/Z-Image ---

🌞 Helio-Image-Preview

HelioAI Logo

Русскоязычная модель генерации изображений — 6B параметров

Предварительная версия. Архитектура S3-DiT. Кириллица в изображениях.


params arch res lang license

---
Helio-Image-Preview Examples
**Helio-Image-Preview** — первый публичный выпуск семейства Helio-Image. Модель содержит **~6 млрд (6B) параметров**, построена на архитектуре S3-DiT. Это предварительная версия, демонстрирующая возможности архитектуры перед полноценным релизом. --- ## 📋 Характеристики | | | |---|---| | **Параметры** | **~6B (6 млрд)** | | **Архитектура** | S3-DiT | | **Базовая модель** | [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) | | **Языки** | 🇷🇺 Русский, 🇬🇧 Английский | | **Эталонное разрешение** | 1024 × 1024 | | **Точность** | bf16 | | **Лицензия** | Apache 2.0 | --- ## 🔎 О проекте **Helio-Image** — семейство моделей генерации изображений на базе архитектуры S3-DiT (**~6B параметров**), ориентированное на качественную работу с русским языком: генерация надписей на кириллице, понимание русскоязычных описаний сцен и стилей. ### 🔮 Что впереди Полноценная модель **Helio-Image** находится в активной разработке и будет обучена на **500–800K изображений** с расширенным покрытием стилей, жанров и сценариев. Preview-версия обучена на ~110K изображений за одну эпоху и уже покрывает большинство популярных направлений генерации — от фотореализма до аниме, от игровых сцен до киберпанка. ## ✨ Возможности Preview-версии - **~6B параметров** — масштабная архитектура S3-DiT для высококачественной генерации - **Русский текст в изображениях** — генерация надписей, вывесок, логотипов на кириллице - **Широкий спектр стилей** — фотореализм, аниме, пиксельарт, киберпанк, фэнтези, Minecraft и многое другое - **Эталонное разрешение** — 1024×1024 (1:1), оптимизировано под квадратный формат - **Полная совместимость** — работает через `diffusers`, поддерживает CFG, negative prompts - **Готова к использованию** — скачал, загрузил, генерируй ### ⚡ Preview vs Полная версия | | Helio-Image-Preview (6B) | Helio-Image (в разработке) | |---|---|---| | Параметры | **~6B** | **~6B** | | Датасет | ~110K изображений | 500–800K изображений | | Эпохи обучения | 1 | Несколько | | Покрытие стилей | Основные направления | Полное покрытие | | Разрешение | 1024×1024 (1:1) | Мульти-разрешение | | Качество русского текста | Хорошее | Улучшенное | | Статус | ✅ Доступна | 🔧 В разработке | > 💡 **Примечание:** Preview-версия может иногда давать неожиданные результаты в редких стилях или сложных композициях — это нормально для ранней версии с одной эпохой обучения. На популярных запросах (портреты, пейзажи, игровые сцены, аниме, текст) модель работает стабильно и выдаёт качественные результаты. ## 🚀 Быстрый старт ### Требования к оборудованию > Модель содержит **~6 млрд параметров**. В формате `bf16` — около **~12 ГБ VRAM** только для весов трансформера (плюс VAE, текстовый энкодер и рабочая память). Рекомендуется GPU с ≥ 24 ГБ VRAM (RTX 3090 / 4090 / A5000 и выше). ### Установка ```bash pip install git+https://github.com/huggingface/diffusers pip install torch transformers accelerate safetensors ``` ### Использование ```python import torch from diffusers import ZImagePipeline # Загрузка модели (~6B параметров) pipe = ZImagePipeline.from_pretrained( "HelioAI/Helio-Image-Preview", torch_dtype=torch.bfloat16, ) pipe.to("cuda") # Генерация изображения image = pipe( prompt="Красивый закат над Москвой с надписью РОССИЯ", negative_prompt="", height=1024, width=1024, num_inference_steps=50, guidance_scale=7.5, generator=torch.Generator("cuda").manual_seed(42), ).images[0] image.save("result.png") ``` ### Рекомендуемые параметры | Параметр | Рекомендация | |---|---| | Разрешение | **1024×1024** (1:1, эталонное) | | Guidance Scale | 7.5 — 9.0 | | Inference Steps | 50 — 100 (больше = качественнее) | | Precision | `torch.bfloat16` | ## 📝 Примеры промптов ``` Котёнок играет с клубком ниток на ковре Киберпанк город будущего с неоновыми вывесками на русском Minecraft деревня с табличкой ДОБРО ПОЖАЛОВАТЬ Логотип с надписью ГЕЛИОС золотыми буквами на чёрном фоне Космонавт на Луне с флагом и надписью КОСМОС Фэнтези замок на вершине горы в тумане Star Wars штурмовики маршируют с надписью ИМПЕРИЯ Аниме школьница с зонтиком под дождём в Токио Деревенский дом зимой с дымом из трубы Портрет девушки в русском народном костюме ``` ## 📊 Детали обучения | Параметр | Значение | |---|---| | **Архитектура** | **S3-DiT (~6B параметров)** | | **Базовая модель** | [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) | | Датасет | ~110K изображений 1024×1024 | | GPU | 4× RTX PRO 6000 96GB | | DeepSpeed | ZeRO-2 | | Precision | bf16 + TF32 | | Optimizer | 8-bit AdamW | | Learning Rate | 1e-5 (cosine decay) | | Effective Batch | 128 (16 × 4 GPU × 2 accum) | | Эпохи | 1 | ## 🏗️ Структура модели ``` Helio-Image-Preview/ ├── transformer/ # Файнтюнутый S3-DiT трансформер (~6B параметров) │ ├── config.json │ └── diffusion_pytorch_model.safetensors ├── vae/ # VAE декодер ├── text_encoder/ # Текстовый энкодер ├── tokenizer/ # Токенизатор ├── scheduler/ # Scheduler ├── model_index.json # Конфигурация пайплайна └── README.md ``` ## 📜 Лицензия Apache 2.0. Базовая архитектура: [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) от Tongyi-MAI. ## 🙏 Благодарности - [Tongyi-MAI](https://github.com/Tongyi-MAI) — архитектура S3-DiT и базовая модель Z-Image - [Hugging Face Diffusers](https://github.com/huggingface/diffusers) — инфраструктура и инференс ---

☀️ Built by Helios

4× RTX PRO 6000 • 110K images • S3-DiT 6B • Preview

Helio-Image-Preview — это только начало. Следите за обновлениями!