| |
|
| | --- |
| | license: apache-2.0 |
| | language: |
| | - ru |
| | - en |
| | pipeline_tag: text-to-image |
| | library_name: diffusers |
| | tags: |
| | - text-to-image |
| | - diffusion |
| | - russian |
| | - fine-tuned |
| | - preview |
| | - 6b |
| | - s3-dit |
| | base_model: Tongyi-MAI/Z-Image |
| | --- |
| | |
| | <div align="center"> |
| | <h1>🌞 Helio-Image-Preview</h1> |
| | <p align="center"> |
| | <img src="logo.png" width="200" alt="HelioAI Logo"> |
| | </p> |
| | <h3>Русскоязычная модель генерации изображений — 6B параметров</h3> |
| | <p><i>Предварительная версия. Архитектура S3-DiT. Кириллица в изображениях.</i></p> |
| | <br> |
| | <p> |
| | <img src="https://img.shields.io/badge/Parameters-6B-green" alt="params"/> |
| | <img src="https://img.shields.io/badge/Architecture-S3--DiT-blue" alt="arch"/> |
| | <img src="https://img.shields.io/badge/Resolution-1024×1024-purple" alt="res"/> |
| | <img src="https://img.shields.io/badge/Language-RU%20%7C%20EN-orange" alt="lang"/> |
| | <img src="https://img.shields.io/badge/License-Apache%202.0-lightgrey" alt="license"/> |
| | </p> |
| | </div> |
| | |
| | --- |
| |
|
| | <div align="center"> |
| | <img src="https://huggingface.co/HelioAI/Helio-Image-Preview/resolve/main/teaser.png" alt="Helio-Image-Preview Examples" width="800"> |
| | </div> |
| |
|
| | **Helio-Image-Preview** — первый публичный выпуск семейства Helio-Image. |
| | Модель содержит **~6 млрд (6B) параметров**, построена на архитектуре S3-DiT. |
| | Это предварительная версия, демонстрирующая возможности архитектуры перед полноценным релизом. |
| |
|
| | --- |
| |
|
| | ## 📋 Характеристики |
| |
|
| | | | | |
| | |---|---| |
| | | **Параметры** | **~6B (6 млрд)** | |
| | | **Архитектура** | S3-DiT | |
| | | **Базовая модель** | [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) | |
| | | **Языки** | 🇷🇺 Русский, 🇬🇧 Английский | |
| | | **Эталонное разрешение** | 1024 × 1024 | |
| | | **Точность** | bf16 | |
| | | **Лицензия** | Apache 2.0 | |
| |
|
| | --- |
| |
|
| | ## 🔎 О проекте |
| |
|
| | **Helio-Image** — семейство моделей генерации изображений на базе архитектуры S3-DiT (**~6B параметров**), ориентированное на качественную работу с русским языком: генерация надписей на кириллице, понимание русскоязычных описаний сцен и стилей. |
| |
|
| | ### 🔮 Что впереди |
| |
|
| | Полноценная модель **Helio-Image** находится в активной разработке и будет обучена на **500–800K изображений** с расширенным покрытием стилей, жанров и сценариев. Preview-версия обучена на ~110K изображений за одну эпоху и уже покрывает большинство популярных направлений генерации — от фотореализма до аниме, от игровых сцен до киберпанка. |
| |
|
| | ## ✨ Возможности Preview-версии |
| |
|
| | - **~6B параметров** — масштабная архитектура S3-DiT для высококачественной генерации |
| | - **Русский текст в изображениях** — генерация надписей, вывесок, логотипов на кириллице |
| | - **Широкий спектр стилей** — фотореализм, аниме, пиксельарт, киберпанк, фэнтези, Minecraft и многое другое |
| | - **Эталонное разрешение** — 1024×1024 (1:1), оптимизировано под квадратный формат |
| | - **Полная совместимость** — работает через `diffusers`, поддерживает CFG, negative prompts |
| | - **Готова к использованию** — скачал, загрузил, генерируй |
| |
|
| | ### ⚡ Preview vs Полная версия |
| |
|
| | | | Helio-Image-Preview (6B) | Helio-Image (в разработке) | |
| | |---|---|---| |
| | | Параметры | **~6B** | **~6B** | |
| | | Датасет | ~110K изображений | 500–800K изображений | |
| | | Эпохи обучения | 1 | Несколько | |
| | | Покрытие стилей | Основные направления | Полное покрытие | |
| | | Разрешение | 1024×1024 (1:1) | Мульти-разрешение | |
| | | Качество русского текста | Хорошее | Улучшенное | |
| | | Статус | ✅ Доступна | 🔧 В разработке | |
| |
|
| | > 💡 **Примечание:** Preview-версия может иногда давать неожиданные результаты в редких стилях или сложных композициях — это нормально для ранней версии с одной эпохой обучения. На популярных запросах (портреты, пейзажи, игровые сцены, аниме, текст) модель работает стабильно и выдаёт качественные результаты. |
| |
|
| | ## 🚀 Быстрый старт |
| |
|
| | ### Требования к оборудованию |
| |
|
| | > Модель содержит **~6 млрд параметров**. В формате `bf16` — около **~12 ГБ VRAM** только для весов трансформера (плюс VAE, текстовый энкодер и рабочая память). Рекомендуется GPU с ≥ 24 ГБ VRAM (RTX 3090 / 4090 / A5000 и выше). |
| |
|
| | ### Установка |
| |
|
| | ```bash |
| | pip install git+https://github.com/huggingface/diffusers |
| | pip install torch transformers accelerate safetensors |
| | ``` |
| |
|
| | ### Использование |
| |
|
| | ```python |
| | import torch |
| | from diffusers import ZImagePipeline |
| | |
| | # Загрузка модели (~6B параметров) |
| | pipe = ZImagePipeline.from_pretrained( |
| | "HelioAI/Helio-Image-Preview", |
| | torch_dtype=torch.bfloat16, |
| | ) |
| | pipe.to("cuda") |
| | |
| | # Генерация изображения |
| | image = pipe( |
| | prompt="Красивый закат над Москвой с надписью РОССИЯ", |
| | negative_prompt="", |
| | height=1024, |
| | width=1024, |
| | num_inference_steps=50, |
| | guidance_scale=7.5, |
| | generator=torch.Generator("cuda").manual_seed(42), |
| | ).images[0] |
| | |
| | image.save("result.png") |
| | ``` |
| |
|
| | ### Рекомендуемые параметры |
| |
|
| | | Параметр | Рекомендация | |
| | |---|---| |
| | | Разрешение | **1024×1024** (1:1, эталонное) | |
| | | Guidance Scale | 7.5 — 9.0 | |
| | | Inference Steps | 50 — 100 (больше = качественнее) | |
| | | Precision | `torch.bfloat16` | |
| |
|
| | ## 📝 Примеры промптов |
| |
|
| | ``` |
| | Котёнок играет с клубком ниток на ковре |
| | Киберпанк город будущего с неоновыми вывесками на русском |
| | Minecraft деревня с табличкой ДОБРО ПОЖАЛОВАТЬ |
| | Логотип с надписью ГЕЛИОС золотыми буквами на чёрном фоне |
| | Космонавт на Луне с флагом и надписью КОСМОС |
| | Фэнтези замок на вершине горы в тумане |
| | Star Wars штурмовики маршируют с надписью ИМПЕРИЯ |
| | Аниме школьница с зонтиком под дождём в Токио |
| | Деревенский дом зимой с дымом из трубы |
| | Портрет девушки в русском народном костюме |
| | ``` |
| |
|
| | ## 📊 Детали обучения |
| |
|
| | | Параметр | Значение | |
| | |---|---| |
| | | **Архитектура** | **S3-DiT (~6B параметров)** | |
| | | **Базовая модель** | [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) | |
| | | Датасет | ~110K изображений 1024×1024 | |
| | | GPU | 4× RTX PRO 6000 96GB | |
| | | DeepSpeed | ZeRO-2 | |
| | | Precision | bf16 + TF32 | |
| | | Optimizer | 8-bit AdamW | |
| | | Learning Rate | 1e-5 (cosine decay) | |
| | | Effective Batch | 128 (16 × 4 GPU × 2 accum) | |
| | | Эпохи | 1 | |
| |
|
| | ## 🏗️ Структура модели |
| |
|
| | ``` |
| | Helio-Image-Preview/ |
| | ├── transformer/ # Файнтюнутый S3-DiT трансформер (~6B параметров) |
| | │ ├── config.json |
| | │ └── diffusion_pytorch_model.safetensors |
| | ├── vae/ # VAE декодер |
| | ├── text_encoder/ # Текстовый энкодер |
| | ├── tokenizer/ # Токенизатор |
| | ├── scheduler/ # Scheduler |
| | ├── model_index.json # Конфигурация пайплайна |
| | └── README.md |
| | ``` |
| |
|
| | ## 📜 Лицензия |
| |
|
| | Apache 2.0. Базовая архитектура: [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) от Tongyi-MAI. |
| |
|
| | ## 🙏 Благодарности |
| |
|
| | - [Tongyi-MAI](https://github.com/Tongyi-MAI) — архитектура S3-DiT и базовая модель Z-Image |
| | - [Hugging Face Diffusers](https://github.com/huggingface/diffusers) — инфраструктура и инференс |
| |
|
| | --- |
| |
|
| | <div align="center"> |
| | <h3>☀️ Built by Helios</h3> |
| | <p>4× RTX PRO 6000 • 110K images • S3-DiT 6B • Preview</p> |
| | <p><b><i>Helio-Image-Preview — это только начало. Следите за обновлениями!</i></b></p> |
| | </div> |
| |
|