Update README.md

2792eea verified 1 day ago

7.87 kB

	---
	license: apache-2.0
	language:
	- ru
	- en
	pipeline_tag: text-to-image
	library_name: diffusers
	tags:
	- text-to-image
	- diffusion
	- russian
	- fine-tuned
	- preview
	base_model: Tongyi-MAI/Z-Image
	---

	<h1 align="center">🌞 Helio-Image-Preview<br><sub><sup>Русскоязычная модель генерации изображений — предварительная версия</sup></sub></h1>

	<div align="center">

	<img src="https://huggingface.co/HelioAI/Helio-Image-Preview/resolve/main/teaser.png" alt="Helio-Image-Preview Examples" width="800">

	Helio-Image-Preview — первый публичный выпуск семейства Helio-Image.
	Это предварительная версия модели, демонстрирующая возможности архитектуры перед полноценным релизом.

	</div>

	---

	## � О проекте

	Helio-Image — семейство моделей генерации изображений на базе архитектуры S3-DiT (~6B параметров), ориентированное на качественную работу с русским языком: генерация надписей на кириллице, понимание русскоязычных описаний сцен и стилей.

	Preview-версия — это ранний доступ к модели, который показывает текущее направление разработки и уже сейчас демонстрирует впечатляющие результаты на широком спектре задач.

	### 🔮 Что впереди

	Полноценная модель Helio-Image находится в активной разработке и будет обучена на 500–800K изображений с расширенным покрытием стилей, жанров и сценариев. Preview-версия обучена на ~110K изображений за одну эпоху и уже покрывает большинство популярных направлений генерации — от фотореализма до аниме, от игровых сцен до киберпанка.

	## ✨ Возможности Preview-версии

	- Русский текст в изображениях — генерация надписей, вывесок, логотипов на кириллице
	- Широкий спектр стилей — фотореализм, аниме, пиксельарт, киберпанк, фэнтези, Minecraft и многое другое
	- Эталонное разрешение — 1024×1024 (1:1), оптимизировано под квадратный формат
	- Полная совместимость — работает через `diffusers`, поддерживает CFG, negative prompts
	- Готова к использованию — скачал, загрузил, генерируй

	### ⚡ Preview vs Полная версия

	\| \| Helio-Image-Preview \| Helio-Image (в разработке) \|
	\|---\|---\|---\|
	\| Датасет \| ~110K изображений \| 500–800K изображений \|
	\| Эпохи обучения \| 1 \| Несколько \|
	\| Покрытие стилей \| Основные направления \| Полное покрытие \|
	\| Разрешение \| 1024×1024 (1:1) \| Мульти-разрешение \|
	\| Качество русского текста \| Хорошее \| Улучшенное \|
	\| Статус \| ✅ Доступна \| 🔧 В разработке \|

	> 💡 Примечание: Preview-версия может иногда давать неожиданные результаты в редких стилях или сложных композициях — это нормально для ранней версии с одной эпохой обучения. На популярных запросах (портреты, пейзажи, игровые сцены, аниме, текст) модель работает стабильно и выдаёт качественные результаты.

	## 🚀 Быстрый старт

	### Установка

	```bash
	pip install git+https://github.com/huggingface/diffusers
	pip install torch transformers accelerate safetensors
	```

	### Использование

	```python
	import torch
	from diffusers import ZImagePipeline

	# Загрузка модели
	pipe = ZImagePipeline.from_pretrained(
	"./Helio-Image-Preview", # или путь к скачанной модели
	torch_dtype=torch.bfloat16,
	)
	pipe.to("cuda")

	# Генерация изображения
	image = pipe(
	prompt="Красивый закат над Москвой с надписью РОССИЯ",
	negative_prompt="",
	height=1024,
	width=1024,
	num_inference_steps=50,
	guidance_scale=7.5,
	generator=torch.Generator("cuda").manual_seed(42),
	).images[0]

	image.save("result.png")
	```

	### Рекомендуемые параметры

	\| Параметр \| Рекомендация \|
	\|---\|---\|
	\| Разрешение \| 1024×1024 (1:1, эталонное) \|
	\| Guidance Scale \| 7.5 — 9.0 \|
	\| Inference Steps \| 50 — 100 (больше = качественнее) \|
	\| Precision \| `torch.bfloat16` \|

	## 📝 Примеры промптов

	```
	Котёнок играет с клубком ниток на ковре
	Киберпанк город будущего с неоновыми вывесками на русском
	Minecraft деревня с табличкой ДОБРО ПОЖАЛОВАТЬ
	Логотип с надписью ГЕЛИОС золотыми буквами на чёрном фоне
	Космонавт на Луне с флагом и надписью КОСМОС
	Фэнтези замок на вершине горы в тумане
	Star Wars штурмовики маршируют с надписью ИМПЕРИЯ
	Аниме школьница с зонтиком под дождём в Токио
	Деревенский дом зимой с дымом из трубы
	Портрет девушки в русском народном костюме
	```

	## 📊 Детали обучения

	\| Параметр \| Значение \|
	\|---\|---\|
	\| Базовая модель \| Z-Image S3-DiT (~6B параметров) \|
	\| Датасет \| ~110K изображений 1024×1024 \|
	\| GPU \| 4× RTX PRO 6000 96GB \|
	\| DeepSpeed \| ZeRO-2 \|
	\| Precision \| bf16 + TF32 \|
	\| Optimizer \| 8-bit AdamW \|
	\| Learning Rate \| 1e-5 (cosine decay) \|
	\| Effective Batch \| 128 (16 × 4 GPU × 2 accum) \|
	\| Эпохи \| 1 \|

	## 🏗️ Структура модели

	```
	Helio-Image-Preview/
	├── transformer/ # Файнтюнутый S3-DiT трансформер (~6B)
	│ ├── config.json
	│ └── diffusion_pytorch_model.safetensors
	├── vae/ # VAE декодер
	├── text_encoder/ # Текстовый энкодер
	├── tokenizer/ # Токенизатор
	├── scheduler/ # Scheduler
	├── model_index.json # Конфигурация пайплайна
	└── README.md
	```

	## 📜 Лицензия

	Apache 2.0. Базовая архитектура: [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) от Tongyi-MAI.

	## 🙏 Благодарности

	- [Tongyi-MAI](https://github.com/Tongyi-MAI) — архитектура S3-DiT и базовая модель Z-Image
	- [Hugging Face Diffusers](https://github.com/huggingface/diffusers) — инфраструктура и инференс

	---

	<div align="center">

	Helio-Image-Preview — это только начало. Следите за обновлениями! ☀️

	</div>