HelioAI commited on
Commit
51fda59
·
verified ·
1 Parent(s): b22e15b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +163 -3
README.md CHANGED
@@ -1,3 +1,163 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - ru
5
+ - en
6
+ pipeline_tag: text-to-image
7
+ library_name: diffusers
8
+ tags:
9
+ - text-to-image
10
+ - diffusion
11
+ - russian
12
+ - fine-tuned
13
+ - preview
14
+ base_model: Tongyi-MAI/Z-Image
15
+ ---
16
+
17
+ <h1 align="center">🌞 Helio-Image-Preview<br><sub><sup>Русскоязычная модель генерации изображений — предварительная версия</sup></sub></h1>
18
+
19
+ <div align="center">
20
+
21
+ **Helio-Image-Preview** — первый публичный выпуск семейства Helio-Image.
22
+ Это предварительная версия модели, демонстрирующая возможности архитектуры перед полноценным релизом.
23
+
24
+ </div>
25
+
26
+ ---
27
+
28
+ ## � О проекте
29
+
30
+ **Helio-Image** — семейство моделей генерации изображений на базе архитектуры S3-DiT (~6B параметров), ориентированное на качественную работу с русским языком: генерация надписей на кириллице, понимание русскоязычных описаний сцен и стилей.
31
+
32
+ **Preview-версия** — это ранний доступ к модели, который показывает текущее направление разработки и уже сейчас демонстрирует впечатляющие результаты на широком спектре задач.
33
+
34
+ ### 🔮 Что впереди
35
+
36
+ Полноценная модель **Helio-Image** находится в активной разработке и будет обучена на **500–800K изображений** с расширенным покрытием стилей, жанров и сценариев. Preview-версия обучена на ~110K изображений за одну эпоху и уже покрывает большинство популярных направлений генерации — от фотореализма до аниме, от игровых сцен до киберпанка.
37
+
38
+ ## ✨ Возможности Preview-версии
39
+
40
+ - **Русский текст в изображениях** — генерация надписей, вывесок, логотипов на кириллице
41
+ - **Широкий спектр стилей** — фотореализм, аниме, пиксельарт, киберпанк, фэнтези, Minecraft и многое другое
42
+ - **Эталонное разрешение** — 1024×1024 (1:1), оптимизировано под квадратный формат
43
+ - **Полная совместимость** — работает через `diffusers`, поддерживает CFG, negative prompts
44
+ - **Готова к использованию** — скачал, загрузил, генерируй
45
+
46
+ ### ⚡ Preview vs Полная версия
47
+
48
+ | | Helio-Image-Preview | Helio-Image (в разработке) |
49
+ |---|---|---|
50
+ | Датасет | ~110K изображений | 500–800K изображений |
51
+ | Эпохи обучения | 1 | Несколько |
52
+ | Покрытие стилей | Основные направления | Полное покрытие |
53
+ | Разрешение | 1024×1024 (1:1) | Мульти-разрешение |
54
+ | Качество русского текста | Хорошее | Улучшенное |
55
+ | Статус | ✅ Доступна | 🔧 В разработке |
56
+
57
+ > 💡 **Примечание:** Preview-версия может иногда давать неожиданные результаты в редких стилях или сложных композициях — это нормально для ранней версии с одной эпохой обучения. На популярных запросах (портреты, пейзажи, игровые сцены, аниме, текст) модель работает стабильно и выдаёт качественные результаты.
58
+
59
+ ## 🚀 Быстрый старт
60
+
61
+ ### Установка
62
+
63
+ ```bash
64
+ pip install git+https://github.com/huggingface/diffusers
65
+ pip install torch transformers accelerate safetensors
66
+ ```
67
+
68
+ ### Использование
69
+
70
+ ```python
71
+ import torch
72
+ from diffusers import ZImagePipeline
73
+
74
+ # Загрузка модели
75
+ pipe = ZImagePipeline.from_pretrained(
76
+ "./Helio-Image-Preview", # или путь к скачанной модели
77
+ torch_dtype=torch.bfloat16,
78
+ )
79
+ pipe.to("cuda")
80
+
81
+ # Генерация изображения
82
+ image = pipe(
83
+ prompt="Красивый закат над Москвой с надписью РОССИЯ",
84
+ negative_prompt="",
85
+ height=1024,
86
+ width=1024,
87
+ num_inference_steps=50,
88
+ guidance_scale=7.5,
89
+ generator=torch.Generator("cuda").manual_seed(42),
90
+ ).images[0]
91
+
92
+ image.save("result.png")
93
+ ```
94
+
95
+ ### Рекомендуемые параметры
96
+
97
+ | Параметр | Рекомендация |
98
+ |---|---|
99
+ | Разрешение | **1024×1024** (1:1, эталонное) |
100
+ | Guidance Scale | 7.5 — 9.0 |
101
+ | Inference Steps | 50 — 100 (больше = качественнее) |
102
+ | Precision | `torch.bfloat16` |
103
+
104
+ ## 📝 Примеры промптов
105
+
106
+ ```
107
+ Котёнок играет с клубком ниток на ковре
108
+ Киберпанк город будущего с неоновыми вывесками на русском
109
+ Minecraft деревня с табличкой ДОБРО ПОЖАЛОВАТЬ
110
+ Логотип с надписью ГЕЛИОС золотыми буквами на чёрном фоне
111
+ Космонавт на Луне с флагом и надписью КОСМОС
112
+ Фэнтези замок на вершине горы в тумане
113
+ Star Wars штурмовики маршируют с надписью ИМПЕРИЯ
114
+ Аниме школьница с зонтиком под дождём в Токио
115
+ Деревенский дом зимой с дымом из трубы
116
+ Портрет девушки в русском народном костюме
117
+ ```
118
+
119
+ ## 📊 Детали обучения
120
+
121
+ | Параметр | Значение |
122
+ |---|---|
123
+ | Базовая модель | Z-Image S3-DiT (~6B параметров) |
124
+ | Датасет | ~110K изображений 1024×1024 |
125
+ | GPU | 4× RTX PRO 6000 96GB |
126
+ | DeepSpeed | ZeRO-2 |
127
+ | Precision | bf16 + TF32 |
128
+ | Optimizer | 8-bit AdamW |
129
+ | Learning Rate | 1e-5 (cosine decay) |
130
+ | Effective Batch | 128 (16 × 4 GPU × 2 accum) |
131
+ | Эпохи | 1 |
132
+
133
+ ## 🏗️ Структура модели
134
+
135
+ ```
136
+ Helio-Image-Preview/
137
+ ├── transformer/ # Файнтюнутый S3-DiT трансформер (~6B)
138
+ │ ├── config.json
139
+ │ └── diffusion_pytorch_model.safetensors
140
+ ├── vae/ # VAE декодер
141
+ ├── text_encoder/ # Текстовый энкодер
142
+ ├── tokenizer/ # Токенизатор
143
+ ├── scheduler/ # Scheduler
144
+ ├── model_index.json # Конфигурация пайплайна
145
+ └── README.md
146
+ ```
147
+
148
+ ## 📜 Лицензия
149
+
150
+ Apache 2.0. Базовая архитектура: [Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image) от Tongyi-MAI.
151
+
152
+ ## 🙏 Благодарности
153
+
154
+ - [Tongyi-MAI](https://github.com/Tongyi-MAI) — архитектура S3-DiT и базовая модель Z-Image
155
+ - [Hugging Face Diffusers](https://github.com/huggingface/diffusers) — инфраструктура и инференс
156
+
157
+ ---
158
+
159
+ <div align="center">
160
+
161
+ *Helio-Image-Preview — это только начало. Следите за обновлениями!* ☀️
162
+
163
+ </div>