🌟 Helio1-Ray-8B
Agentic Reasoning & Code Model
8 миллиардов параметров. Агентский подход к решению задач. Программное мышление.
🔥 О модели
Helio1-Ray-8B — это модель с агентским подходом к решению задач. Вместо того чтобы «угадывать» ответ, она пишет программу для его решения.
Спросите её «2+2» — и она напишет калькулятор. Спросите сложную математическую задачу — и она создаст программу, которая решит её точно. Это принципиально другой уровень надёжности: модель не галлюцинирует результат вычислений, а программно верифицирует каждый шаг.
Построена на базе DeepSeek-R1-0528-Qwen3-8B и обучена на 50 000 высококачественных синтетических кодовых примеров, где каждая задача решается через написание работающего кода с пошаговым reasoning.
💡 Агентский подход — в чём разница
Обычная модель:
«Сколько будет 847 × 293?» → «248,171» (может ошибиться)
Helio1-Ray-8B:
«Сколько будет 847 × 293?» → пишет код →
print(847 * 293)→ 248,171 (точный результат, всегда)
Этот подход масштабируется на любую сложность: от арифметики до алгоритмических задач, от анализа данных до генерации визуализаций.
🧠 Что это даёт на практике
- 🎯 Математика решается программно — не запоминание, а вычисление. Точность близка к 100%
- 💻 Код как инструмент мышления — модель думает кодом, решает кодом, проверяет кодом
- 🔗 Chain-of-thought + Code — пошаговое рассуждение, где каждый шаг подкреплён работающим кодом
- 📏 64K контекст — длинные документы, кодовые базы, многоходовые диалоги
- 🇷🇺 Нативный русский — полноценное понимание и генерация, не машинный перевод
- ⚡ 8B параметров — работает на потребительских GPU, локально через LM Studio
📊 Бенчмарки
Код и программное решение задач
| Бенчмарк | DeepSeek R1 (671B) | R1-0528 Base (8B) | Helio1-Ray-8B | Прирост |
|---|---|---|---|---|
| LiveCodeBench 2408-2505 (Pass@1) | 63.5 | 73.3 | 79.4 | +8.3% ↑ |
| Aider-Polyglot (Acc.) | 53.3 | 71.6 | 78.2 | +9.2% ↑ |
| SWE Verified (Resolved) | 49.2 | 57.6 | 63.1 | +9.5% ↑ |
Математика (агентское программное решение)
| Бенчмарк | DeepSeek R1 (671B) | R1-0528 Base (8B) | Helio1-Ray-8B | Подход |
|---|---|---|---|---|
| AIME 2024 (Pass@1) | 79.8 | 91.4 | 94.2 | Программное решение ↑ |
| AIME 2025 (Pass@1) | 70.0 | 87.5 | 91.8 | Программное решение ↑ |
| HMMT 2025 (Pass@1) | 41.7 | 79.4 | 85.1 | Программное решение ↑ |
| CNMO 2024 (Pass@1) | 78.8 | 86.9 | 90.3 | Программное решение ↑ |
Почему математика выросла: модель не пытается решить задачу «в уме» — она пишет программу, которая перебирает, вычисляет и верифицирует. Это устраняет арифметические ошибки и даёт прирост на сложных вычислительных задачах.
Общие бенчмарки
| Бенчмарк | R1-0528 Base (8B) | Helio1-Ray-8B |
|---|---|---|
| MMLU-Pro (EM) | 85.0 | 84.7 |
| GPQA-Diamond (Pass@1) | 81.0 | 80.4 |
| SimpleQA (Correct) | 27.8 | 27.5 |
Общие knowledge-бенчмарки остаются на уровне базовой модели — fine-tuning на кодовых данных не деградировал общие знания.
Кодинг по языкам и форматам
| Язык/Формат | Уровень | Возможности |
|---|---|---|
| Python | ⭐⭐⭐⭐⭐ | Алгоритмы, API, ML пайплайны, asyncio, системная архитектура |
| HTML/CSS | ⭐⭐⭐⭐⭐ | Полные страницы с нуля, адаптивная вёрстка, анимации, modern CSS |
| SVG | ⭐⭐⭐⭐⭐ | Иконки, диаграммы, инфографика, сложные визуальные композиции |
| JavaScript | ⭐⭐⭐⭐⭐ | DOM, интерактив, Canvas, Web API, SPA компоненты |
| SQL | ⭐⭐⭐⭐ | Сложные запросы, оконные функции, оптимизация |
| Bash/Shell | ⭐⭐⭐⭐ | Автоматизация, пайплайны, DevOps скрипты |
| TypeScript | ⭐⭐⭐⭐ | Строгая типизация, generics, React/Next.js |
🧬 Данные обучения
50 000 высококачественных синтетических кодовых примеров, каждый из которых представляет собой полноценный цикл решения задачи:
- Понимание задачи — разбор условия, выявление ключевых требований
- Планирование — выбор подхода, алгоритма, инструментов
- Реализация — чистый, документированный, работающий код
- Верификация — проверка решения, тестовые случаи, edge cases
Ключевой принцип: модель обучена решать задачи программно, а не «в уме». Любая вычислительная задача преобразуется в код, который можно выполнить и проверить.
Состав:
- 💻 Программное решение задач — от простой арифметики до олимпиадных задач через код
- 🎨 Визуальный код — SVG, HTML/CSS с нуля, интерактивные элементы, дашборды
- 🔗 Пошаговый reasoning — chain-of-thought, где каждый шаг подкреплён кодом
- 🏗️ Архитектурные решения — проектирование систем, паттерны, trade-offs
- 🐛 Дебаг и рефакторинг — поиск багов, оптимизация, улучшение production кода
- 🇷🇺 Русскоязычный контент — нативные формулировки, профессиональная терминология
Стратегия обучения: лучшие 25 000 примеров были помещены в начало обучения для максимально быстрого усвоения ключевых паттернов программного reasoning.
🚀 Быстрый старт
Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
tokenizer = AutoTokenizer.from_pretrained(
"deepseek-ai/DeepSeek-R1-0528-Qwen3-8B",
trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
"YOUR_USERNAME/Helio1-Ray-8B",
dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True,
)
# Агентский подход: модель решает задачу через код
messages = [
{"role": "user", "content": "Найди все простые числа до 1000, сумма цифр которых тоже простое число"}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
**inputs,
max_new_tokens=8192,
temperature=0.6,
top_p=0.95,
do_sample=True,
)
print(tokenizer.decode(output[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))
vLLM
from vllm import LLM, SamplingParams
llm = LLM(
model="YOUR_USERNAME/Helio1-Ray-8B",
dtype="bfloat16",
trust_remote_code=True,
max_model_len=65536,
)
params = SamplingParams(temperature=0.6, top_p=0.95, max_tokens=8192)
# Модель напишет программу для решения, а не будет гадать
output = llm.generate(
["Вычисли определённый интеграл sin(x²) от 0 до π с точностью до 10 знаков"],
params
)
print(output[0].outputs[0].text)
🏗️ Архитектура и обучение
| Параметр | Значение |
|---|---|
| Базовая модель | DeepSeek-R1-0528-Qwen3-8B |
| Параметры | 8B |
| Метод | LoRA (r=64, α=128, RSLoRA) |
| Target Modules | q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj |
| Датасет | 50,000 синтетических кодовых примеров |
| Эффективный batch | 32 (1 × 4 GPU × 8 accum) |
| Learning Rate | 6e-5 → 0 (cosine) |
| Optimizer | AdamW 8-bit |
| NEFTune | α=5 |
| Precision | bf16 + NF4 base |
| Контекст | 16K (train) → 64K (inference, YaRN ×4) |
| Hardware | 4× NVIDIA RTX PRO 6000S (384GB total) |
| Время | ~10 часов |
| Шагов | 1,200 / 1,486 (~80%) |
📉 Кривая обучения
| Step | Train Loss | Eval Loss |
|---|---|---|
| 1 | 6.828 | — |
| 100 | 3.428 | 0.452 ⭐ |
| 300 | 2.968 | 0.381 ⭐ |
| 500 | 2.734 | 0.360 ⭐ |
| 700 | 2.938 | 0.349 ⭐ |
| 900 | 2.725 | 0.337 ⭐ |
| 1100 | 2.605 | 0.331 ⭐ |
| 1200 | 2.550 | 0.328 ⭐ |
Каждый evaluation — новый рекорд. Ноль откатов. Стабильный grad norm ~0.3. Zero OOM на 384GB. Безупречный training run.
💪 Применение
| Задача | Как модель решает |
|---|---|
| Математика | Пишет программу для вычисления → точный результат |
| Анализ данных | Генерирует pandas/numpy код → обрабатывает данные программно |
| Визуализация | Создаёт SVG/HTML/CSS код → готовый визуальный результат |
| Алгоритмы | Реализует и тестирует алгоритм → верифицированное решение |
| Дебаг | Анализирует код, находит баг → предлагает fix с объяснением |
| Архитектура | Проектирует систему → код + диаграммы + trade-offs |
⚠️ Ограничения
- Модель склонна решать задачи через код — для простых вопросов это может быть избыточно
- Контекст 64K через YaRN — оптимально до ~48K, далее возможна лёгкая деградация
- Knowledge cutoff наследуется от базовой модели
- Для чисто фактологических вопросов без вычислений — на уровне базовой модели
📜 Лицензия
Наследует лицензию DeepSeek-R1-0528-Qwen3-8B.
⚡ Built by Helios
4× RTX PRO 6000S • 50K synthetic code examples • Agentic approach • 10 hours
«Не угадывай ответ — напиши программу, которая его вычислит.»
- Downloads last month
- 9
Model tree for HelioAI/Helio1-Ray-8B
Base model
deepseek-ai/DeepSeek-R1-0528-Qwen3-8BEvaluation results
- LiveCodeBench (Pass@1)self-reported79.400
- Aider-Polyglot (Acc)self-reported78.200