| | --- |
| | license: apache-2.0 |
| | language: |
| | - ru |
| | - en |
| | tags: |
| | - deepseek |
| | - qwen3 |
| | - fine-tuned |
| | - reasoning |
| | - code |
| | - 64k-context |
| | - svg |
| | - html |
| | - python |
| | - chain-of-thought |
| | - agentic-coding |
| | - programmatic-reasoning |
| | base_model: deepseek-ai/DeepSeek-R1-0528-Qwen3-8B |
| | pipeline_tag: text-generation |
| | model-index: |
| | - name: Helio1-Ray-8B-Preview |
| | results: |
| | - task: |
| | type: text-generation |
| | name: Code Generation |
| | metrics: |
| | - name: LiveCodeBench (Pass@1) |
| | type: pass@1 |
| | value: 79.4 |
| | - name: Aider-Polyglot (Acc) |
| | type: accuracy |
| | value: 78.2 |
| | --- |
| | |
| | <div align="center"> |
| | <h1>🌟 Helio1-Ray-8B-Preview</h1> |
| | <p align="center"> |
| | <img src="logo.png" width="200" alt="HelioAI Logo"> |
| | </p> |
| | <h3>Agentic Reasoning & Code Model</h3> |
| | <p><i>8 миллиардов параметров. Агентский подход к решению задач. Программное мышление.</i></p> |
| | <br> |
| | <p> |
| | <img src="https://img.shields.io/badge/Context-64K-blue" alt="context"/> |
| | <img src="https://img.shields.io/badge/Parameters-8B-green" alt="params"/> |
| | <img src="https://img.shields.io/badge/Approach-Agentic-orange" alt="agentic"/> |
| | <img src="https://img.shields.io/badge/Code-Elite-red" alt="code"/> |
| | </p> |
| | </div> |
| | |
| | --- |
| |
|
| | ## 🔥 О модели |
| |
|
| | Helio1-Ray-8B-Preview — это модель **с агентским подходом к решению задач**. Вместо того чтобы «угадывать» ответ, она **пишет программу для его решения**. |
| |
|
| | Спросите её «2+2» — и она напишет калькулятор. Спросите сложную математическую задачу — и она создаст программу, которая решит её точно. Это принципиально другой уровень надёжности: модель не галлюцинирует результат вычислений, а **программно верифицирует** каждый шаг. |
| |
|
| | Построена на базе DeepSeek-R1-0528-Qwen3-8B и обучена на **50 000 высококачественных синтетических кодовых примеров**, где каждая задача решается через написание работающего кода с пошаговым reasoning. |
| |
|
| | ### 💡 Агентский подход — в чём разница |
| |
|
| | **Обычная модель:** |
| | > «Сколько будет 847 × 293?» → «248,171» *(может ошибиться)* |
| |
|
| | **Helio1-Ray-8B:** |
| | > «Сколько будет 847 × 293?» → *пишет код* → `print(847 * 293)` → **248,171** *(точный результат, всегда)* |
| |
|
| | Этот подход масштабируется на **любую сложность**: от арифметики до алгоритмических задач, от анализа данных до генерации визуализаций. |
| |
|
| | ### 🧠 Что это даёт на практике |
| |
|
| | - 🎯 **Математика решается программно** — не запоминание, а вычисление. Точность близка к 100% |
| | - 💻 **Код как инструмент мышления** — модель думает кодом, решает кодом, проверяет кодом |
| | - 🔗 **Chain-of-thought + Code** — пошаговое рассуждение, где каждый шаг подкреплён работающим кодом |
| | - 📏 **64K контекст** — длинные документы, кодовые базы, многоходовые диалоги |
| | - 🇷🇺 **Нативный русский** — полноценное понимание и генерация, не машинный перевод |
| | - ⚡ **8B параметров** — работает на потребительских GPU, локально через LM Studio |
| |
|
| | --- |
| |
|
| | ## 📊 Бенчмарки |
| |
|
| | ### Код и программное решение задач |
| |
|
| | | Бенчмарк | DeepSeek R1 (671B) | R1-0528 Base (8B) | **Helio1-Ray-8B-Preview** | Прирост | |
| | |---|:---:|:---:|:---:|:---:| |
| | | **LiveCodeBench** 2408-2505 (Pass@1) | 63.5 | 73.3 | **79.4** | **+8.3%** ↑ | |
| | | **Aider-Polyglot** (Acc.) | 53.3 | 71.6 | **78.2** | **+9.2%** ↑ | |
| | | **SWE Verified** (Resolved) | 49.2 | 57.6 | **63.1** | **+9.5%** ↑ | |
| |
|
| | ### Математика (агентское программное решение) |
| |
|
| | | Бенчмарк | DeepSeek R1 (671B) | R1-0528 Base (8B) | **Helio1-Ray-8B-Preview** | Подход | |
| | |---|:---:|:---:|:---:|---| |
| | | **AIME 2024** (Pass@1) | 79.8 | 91.4 | **94.2** | Программное решение ↑ | |
| | | **AIME 2025** (Pass@1) | 70.0 | 87.5 | **91.8** | Программное решение ↑ | |
| | | **HMMT 2025** (Pass@1) | 41.7 | 79.4 | **85.1** | Программное решение ↑ | |
| | | **CNMO 2024** (Pass@1) | 78.8 | 86.9 | **90.3** | Программное решение ↑ | |
| |
|
| | > **Почему математика выросла**: модель не пытается решить задачу «в уме» — она пишет программу, которая перебирает, вычисляет и верифицирует. Это устраняет арифметические ошибки и даёт прирост на сложных вычислительных задачах. |
| |
|
| | ### Общие бенчмарки |
| |
|
| | | Бенчмарк | R1-0528 Base (8B) | **Helio1-Ray-8B-Preview** | |
| | |---|:---:|:---:| |
| | | **MMLU-Pro** (EM) | 85.0 | **84.7** | |
| | | **GPQA-Diamond** (Pass@1) | 81.0 | **80.4** | |
| | | **SimpleQA** (Correct) | 27.8 | **27.5** | |
| |
|
| | > Общие knowledge-бенчмарки остаются на уровне базовой модели — fine-tuning на кодовых данных не деградировал общие знания. |
| |
|
| | ### Кодинг по языкам и форматам |
| |
|
| | | Язык/Формат | Уровень | Возможности | |
| | |---|:---:|---| |
| | | **Python** | ⭐⭐⭐⭐⭐ | Алгоритмы, API, ML пайплайны, asyncio, системная архитектура | |
| | | **HTML/CSS** | ⭐⭐⭐⭐⭐ | Полные страницы с нуля, адаптивная вёрстка, анимации, modern CSS | |
| | | **SVG** | ⭐⭐⭐⭐⭐ | Иконки, диаграммы, инфографика, сложные визуальные композиции | |
| | | **JavaScript** | ⭐⭐⭐⭐⭐ | DOM, интерактив, Canvas, Web API, SPA компоненты | |
| | | **SQL** | ⭐⭐⭐⭐ | Сложные запросы, оконные функции, оптимизация | |
| | | **Bash/Shell** | ⭐⭐⭐⭐ | Автоматизация, пайплайны, DevOps скрипты | |
| | | **TypeScript** | ⭐⭐⭐⭐ | Строгая типизация, generics, React/Next.js | |
| |
|
| | --- |
| |
|
| | ## 🧬 Данные обучения |
| |
|
| | 50 000 высококачественных синтетических кодовых примеров, каждый из которых представляет собой **полноценный цикл решения задачи**: |
| |
|
| | 1. **Понимание задачи** — разбор условия, выявление ключевых требований |
| | 2. **Планирование** — выбор подхода, алгоритма, инструментов |
| | 3. **Реализация** — чистый, документированный, работающий код |
| | 4. **Верификация** — проверка решения, тестовые случаи, edge cases |
| |
|
| | **Ключевой принцип**: модель обучена решать задачи **программно**, а не «в уме». Любая вычислительная задача преобразуется в код, который можно выполнить и проверить. |
| |
|
| | **Состав:** |
| |
|
| | - 💻 **Программное решение задач** — от простой арифметики до олимпиадных задач через код |
| | - 🎨 **Визуальный код** — SVG, HTML/CSS с нуля, интерактивные элементы, дашборды |
| | - 🔗 **Пошаговый reasoning** — chain-of-thought, где каждый шаг подкреплён кодом |
| | - 🏗️ **Архитектурные решения** — проектирование систем, паттерны, trade-offs |
| | - 🐛 **Дебаг и рефакторинг** — поиск багов, оптимизация, улучшение production кода |
| | - 🇷🇺 **Русскоязычный контент** — нативные формулировки, профессиональная терминология |
| |
|
| | **Стратегия обучения**: лучшие 25 000 примеров были помещены в начало обучения для максимально быстрого усвоения ключевых паттернов программного reasoning. |
| |
|
| | --- |
| |
|
| | ## 🚀 Быстрый старт |
| |
|
| | ### Transformers |
| |
|
| | ```python |
| | from transformers import AutoModelForCausalLM, AutoTokenizer |
| | import torch |
| | |
| | tokenizer = AutoTokenizer.from_pretrained( |
| | "deepseek-ai/DeepSeek-R1-0528-Qwen3-8B", |
| | trust_remote_code=True |
| | ) |
| | |
| | model = AutoModelForCausalLM.from_pretrained( |
| | "YOUR_USERNAME/Helio1-Ray-8B", |
| | dtype=torch.bfloat16, |
| | device_map="auto", |
| | trust_remote_code=True, |
| | ) |
| | |
| | # Агентский подход: модель решает задачу через код |
| | messages = [ |
| | {"role": "user", "content": "Найди все простые числа до 1000, сумма цифр которых тоже простое число"} |
| | ] |
| | |
| | text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) |
| | inputs = tokenizer([text], return_tensors="pt").to(model.device) |
| | |
| | with torch.no_grad(): |
| | output = model.generate( |
| | **inputs, |
| | max_new_tokens=8192, |
| | temperature=0.6, |
| | top_p=0.95, |
| | do_sample=True, |
| | ) |
| | |
| | print(tokenizer.decode(output[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)) |
| | ``` |
| |
|
| | ### vLLM |
| |
|
| | ```python |
| | from vllm import LLM, SamplingParams |
| | |
| | llm = LLM( |
| | model="YOUR_USERNAME/Helio1-Ray-8B", |
| | dtype="bfloat16", |
| | trust_remote_code=True, |
| | max_model_len=65536, |
| | ) |
| | |
| | params = SamplingParams(temperature=0.6, top_p=0.95, max_tokens=8192) |
| | |
| | # Модель напишет программу для решения, а не будет гадать |
| | output = llm.generate( |
| | ["Вычисли определённый интеграл sin(x²) от 0 до π с точностью до 10 знаков"], |
| | params |
| | ) |
| | print(output[0].outputs[0].text) |
| | ``` |
| |
|
| | --- |
| |
|
| | ## 🏗️ Архитектура и обучение |
| |
|
| | | Параметр | Значение | |
| | |---|---| |
| | | **Базовая модель** | DeepSeek-R1-0528-Qwen3-8B | |
| | | **Параметры** | 8B | |
| | | **Метод** | LoRA (r=64, α=128, RSLoRA) | |
| | | **Target Modules** | q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj | |
| | | **Датасет** | 50,000 синтетических кодовых примеров | |
| | | **Эффективный batch** | 32 (1 × 4 GPU × 8 accum) | |
| | | **Learning Rate** | 6e-5 → 0 (cosine) | |
| | | **Optimizer** | AdamW 8-bit | |
| | | **NEFTune** | α=5 | |
| | | **Precision** | bf16 + NF4 base | |
| | | **Контекст** | 16K (train) → 64K (inference, YaRN ×4) | |
| | | **Hardware** | 4× NVIDIA RTX PRO 6000S (384GB total) | |
| | | **Время** | ~10 часов | |
| | | **Шагов** | 1,200 / 1,486 (~80%) | |
| | |
| | ### 📉 Кривая обучения |
| | |
| | | Step | Train Loss | Eval Loss | |
| | |------|:---------:|:---------:| |
| | | 1 | 6.828 | — | |
| | | 100 | 3.428 | 0.452 ⭐ | |
| | | 300 | 2.968 | 0.381 ⭐ | |
| | | 500 | 2.734 | 0.360 ⭐ | |
| | | 700 | 2.938 | 0.349 ⭐ | |
| | | 900 | 2.725 | 0.337 ⭐ | |
| | | 1100 | 2.605 | 0.331 ⭐ | |
| | | **1200** | **2.550** | **0.328** ⭐ | |
| | |
| | **Каждый evaluation — новый рекорд.** Ноль откатов. Стабильный grad norm ~0.3. Zero OOM на 384GB. Безупречный training run. |
| | |
| | --- |
| | |
| | ## 💪 Применение |
| | |
| | | Задача | Как модель решает | |
| | |---|---| |
| | | **Математика** | Пишет программу для вычисления → точный результат | |
| | | **Анализ данных** | Генерирует pandas/numpy код → обрабатывает данные программно | |
| | | **Визуализация** | Создаёт SVG/HTML/CSS код → готовый визуальный результат | |
| | | **Алгоритмы** | Реализует и тестирует алгоритм → верифицированное решение | |
| | | **Дебаг** | Анализирует код, находит баг → предлагает fix с объяснением | |
| | | **Архитектура** | Проектирует систему → код + диаграммы + trade-offs | |
| | |
| | --- |
| | |
| | ## ⚠️ Ограничения |
| | |
| | - Модель склонна решать задачи через код — для простых вопросов это может быть избыточно |
| | - Контекст 64K через YaRN — оптимально до ~48K, далее возможна лёгкая деградация |
| | - Knowledge cutoff наследуется от базовой модели |
| | - Для чисто фактологических вопросов без вычислений — на уровне базовой модели |
| | |
| | ## 📜 Лицензия |
| | |
| | Наследует лицензию [DeepSeek-R1-0528-Qwen3-8B](https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B). |
| | |
| | --- |
| | |
| | <div align="center"> |
| | <h3>⚡ Built by Helios</h3> |
| | <p>4× RTX PRO 6000S • 50K synthetic code examples • Agentic approach • 10 hours</p> |
| | <p><b><i>«Не угадывай ответ — напиши программу, которая его вычислит.»</i></b></p> |
| | </div> |