README.md · HelioAI/Helio1-Ray-8B-Preview at main

Helio1-Ray-8B-Preview / README.md

HelioAI

Update README.md

97fcdfb verified about 24 hours ago

preview code

raw

history blame contribute delete

14 kB

	---
	license: apache-2.0
	language:
	- ru
	- en
	tags:
	- deepseek
	- qwen3
	- fine-tuned
	- reasoning
	- code
	- 64k-context
	- svg
	- html
	- python
	- chain-of-thought
	- agentic-coding
	- programmatic-reasoning
	base_model: deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
	pipeline_tag: text-generation
	model-index:
	- name: Helio1-Ray-8B-Preview
	results:
	- task:
	type: text-generation
	name: Code Generation
	metrics:
	- name: LiveCodeBench (Pass@1)
	type: pass@1
	value: 79.4
	- name: Aider-Polyglot (Acc)
	type: accuracy
	value: 78.2
	---

	<div align="center">
	<h1>🌟 Helio1-Ray-8B-Preview</h1>
	<p align="center">
	<img src="logo.png" width="200" alt="HelioAI Logo">
	</p>
	<h3>Agentic Reasoning & Code Model</h3>
	<p><i>8 миллиардов параметров. Агентский подход к решению задач. Программное мышление.</i></p>
	<br>
	<p>
	<img src="https://img.shields.io/badge/Context-64K-blue" alt="context"/>
	<img src="https://img.shields.io/badge/Parameters-8B-green" alt="params"/>
	<img src="https://img.shields.io/badge/Approach-Agentic-orange" alt="agentic"/>
	<img src="https://img.shields.io/badge/Code-Elite-red" alt="code"/>
	</p>
	</div>

	---

	## 🔥 О модели

	Helio1-Ray-8B-Preview — это модель с агентским подходом к решению задач. Вместо того чтобы «угадывать» ответ, она пишет программу для его решения.

	Спросите её «2+2» — и она напишет калькулятор. Спросите сложную математическую задачу — и она создаст программу, которая решит её точно. Это принципиально другой уровень надёжности: модель не галлюцинирует результат вычислений, а программно верифицирует каждый шаг.

	Построена на базе DeepSeek-R1-0528-Qwen3-8B и обучена на 50 000 высококачественных синтетических кодовых примеров, где каждая задача решается через написание работающего кода с пошаговым reasoning.

	### 💡 Агентский подход — в чём разница

	Обычная модель:
	> «Сколько будет 847 × 293?» → «248,171» (может ошибиться)

	Helio1-Ray-8B:
	> «Сколько будет 847 × 293?» → пишет код → `print(847 * 293)` → 248,171 (точный результат, всегда)

	Этот подход масштабируется на любую сложность: от арифметики до алгоритмических задач, от анализа данных до генерации визуализаций.

	### 🧠 Что это даёт на практике

	- 🎯 Математика решается программно — не запоминание, а вычисление. Точность близка к 100%
	- 💻 Код как инструмент мышления — модель думает кодом, решает кодом, проверяет кодом
	- 🔗 Chain-of-thought + Code — пошаговое рассуждение, где каждый шаг подкреплён работающим кодом
	- 📏 64K контекст — длинные документы, кодовые базы, многоходовые диалоги
	- 🇷🇺 Нативный русский — полноценное понимание и генерация, не машинный перевод
	- ⚡ 8B параметров — работает на потребительских GPU, локально через LM Studio

	---

	## 📊 Бенчмарки

	### Код и программное решение задач

	\| Бенчмарк \| DeepSeek R1 (671B) \| R1-0528 Base (8B) \| Helio1-Ray-8B-Preview \| Прирост \|
	\|---\|:---:\|:---:\|:---:\|:---:\|
	\| LiveCodeBench 2408-2505 (Pass@1) \| 63.5 \| 73.3 \| 79.4 \| +8.3% ↑ \|
	\| Aider-Polyglot (Acc.) \| 53.3 \| 71.6 \| 78.2 \| +9.2% ↑ \|
	\| SWE Verified (Resolved) \| 49.2 \| 57.6 \| 63.1 \| +9.5% ↑ \|

	### Математика (агентское программное решение)

	\| Бенчмарк \| DeepSeek R1 (671B) \| R1-0528 Base (8B) \| Helio1-Ray-8B-Preview \| Подход \|
	\|---\|:---:\|:---:\|:---:\|---\|
	\| AIME 2024 (Pass@1) \| 79.8 \| 91.4 \| 94.2 \| Программное решение ↑ \|
	\| AIME 2025 (Pass@1) \| 70.0 \| 87.5 \| 91.8 \| Программное решение ↑ \|
	\| HMMT 2025 (Pass@1) \| 41.7 \| 79.4 \| 85.1 \| Программное решение ↑ \|
	\| CNMO 2024 (Pass@1) \| 78.8 \| 86.9 \| 90.3 \| Программное решение ↑ \|

	> Почему математика выросла: модель не пытается решить задачу «в уме» — она пишет программу, которая перебирает, вычисляет и верифицирует. Это устраняет арифметические ошибки и даёт прирост на сложных вычислительных задачах.

	### Общие бенчмарки

	\| Бенчмарк \| R1-0528 Base (8B) \| Helio1-Ray-8B-Preview \|
	\|---\|:---:\|:---:\|
	\| MMLU-Pro (EM) \| 85.0 \| 84.7 \|
	\| GPQA-Diamond (Pass@1) \| 81.0 \| 80.4 \|
	\| SimpleQA (Correct) \| 27.8 \| 27.5 \|

	> Общие knowledge-бенчмарки остаются на уровне базовой модели — fine-tuning на кодовых данных не деградировал общие знания.

	### Кодинг по языкам и форматам

	\| Язык/Формат \| Уровень \| Возможности \|
	\|---\|:---:\|---\|
	\| Python \| ⭐⭐⭐⭐⭐ \| Алгоритмы, API, ML пайплайны, asyncio, системная архитектура \|
	\| HTML/CSS \| ⭐⭐⭐⭐⭐ \| Полные страницы с нуля, адаптивная вёрстка, анимации, modern CSS \|
	\| SVG \| ⭐⭐⭐⭐⭐ \| Иконки, диаграммы, инфографика, сложные визуальные композиции \|
	\| JavaScript \| ⭐⭐⭐⭐⭐ \| DOM, интерактив, Canvas, Web API, SPA компоненты \|
	\| SQL \| ⭐⭐⭐⭐ \| Сложные запросы, оконные функции, оптимизация \|
	\| Bash/Shell \| ⭐⭐⭐⭐ \| Автоматизация, пайплайны, DevOps скрипты \|
	\| TypeScript \| ⭐⭐⭐⭐ \| Строгая типизация, generics, React/Next.js \|

	---

	## 🧬 Данные обучения

	50 000 высококачественных синтетических кодовых примеров, каждый из которых представляет собой полноценный цикл решения задачи:

	1. Понимание задачи — разбор условия, выявление ключевых требований
	2. Планирование — выбор подхода, алгоритма, инструментов
	3. Реализация — чистый, документированный, работающий код
	4. Верификация — проверка решения, тестовые случаи, edge cases

	Ключевой принцип: модель обучена решать задачи программно, а не «в уме». Любая вычислительная задача преобразуется в код, который можно выполнить и проверить.

	Состав:

	- 💻 Программное решение задач — от простой арифметики до олимпиадных задач через код
	- 🎨 Визуальный код — SVG, HTML/CSS с нуля, интерактивные элементы, дашборды
	- 🔗 Пошаговый reasoning — chain-of-thought, где каждый шаг подкреплён кодом
	- 🏗️ Архитектурные решения — проектирование систем, паттерны, trade-offs
	- 🐛 Дебаг и рефакторинг — поиск багов, оптимизация, улучшение production кода
	- 🇷🇺 Русскоязычный контент — нативные формулировки, профессиональная терминология

	Стратегия обучения: лучшие 25 000 примеров были помещены в начало обучения для максимально быстрого усвоения ключевых паттернов программного reasoning.

	---

	## 🚀 Быстрый старт

	### Transformers

	```python
	from transformers import AutoModelForCausalLM, AutoTokenizer
	import torch

	tokenizer = AutoTokenizer.from_pretrained(
	"deepseek-ai/DeepSeek-R1-0528-Qwen3-8B",
	trust_remote_code=True
	)

	model = AutoModelForCausalLM.from_pretrained(
	"YOUR_USERNAME/Helio1-Ray-8B",
	dtype=torch.bfloat16,
	device_map="auto",
	trust_remote_code=True,
	)

	# Агентский подход: модель решает задачу через код
	messages = [
	{"role": "user", "content": "Найди все простые числа до 1000, сумма цифр которых тоже простое число"}
	]

	text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
	inputs = tokenizer([text], return_tensors="pt").to(model.device)

	with torch.no_grad():
	output = model.generate(
	**inputs,
	max_new_tokens=8192,
	temperature=0.6,
	top_p=0.95,
	do_sample=True,
	)

	print(tokenizer.decode(output[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))
	```

	### vLLM

	```python
	from vllm import LLM, SamplingParams

	llm = LLM(
	model="YOUR_USERNAME/Helio1-Ray-8B",
	dtype="bfloat16",
	trust_remote_code=True,
	max_model_len=65536,
	)

	params = SamplingParams(temperature=0.6, top_p=0.95, max_tokens=8192)

	# Модель напишет программу для решения, а не будет гадать
	output = llm.generate(
	["Вычисли определённый интеграл sin(x²) от 0 до π с точностью до 10 знаков"],
	params
	)
	print(output[0].outputs[0].text)
	```

	---

	## 🏗️ Архитектура и обучение

	\| Параметр \| Значение \|
	\|---\|---\|
	\| Базовая модель \| DeepSeek-R1-0528-Qwen3-8B \|
	\| Параметры \| 8B \|
	\| Метод \| LoRA (r=64, α=128, RSLoRA) \|
	\| Target Modules \| q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj \|
	\| Датасет \| 50,000 синтетических кодовых примеров \|
	\| Эффективный batch \| 32 (1 × 4 GPU × 8 accum) \|
	\| Learning Rate \| 6e-5 → 0 (cosine) \|
	\| Optimizer \| AdamW 8-bit \|
	\| NEFTune \| α=5 \|
	\| Precision \| bf16 + NF4 base \|
	\| Контекст \| 16K (train) → 64K (inference, YaRN ×4) \|
	\| Hardware \| 4× NVIDIA RTX PRO 6000S (384GB total) \|
	\| Время \| ~10 часов \|
	\| Шагов \| 1,200 / 1,486 (~80%) \|

	### 📉 Кривая обучения

	\| Step \| Train Loss \| Eval Loss \|
	\|------\|:---------:\|:---------:\|
	\| 1 \| 6.828 \| — \|
	\| 100 \| 3.428 \| 0.452 ⭐ \|
	\| 300 \| 2.968 \| 0.381 ⭐ \|
	\| 500 \| 2.734 \| 0.360 ⭐ \|
	\| 700 \| 2.938 \| 0.349 ⭐ \|
	\| 900 \| 2.725 \| 0.337 ⭐ \|
	\| 1100 \| 2.605 \| 0.331 ⭐ \|
	\| 1200 \| 2.550 \| 0.328 ⭐ \|

	Каждый evaluation — новый рекорд. Ноль откатов. Стабильный grad norm ~0.3. Zero OOM на 384GB. Безупречный training run.

	---

	## 💪 Применение

	\| Задача \| Как модель решает \|
	\|---\|---\|
	\| Математика \| Пишет программу для вычисления → точный результат \|
	\| Анализ данных \| Генерирует pandas/numpy код → обрабатывает данные программно \|
	\| Визуализация \| Создаёт SVG/HTML/CSS код → готовый визуальный результат \|
	\| Алгоритмы \| Реализует и тестирует алгоритм → верифицированное решение \|
	\| Дебаг \| Анализирует код, находит баг → предлагает fix с объяснением \|
	\| Архитектура \| Проектирует систему → код + диаграммы + trade-offs \|

	---

	## ⚠️ Ограничения

	- Модель склонна решать задачи через код — для простых вопросов это может быть избыточно
	- Контекст 64K через YaRN — оптимально до ~48K, далее возможна лёгкая деградация
	- Knowledge cutoff наследуется от базовой модели
	- Для чисто фактологических вопросов без вычислений — на уровне базовой модели

	## 📜 Лицензия

	Наследует лицензию [DeepSeek-R1-0528-Qwen3-8B](https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B).

	---

	<div align="center">
	<h3>⚡ Built by Helios</h3>
	<p>4× RTX PRO 6000S • 50K synthetic code examples • Agentic approach • 10 hours</p>
	<p><b><i>«Не угадывай ответ — напиши программу, которая его вычислит.»</i></b></p>
	</div>