Instructions to use AugustLight/LLightPro with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use AugustLight/LLightPro with llama-cpp-python:

# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="AugustLight/LLightPro",
	filename="LLightPro-Q4_K_M.gguf",
)

llm.create_chat_completion(
	messages = "No input example has been defined for this model task."
)

Notebooks
Google Colab
Kaggle
Local Apps

llama.cpp

How to use AugustLight/LLightPro with llama.cpp:

Install from brew

brew install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf AugustLight/LLightPro:Q4_K_M
# Run inference directly in the terminal:
llama-cli -hf AugustLight/LLightPro:Q4_K_M

Install from WinGet (Windows)

winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf AugustLight/LLightPro:Q4_K_M
# Run inference directly in the terminal:
llama-cli -hf AugustLight/LLightPro:Q4_K_M

Use pre-built binary

# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf AugustLight/LLightPro:Q4_K_M
# Run inference directly in the terminal:
./llama-cli -hf AugustLight/LLightPro:Q4_K_M

Build from source code

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf AugustLight/LLightPro:Q4_K_M
# Run inference directly in the terminal:
./build/bin/llama-cli -hf AugustLight/LLightPro:Q4_K_M

Use Docker

docker model run hf.co/AugustLight/LLightPro:Q4_K_M

LM Studio
Jan
Ollama
How to use AugustLight/LLightPro with Ollama:
```
ollama run hf.co/AugustLight/LLightPro:Q4_K_M
```

Unsloth Studio new

How to use AugustLight/LLightPro with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for AugustLight/LLightPro to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for AugustLight/LLightPro to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for AugustLight/LLightPro to start chatting

Pi new

How to use AugustLight/LLightPro with Pi:

Start the llama.cpp server

# Install llama.cpp:
brew install llama.cpp
# Start a local OpenAI-compatible server:
llama-server -hf AugustLight/LLightPro:Q4_K_M

Configure the model in Pi

# Install Pi:
npm install -g @mariozechner/pi-coding-agent
# Add to ~/.pi/agent/models.json:
{
  "providers": {
    "llama-cpp": {
      "baseUrl": "http://localhost:8080/v1",
      "api": "openai-completions",
      "apiKey": "none",
      "models": [
        {
          "id": "AugustLight/LLightPro:Q4_K_M"
        }
      ]
    }
  }
}

Run Pi

# Start Pi in your project directory:
pi

Hermes Agent new

How to use AugustLight/LLightPro with Hermes Agent:

Start the llama.cpp server

# Install llama.cpp:
brew install llama.cpp
# Start a local OpenAI-compatible server:
llama-server -hf AugustLight/LLightPro:Q4_K_M

Configure Hermes

# Install Hermes:
curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash
hermes setup
# Point Hermes at the local server:
hermes config set model.provider custom
hermes config set model.base_url http://127.0.0.1:8080/v1
hermes config set model.default AugustLight/LLightPro:Q4_K_M

Run Hermes

hermes

Docker Model Runner
How to use AugustLight/LLightPro with Docker Model Runner:
```
docker model run hf.co/AugustLight/LLightPro:Q4_K_M
```

Lemonade

How to use AugustLight/LLightPro with Lemonade:

Pull the model

# Download Lemonade from https://lemonade-server.ai/
lemonade pull AugustLight/LLightPro:Q4_K_M

Run and chat with the model

lemonade run user.LLightPro-Q4_K_M

List all available models

lemonade list

AugustLight commited on Nov 21, 2025

Commit

ae3c83c

verified ·

1 Parent(s): 5ea2c48

Update README.md

Browse files

Files changed (1) hide show

README.md +245 -1

README.md CHANGED Viewed

@@ -7,4 +7,248 @@ language:
 - en
 base_model:
 - p-e-w/Qwen3-4B-Instruct-2507-heretic
----

 - en
 base_model:
 - p-e-w/Qwen3-4B-Instruct-2507-heretic
+---
+# 🧙‍♂️ LLightPro
+<div align="center">
+![Model](https://img.shields.io/badge/Model-LLightPro-blue?style=for-the-badge)
+![Method](https://img.shields.io/badge/Method-DoRA-orange?style=for-the-badge)
+![Precision](https://img.shields.io/badge/Precision-Native%20BF16-green?style=for-the-badge)
+![Language](https://img.shields.io/badge/Language-Russian-red?style=for-the-badge)
+### Компактная модель. Мощная логика.
+*Высококачественная дообучка экспериментальной модели для продвинутых рассуждений на русском языке*
+[🤗 Hugging Face](https://huggingface.co/your-username/model-name) • [📊 Dataset](https://huggingface.co/datasets/Vikhrmodels/GrandMaster2) • [🔧 Base Model](https://huggingface.co/p-e-w/Qwen3-4B-Instruct-2507-heretic)
+</div>
+---
+## 📖 О модели
+**LLightPro** — это специализированная дообучка экспериментальной базовой модели `p-e-w/Qwen3-4B-Instruct-2507-heretic`, оптимизированная для **русского языка** и сложных задач рассуждения, программирования и логических головоломок с использованием элитного датасета **GrandMaster2**.
+В отличие от стандартных LoRA-дообучек, эта модель использует технологию **DoRA** (Weight-Decomposed Low-Rank Adaptation), что позволяет ей изучать тонкие нюансы рассуждений без катастрофического забывания. Обучение проводилось в чистом **bfloat16** (без квантизации) на NVIDIA RTX 4090 для максимальной точности.
+---
+## ✨ Ключевые особенности
+| Особенность | Описание |
+|-------------|----------|
+| 🧠 **Продвинутая архитектура** | Построена на экспериментальной версии Qwen3 "Heretic" |
+| 🇷🇺 **Русский язык** | Дообучена для высококачественной работы с русским языком |
+| ⚡ **Технология DoRA** | Weight-Decomposed LoRA (r=64, alpha=128) для превосходной способности обучения |
+| 💎 **Безкомпромиссное качество** | Обучение в нативной точности bfloat16 без квантизации |
+| 📚 **Элитные данные** | Дообучка на оптимизированной версии Vikhrmodels/GrandMaster2 |
+| 🎯 **Точная настройка** | Низкая скорость обучения с косинусным планировщиком для предотвращения переобучения |
+---
+## 🎯 Основные применения
+- 💬 **Диалоговые системы** на русском языке
+- 🧩 **Логические задачи** и головоломки
+- 💻 **Генерация кода** с комментариями на русском
+- 🎭 **Ролевые игры** (Role-playing)
+- 📝 **Сложные рассуждения** и анализ
+- 🤖 **Ассистенты** для русскоязычных пользователей
+---
+## 📊 Технические детали обучения
+<table>
+<tr>
+<td width="50%">
+**⚙️ Оборудование и время**
+- 🖥️ GPU: NVIDIA RTX 4090 (24GB)
+- ⏱️ Время обучения: ~30 часов
+- 🔢 Эпохи: 1 (для избежания переобучения)
+</td>
+<td width="50%">
+**🧬 Архитектура**
+- 📦 Базовая модель: Qwen3-4B Heretic
+- 🎛️ Метод: DoRA (все линейные слои)
+- 📈 Rank: 64 / Alpha: 128
+- 📏 Контекст: 4096 токенов
+</td>
+</tr>
+<tr>
+<td width="50%">
+**🔬 Точность**
+- 💾 Precision: bfloat16
+- 🚫 Без квантизации при обучении
+- ⚡ Оптимизатор: paged_adamw_8bit
+</td>
+<td width="50%">
+**📚 Данные**
+- 📖 Датасет: GrandMaster2 (оптимизированный)
+- 🎯 Фокус: Русский язык + reasoning
+- 🎲 Специализация: Role-playing
+</td>
+</tr>
+</table>
+---
+## 💻 Использование
+### 🐍 Python (Transformers)
+```python
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+# Загрузка модели
+model_id = "your-username/Qwen3-Heretic-4B-GrandMaster-DoRA"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(
+    model_id,
+    torch_dtype=torch.bfloat16,
+    device_map="auto"
+)
+# Пример использования
+messages = [
+    {"role": "system", "content": "Ты полезный ассистент, заточенный на помощь в ответах на вопросы на русском языке."},
+    {"role": "user", "content": "Напиши функцию на Python для решения задачи о рюкзаке с использованием динамического программирования."}
+]
+text = tokenizer.apply_chat_template(
+    messages,
+    tokenize=False,
+    add_generation_prompt=True
+)
+inputs = tokenizer(text, return_tensors="pt").to(model.device)
+outputs = model.generate(
+    **inputs,
+    max_new_tokens=1024,
+    temperature=0.7,
+    top_p=0.9,
+    do_sample=True
+)
+response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+print(response)
+```
+### 🦙 llama.cpp (GGUF)
+```bash
+# Скачайте GGUF версию модели
+# Запустите с помощью llama.cpp
+./main -m model.gguf -p "Ты полезный ассистент..." -n 512
+```
+### 📝 Рекомендуемые параметры генерации
+```python
+generation_config = {
+    "max_new_tokens": 1024,
+    "temperature": 0.7,       # Для творческих задач: 0.8-1.0
+    "top_p": 0.9,
+    "top_k": 50,
+    "repetition_penalty": 1.1,
+    "do_sample": True
+}
+```
+---
+## 🎨 Примеры промптов
+<details>
+<summary>💬 Диалоговый ассистент</summary>
+```python
+messages = [
+    {"role": "system", "content": "Ты дружелюбный и полезный ассистент."},
+    {"role": "user", "content": "Объясни принцип работы нейронных сетей простыми словами."}
+]
+```
+</details>
+<details>
+<summary>💻 Генерация кода</summary>
+```python
+messages = [
+    {"role": "system", "content": "Ты опытный программист Python."},
+    {"role": "user", "content": "Создай класс для работы с двоичным деревом поиска с методами вставки и поиска."}
+]
+```
+</details>
+<details>
+<summary>🎭 Ролевая игра</summary>
+```python
+messages = [
+    {"role": "system", "content": "Ты мудрый волшебник из средневекового фэнтези мира."},
+    {"role": "user", "content": "Расскажи мне о древнем артефакте, который я нашел."}
+]
+```
+</details>
+---
+## 📈 Производительность
+- ✅ **Русский язык**: Высокое качество генерации текста
+- ✅ **Reasoning**: Улучшенные способности к логическим рассуждениям
+- ✅ **Coding**: Качественная генерация кода с комментариями
+- ✅ **Role-playing**: Глубокая проработка персонажей
+- ⚠️ **Размер**: 4B параметров — компактная и быстрая модель
+---
+## ⚠️ Ограничения
+- 📏 Контекст ограничен 4096 токенами
+- 🔬 Экспериментальная базовая модель может иметь непредсказуемое поведение
+- 🌐 Оптимизирована в первую очередь для русского языка
+- 📊 Может требовать дополнительной настройки для специфических задач
+---
+## 📜 Лицензия
+Эта модель следует лицензированию базовой модели Qwen и датасета GrandMaster. Пожалуйста, обратитесь к оригинальным репозиториям для подробной информации о лицензиях:
+- [Qwen License](https://huggingface.co/Qwen)
+- [GrandMaster2 Dataset](https://huggingface.co/datasets/Vikhrmodels/GrandMaster2)
+---
+## 🙏 Благодарности
+- **Base Model**: [p-e-w/Qwen3-4B-Instruct-2507-heretic](https://huggingface.co/p-e-w/Qwen3-4B-Instruct-2507-heretic)
+- **Dataset**: [Vikhrmodels/GrandMaster2](https://huggingface.co/datasets/Vikhrmodels/GrandMaster2)
+- **Training Framework**: [HuggingFace TRL](https://github.com/huggingface/trl) & [PEFT](https://github.com/huggingface/peft)
+---
+<div align="center">
+### Обучено с ❤️ используя TRL и PEFT
+**Вопросы? Предложения? Создайте Issue!**
+⭐ Если модель вам помогла, поставьте звёздочку!
+</div>