AugustLight commited on
Commit
ae3c83c
·
verified ·
1 Parent(s): 5ea2c48

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +245 -1
README.md CHANGED
@@ -7,4 +7,248 @@ language:
7
  - en
8
  base_model:
9
  - p-e-w/Qwen3-4B-Instruct-2507-heretic
10
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7
  - en
8
  base_model:
9
  - p-e-w/Qwen3-4B-Instruct-2507-heretic
10
+ ---
11
+
12
+ # 🧙‍♂️ LLightPro
13
+
14
+ <div align="center">
15
+
16
+ ![Model](https://img.shields.io/badge/Model-LLightPro-blue?style=for-the-badge)
17
+ ![Method](https://img.shields.io/badge/Method-DoRA-orange?style=for-the-badge)
18
+ ![Precision](https://img.shields.io/badge/Precision-Native%20BF16-green?style=for-the-badge)
19
+ ![Language](https://img.shields.io/badge/Language-Russian-red?style=for-the-badge)
20
+
21
+ ### Компактная модель. Мощная логика.
22
+
23
+ *Высококачественная дообучка экспериментальной модели для продвинутых рассуждений на русском языке*
24
+
25
+ [🤗 Hugging Face](https://huggingface.co/your-username/model-name) • [📊 Dataset](https://huggingface.co/datasets/Vikhrmodels/GrandMaster2) • [🔧 Base Model](https://huggingface.co/p-e-w/Qwen3-4B-Instruct-2507-heretic)
26
+
27
+ </div>
28
+
29
+ ---
30
+
31
+ ## 📖 О модели
32
+
33
+ **LLightPro** — это специализированная дообучка экспериментальной базовой модели `p-e-w/Qwen3-4B-Instruct-2507-heretic`, оптимизированная для **русского языка** и сложных задач рассуждения, программирования и логических головоломок с использованием элитного датасета **GrandMaster2**.
34
+
35
+ В отличие от стандартных LoRA-дообучек, эта модель использует технологию **DoRA** (Weight-Decomposed Low-Rank Adaptation), что позволяет ей изучать тонкие нюансы рассуждений без катастрофического забывания. Обучение проводилось в чистом **bfloat16** (без квантизации) на NVIDIA RTX 4090 для максимальной точности.
36
+
37
+ ---
38
+
39
+ ## ✨ Ключевые особенности
40
+
41
+ | Особенность | Описание |
42
+ |-------------|----------|
43
+ | 🧠 **Продвинутая архитектура** | Построена на экспериментальной версии Qwen3 "Heretic" |
44
+ | 🇷🇺 **Русский язык** | Дообучена для высококачественной работы с русским языком |
45
+ | ⚡ **Технология DoRA** | Weight-Decomposed LoRA (r=64, alpha=128) для превосходной способности обучения |
46
+ | 💎 **Безкомпромиссное качество** | Обучение в нативной точности bfloat16 без квантизации |
47
+ | 📚 **Элитные данные** | Дообучка на оптимизированной версии Vikhrmodels/GrandMaster2 |
48
+ | 🎯 **Точная настройка** | Низкая скорость обучения с косинусным планировщиком для предотвращения переобучения |
49
+
50
+ ---
51
+
52
+ ## 🎯 Основные применения
53
+
54
+ - 💬 **Диалоговые системы** на русском языке
55
+ - 🧩 **Логические задачи** и головоломки
56
+ - 💻 **Генерация кода** с комментариями на русском
57
+ - 🎭 **Ролевые игры** (Role-playing)
58
+ - 📝 **Сложные рассуждения** и анализ
59
+ - 🤖 **Ассистенты** для русскоязычных пользователей
60
+
61
+ ---
62
+
63
+ ## 📊 Технические детали обучения
64
+
65
+ <table>
66
+ <tr>
67
+ <td width="50%">
68
+
69
+ **⚙️ Оборудование и время**
70
+ - 🖥️ GPU: NVIDIA RTX 4090 (24GB)
71
+ - ⏱️ Время обучения: ~30 часов
72
+ - 🔢 Эпохи: 1 (для избежания переобучения)
73
+
74
+ </td>
75
+ <td width="50%">
76
+
77
+ **🧬 Архитектура**
78
+ - 📦 Базовая модель: Qwen3-4B Heretic
79
+ - 🎛️ Метод: DoRA (все линейные слои)
80
+ - 📈 Rank: 64 / Alpha: 128
81
+ - 📏 Контекст: 4096 токенов
82
+
83
+ </td>
84
+ </tr>
85
+ <tr>
86
+ <td width="50%">
87
+
88
+ **🔬 Точность**
89
+ - 💾 Precision: bfloat16
90
+ - 🚫 Без квантизации при обучении
91
+ - ⚡ Оптимизатор: paged_adamw_8bit
92
+
93
+ </td>
94
+ <td width="50%">
95
+
96
+ **📚 Данные**
97
+ - 📖 Датасет: GrandMaster2 (оптимизированный)
98
+ - 🎯 Фокус: Русский язык + reasoning
99
+ - 🎲 Специализация: Role-playing
100
+
101
+ </td>
102
+ </tr>
103
+ </table>
104
+
105
+ ---
106
+
107
+ ## 💻 Использование
108
+
109
+ ### 🐍 Python (Transformers)
110
+
111
+ ```python
112
+ import torch
113
+ from transformers import AutoTokenizer, AutoModelForCausalLM
114
+
115
+ # Загрузка модели
116
+ model_id = "your-username/Qwen3-Heretic-4B-GrandMaster-DoRA"
117
+ tokenizer = AutoTokenizer.from_pretrained(model_id)
118
+ model = AutoModelForCausalLM.from_pretrained(
119
+ model_id,
120
+ torch_dtype=torch.bfloat16,
121
+ device_map="auto"
122
+ )
123
+
124
+ # Пример использования
125
+ messages = [
126
+ {"role": "system", "content": "Ты полезный ассистент, заточенный на помощь в ответах на вопросы на русском языке."},
127
+ {"role": "user", "content": "Напиши функцию на Python для решения задачи о рюкзаке с использованием динамического программирования."}
128
+ ]
129
+
130
+ text = tokenizer.apply_chat_template(
131
+ messages,
132
+ tokenize=False,
133
+ add_generation_prompt=True
134
+ )
135
+
136
+ inputs = tokenizer(text, return_tensors="pt").to(model.device)
137
+
138
+ outputs = model.generate(
139
+ **inputs,
140
+ max_new_tokens=1024,
141
+ temperature=0.7,
142
+ top_p=0.9,
143
+ do_sample=True
144
+ )
145
+
146
+ response = tokenizer.decode(outputs[0], skip_special_tokens=True)
147
+ print(response)
148
+ ```
149
+
150
+ ### 🦙 llama.cpp (GGUF)
151
+
152
+ ```bash
153
+ # Скачайте GGUF версию модели
154
+ # Запустите с помощью llama.cpp
155
+ ./main -m model.gguf -p "Ты полезный ассистент..." -n 512
156
+ ```
157
+
158
+ ### 📝 Рекомендуемые параметры генерации
159
+
160
+ ```python
161
+ generation_config = {
162
+ "max_new_tokens": 1024,
163
+ "temperature": 0.7, # Для творческих задач: 0.8-1.0
164
+ "top_p": 0.9,
165
+ "top_k": 50,
166
+ "repetition_penalty": 1.1,
167
+ "do_sample": True
168
+ }
169
+ ```
170
+
171
+ ---
172
+
173
+ ## 🎨 Примеры промптов
174
+
175
+ <details>
176
+ <summary>💬 Диалоговый ассистент</summary>
177
+
178
+ ```python
179
+ messages = [
180
+ {"role": "system", "content": "Ты дружелюбный и полезный ассистент."},
181
+ {"role": "user", "content": "Объясни принцип работы нейронных сетей простыми словами."}
182
+ ]
183
+ ```
184
+ </details>
185
+
186
+ <details>
187
+ <summary>💻 Генерация кода</summary>
188
+
189
+ ```python
190
+ messages = [
191
+ {"role": "system", "content": "Ты опытный программист Python."},
192
+ {"role": "user", "content": "Создай класс для работы с двоичным деревом поиска с методами вставки и поиска."}
193
+ ]
194
+ ```
195
+ </details>
196
+
197
+ <details>
198
+ <summary>🎭 Ролевая игра</summary>
199
+
200
+ ```python
201
+ messages = [
202
+ {"role": "system", "content": "Ты мудрый волшебник из средневекового фэнтези мира."},
203
+ {"role": "user", "content": "Расскажи мне о древнем артефакте, который я нашел."}
204
+ ]
205
+ ```
206
+ </details>
207
+
208
+ ---
209
+
210
+ ## 📈 Производительность
211
+
212
+ - ✅ **Русский язык**: Высокое качество генерации текста
213
+ - ✅ **Reasoning**: Улучшенные способности к логическим рассуждениям
214
+ - ✅ **Coding**: Качественная генерация кода с комментариями
215
+ - ✅ **Role-playing**: Глубокая проработка персонажей
216
+ - ⚠️ **Размер**: 4B параметров — компактная и быстрая модель
217
+
218
+ ---
219
+
220
+ ## ⚠️ Ограничения
221
+
222
+ - 📏 Контекст ограничен 4096 токенами
223
+ - 🔬 Экспериментальная базовая модель может иметь непредсказуемое поведение
224
+ - 🌐 Оптимизирована в первую очередь для русского языка
225
+ - 📊 Может требовать дополнительной настройки для специфических задач
226
+
227
+ ---
228
+
229
+ ## 📜 Лицензия
230
+
231
+ Эта модель следует лицензированию базовой модели Qwen и датасета GrandMaster. Пожалуйста, обратитесь к оригинальным репозиториям для подробной информации о лицензиях:
232
+
233
+ - [Qwen License](https://huggingface.co/Qwen)
234
+ - [GrandMaster2 Dataset](https://huggingface.co/datasets/Vikhrmodels/GrandMaster2)
235
+
236
+ ---
237
+
238
+ ## 🙏 Благодарности
239
+
240
+ - **Base Model**: [p-e-w/Qwen3-4B-Instruct-2507-heretic](https://huggingface.co/p-e-w/Qwen3-4B-Instruct-2507-heretic)
241
+ - **Dataset**: [Vikhrmodels/GrandMaster2](https://huggingface.co/datasets/Vikhrmodels/GrandMaster2)
242
+ - **Training Framework**: [HuggingFace TRL](https://github.com/huggingface/trl) & [PEFT](https://github.com/huggingface/peft)
243
+
244
+ ---
245
+
246
+ <div align="center">
247
+
248
+ ### Обучено с ❤️ используя TRL и PEFT
249
+
250
+ **Вопросы? Предложения? Создайте Issue!**
251
+
252
+ ⭐ Если модель вам помогла, поставьте звёздочку!
253
+
254
+ </div>