Safetensors
Russian
English
qwen3
RefalMachine commited on
Commit
1a7442d
·
verified ·
1 Parent(s): a657b79

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +66 -0
README.md ADDED
@@ -0,0 +1,66 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ datasets:
4
+ - dichspace/darulm
5
+ - HuggingFaceFW/fineweb-2
6
+ - RefalMachine/hybrid_reasoning_dataset_ru
7
+ language:
8
+ - ru
9
+ - en
10
+ base_model:
11
+ - Qwen/Qwen3-32B
12
+ ---
13
+ <p align="center">
14
+ <a href="https://arxiv.org/abs/2412.21140"><b>Paper Link</b>👁️</a>
15
+ </p>
16
+
17
+ # RU
18
+ ## Описание модели
19
+
20
+ **Ruadapt** версия модели **Qwen/Qwen3-32B**. В модели был заменен токенизатор, затем произведено дообучение (Continued pretraining) на русскоязычном корпусе, после чего была применена техника **LEP (Learned Embedding Propagation)**.
21
+
22
+ Благодаря новому токенизатору (расширенный tiktoken cl100k с помощью униграм токенизатора на 48 т. токенов) скорость генерации* русскоязычных текстов возрасла **до 100%** (в зависимости от длины контекста) по сравнению с исходной моделью.
23
+
24
+ **Под скоростью генерации подразумевается количество русскоязычных символов/слов в секунду на одинаковых текстовых последовательностях.*
25
+
26
+ ## Важно
27
+
28
+ **Веса модели могут обновляться** по мере получения новых версий. Информацию о версиях будет в самом конце README, там же фиксируются **даты** и **коммиты** версий, чтобы всегда можно было использовать предыдущие варианты при необходимости.
29
+
30
+ Ответы модели не отражают мнения авторов, а лишь повторяют знания полученные из данных на всех этапах обучения (предобучение, смена токенизатора, обучение на инструкциях, калибровка качества ответов). Модель была получена из сторонней предобученной модели, **контроль за предобучением** которой **не является ответственностью текущих авторов**. При создании данной версии модели не производилось никаких дополнительных действий, направленных на изменение заложенных в LLM "мнений". Используйте с осторожностью.
31
+
32
+ # EN
33
+
34
+ ## Model Description
35
+
36
+ **Ruadapt** version of **Qwen/Qwen3-32B**.
37
+ In this model the tokenizer was replaced, followed by continued pre-training on a Russian-language corpus, after which the **LEP (Learned Embedding Propagation)** technique was applied.
38
+
39
+ Thanks to the new tokenizer (an extended tiktoken cl100k, augmented with a 48 k russian tokens), the generation speed* of Russian-language texts has increased **by up to 100 %** (depending on context length) compared with the original model.
40
+
41
+ *Generation speed is understood as the number of Russian characters/words produced per second on identical text sequences.*
42
+
43
+ ## Important
44
+
45
+ The model may be updated as new versions become available. Version information is provided at the very end of the README, where **dates** and **commits** are logged so that previous versions can always be used if necessary.
46
+
47
+ The model’s answers do not reflect the authors’ opinions; they merely reproduce the knowledge obtained from data at all training stages (pre-training, tokenizer replacement, instruction tuning, answer-quality calibration). The model is based on a third-party pretrained model, and **the current authors are not responsible for its initial pre-training**. No additional actions were taken to modify the “opinions” embedded in the LLM while creating this version. Use with caution.
48
+
49
+ # Other
50
+
51
+ ## Tokenization
52
+
53
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/O4eQEhnowETEatDPcmArB.png)
54
+
55
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/oW0Q6LzD_Py3GdH0kfqu4.png)
56
+
57
+ ## Versions
58
+
59
+ v1:
60
+ - [a657b797ad4223aed46e1ada349429a4a26ec3f8](https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct/commit/a657b797ad4223aed46e1ada349429a4a26ec3f8)
61
+ - Внутреннее имя/Alias: RuadaptQwen3-32B-Instruct-v1
62
+ - Дата/Date: 21.05.2025
63
+
64
+ ## How to cite:
65
+
66
+ Tikhomirov M., Chernyshov D. Facilitating Large Language Model Russian Adaptation with Learned Embedding Propagation //Journal of Language and Education. – 2024. – Т. 10. – №. 4. – С. 130-145. (Preprint: https://arxiv.org/abs/2412.21140)