Shu-vi commited on
Commit
d9e3010
·
verified ·
1 Parent(s): be9e70a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +75 -3
README.md CHANGED
@@ -1,3 +1,75 @@
1
- ---
2
- license: mit
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: mit
3
+ language:
4
+ - ru
5
+ library_name: tokenizers
6
+ tags:
7
+ - tokenizer
8
+ - Unigram
9
+ - subword
10
+ - russian
11
+ - custom
12
+ datasets:
13
+ - ria.ru
14
+ - lenta.ru
15
+ - meduza.io
16
+ - kommersant.ru
17
+ metrics:
18
+ - oov_rate
19
+ - reconstruction_accuracy
20
+ - compression_ratio
21
+ ---
22
+
23
+ # 🇷🇺 Russian Unigram Tokenizer 16k
24
+
25
+ **Russian Unigram Tokenizer 16k** — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.
26
+
27
+ ---
28
+
29
+ ## 🧠 Описание модели
30
+
31
+ - **Тип модели:** Subword токенизатор (Unigram)
32
+ - **Язык:** Русский
33
+ - **Алгоритм:** Unigram
34
+ - **Размер словаря:** 16 000
35
+ - **Минимальная частота:** 3
36
+ - **Нормализация:** NFKC
37
+ - **Пре-токенизация:** Whitespace
38
+
39
+ ---
40
+
41
+ ## 📚 Корпус
42
+
43
+ Токенизатор обучен на корпусе из **55 000+ слов**, собранных с русскоязычных новостных сайтов:
44
+ - [ria.ru](https://ria.ru)
45
+ - [lenta.ru](https://lenta.ru)
46
+ - [meduza.io](https://meduza.io)
47
+ - [kommersant.ru](https://www.kommersant.ru)
48
+
49
+ (Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)
50
+
51
+ ---
52
+
53
+ ## 📊 Метрики
54
+
55
+ | Метрика | Значение | Описание |
56
+ |----------|-----------|-----------|
57
+ | **OOV rate** | 1% | Доля слов, отсутствующих в словаре |
58
+ | **Reconstruction accuracy** | 0% | Точность восстановления исходного текста после токенизации |
59
+ | **Compression ratio** | 0.5 | Коэффициент сжатия корпуса |
60
+
61
+ ---
62
+
63
+ ## 🚀 Пример использования
64
+
65
+ ```python
66
+ from tokenizers import Tokenizer
67
+
68
+ tokenizer = Tokenizer.from_pretrained("Shu-vi/Russian_Unigram_Tokenizer_16k")
69
+
70
+ # Пример
71
+ text = "В Казани в 2024 прошёл БРИКС."
72
+ encoded = tokenizer.encode(text)
73
+
74
+ print("Токены:", encoded.tokens)
75
+ print("IDs:", encoded.ids)