File size: 1,430 Bytes
d246ab1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
---
license: mit
language:
- ru
tags:
- tokenizer
- bpe
- russian
- nlp
---

# bpe-tokenizer-ru-32000

## Описание

BPE tokenizer trained on Russian RIA.ru corpus with vocabulary size 32000

## Параметры модели

- **Тип модели**: BPE (Byte Pair Encoding)
- **Размер словаря**: 32000
- **Язык**: Русский
- **Специальные токены**: `[UNK]`, `<NUM>`, `<URL>`, `<EMAIL>`

## Использование

```python
from tokenizers import Tokenizer

# Загрузка токенизатора напрямую
tokenizer = Tokenizer.from_file("vocab.json")

# Или через transformers
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")
```

## Пример использования

```python
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")

text = "Пример текста для токенизации"
tokens = tokenizer.tokenize(text)
print(tokens)

# Или для получения IDs
input_ids = tokenizer.encode(text)
print(input_ids)
```

## Файлы модели

- `vocab.json` - словарь токенов
- `merges.txt` - правила слияния BPE
- `tokenizer_config.json` - конфигурация токенизатора

## Автор

Обучено на корпусе RIA.ru

## Лицензия

MIT