File size: 1,430 Bytes
d246ab1 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 |
---
license: mit
language:
- ru
tags:
- tokenizer
- bpe
- russian
- nlp
---
# bpe-tokenizer-ru-32000
## Описание
BPE tokenizer trained on Russian RIA.ru corpus with vocabulary size 32000
## Параметры модели
- **Тип модели**: BPE (Byte Pair Encoding)
- **Размер словаря**: 32000
- **Язык**: Русский
- **Специальные токены**: `[UNK]`, `<NUM>`, `<URL>`, `<EMAIL>`
## Использование
```python
from tokenizers import Tokenizer
# Загрузка токенизатора напрямую
tokenizer = Tokenizer.from_file("vocab.json")
# Или через transformers
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")
```
## Пример использования
```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")
text = "Пример текста для токенизации"
tokens = tokenizer.tokenize(text)
print(tokens)
# Или для получения IDs
input_ids = tokenizer.encode(text)
print(input_ids)
```
## Файлы модели
- `vocab.json` - словарь токенов
- `merges.txt` - правила слияния BPE
- `tokenizer_config.json` - конфигурация токенизатора
## Автор
Обучено на корпусе RIA.ru
## Лицензия
MIT
|