|
|
--- |
|
|
license: mit |
|
|
language: |
|
|
- ru |
|
|
tags: |
|
|
- tokenizer |
|
|
- bpe |
|
|
- russian |
|
|
- nlp |
|
|
--- |
|
|
|
|
|
# bpe-tokenizer-ru-32000 |
|
|
|
|
|
## Описание |
|
|
|
|
|
BPE tokenizer trained on Russian RIA.ru corpus with vocabulary size 32000 |
|
|
|
|
|
## Параметры модели |
|
|
|
|
|
- **Тип модели**: BPE (Byte Pair Encoding) |
|
|
- **Размер словаря**: 32000 |
|
|
- **Язык**: Русский |
|
|
- **Специальные токены**: `[UNK]`, `<NUM>`, `<URL>`, `<EMAIL>` |
|
|
|
|
|
## Использование |
|
|
|
|
|
```python |
|
|
from tokenizers import Tokenizer |
|
|
|
|
|
# Загрузка токенизатора напрямую |
|
|
tokenizer = Tokenizer.from_file("vocab.json") |
|
|
|
|
|
# Или через transformers |
|
|
from transformers import AutoTokenizer |
|
|
|
|
|
tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000") |
|
|
``` |
|
|
|
|
|
## Пример использования |
|
|
|
|
|
```python |
|
|
from transformers import AutoTokenizer |
|
|
|
|
|
tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000") |
|
|
|
|
|
text = "Пример текста для токенизации" |
|
|
tokens = tokenizer.tokenize(text) |
|
|
print(tokens) |
|
|
|
|
|
# Или для получения IDs |
|
|
input_ids = tokenizer.encode(text) |
|
|
print(input_ids) |
|
|
``` |
|
|
|
|
|
## Файлы модели |
|
|
|
|
|
- `vocab.json` - словарь токенов |
|
|
- `merges.txt` - правила слияния BPE |
|
|
- `tokenizer_config.json` - конфигурация токенизатора |
|
|
|
|
|
## Автор |
|
|
|
|
|
Обучено на корпусе RIA.ru |
|
|
|
|
|
## Лицензия |
|
|
|
|
|
MIT |
|
|
|