--- license: mit language: - ru tags: - tokenizer - bpe - russian - nlp --- # bpe-tokenizer-ru-32000 ## Описание BPE tokenizer trained on Russian RIA.ru corpus with vocabulary size 32000 ## Параметры модели - **Тип модели**: BPE (Byte Pair Encoding) - **Размер словаря**: 32000 - **Язык**: Русский - **Специальные токены**: `[UNK]`, ``, ``, `` ## Использование ```python from tokenizers import Tokenizer # Загрузка токенизатора напрямую tokenizer = Tokenizer.from_file("vocab.json") # Или через transformers from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000") ``` ## Пример использования ```python from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000") text = "Пример текста для токенизации" tokens = tokenizer.tokenize(text) print(tokens) # Или для получения IDs input_ids = tokenizer.encode(text) print(input_ids) ``` ## Файлы модели - `vocab.json` - словарь токенов - `merges.txt` - правила слияния BPE - `tokenizer_config.json` - конфигурация токенизатора ## Автор Обучено на корпусе RIA.ru ## Лицензия MIT