dar5115
/

NLP_BPE

Model card Files Files and versions

NLP_BPE / README.md

dar5115's picture

Update README.md

d246ab1 verified 3 months ago

|

history blame contribute delete

1.43 kB

	---
	license: mit
	language:
	- ru
	tags:
	- tokenizer
	- bpe
	- russian
	- nlp
	---

	# bpe-tokenizer-ru-32000

	## Описание

	BPE tokenizer trained on Russian RIA.ru corpus with vocabulary size 32000

	## Параметры модели

	- Тип модели: BPE (Byte Pair Encoding)
	- Размер словаря: 32000
	- Язык: Русский
	- Специальные токены: `[UNK]`, `<NUM>`, `<URL>`, `<EMAIL>`

	## Использование

	```python
	from tokenizers import Tokenizer

	# Загрузка токенизатора напрямую
	tokenizer = Tokenizer.from_file("vocab.json")

	# Или через transformers
	from transformers import AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")
	```

	## Пример использования

	```python
	from transformers import AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")

	text = "Пример текста для токенизации"
	tokens = tokenizer.tokenize(text)
	print(tokens)

	# Или для получения IDs
	input_ids = tokenizer.encode(text)
	print(input_ids)
	```

	## Файлы модели

	- `vocab.json` - словарь токенов
	- `merges.txt` - правила слияния BPE
	- `tokenizer_config.json` - конфигурация токенизатора

	## Автор

	Обучено на корпусе RIA.ru

	## Лицензия

	MIT