Shu-vi
/

Russian_BPE_Tokenizer_16k

Model card Files Files and versions

Russian_BPE_Tokenizer_16k / README.md

Shu-vi's picture

Update README.md

c41999b verified 7 months ago

|

history blame contribute delete

2.09 kB

	---
	license: mit
	language:
	- ru
	library_name: tokenizers
	tags:
	- tokenizer
	- BPE
	- subword
	- russian
	- custom
	datasets:
	- ria.ru
	- lenta.ru
	- meduza.io
	- kommersant.ru
	metrics:
	- oov_rate
	- reconstruction_accuracy
	- compression_ratio
	---

	# 🇷🇺 Russian BPE Tokenizer 16k

	Russian BPE Tokenizer 16k — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.

	---

	## 🧠 Описание модели

	- Тип модели: Subword токенизатор (BPE)
	- Язык: Русский
	- Алгоритм: Byte Pair Encoding
	- Размер словаря: 16 000
	- Минимальная частота: 3
	- Нормализация: NFKC
	- Пре-токенизация: Whitespace

	---

	## 📚 Корпус

	Токенизатор обучен на корпусе из 55 000+ слов, собранных с русскоязычных новостных сайтов:
	- [ria.ru](https://ria.ru)
	- [lenta.ru](https://lenta.ru)
	- [meduza.io](https://meduza.io)
	- [kommersant.ru](https://www.kommersant.ru)

	(Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)

	---

	## 📊 Метрики

	\| Метрика \| Значение \| Описание \|
	\|----------\|-----------\|-----------\|
	\| OOV rate \| 6% \| Доля слов, отсутствующих в словаре \|
	\| Reconstruction accuracy \| 2% \| Точность восстановления исходного текста после токенизации \|
	\| Compression ratio \| 0.59 \| Коэффициент сжатия корпуса \|

	---

	## 🚀 Пример использования

	```python
	from tokenizers import Tokenizer

	tokenizer = Tokenizer.from_pretrained("Shu-vi/russian-bpe-tokenizer-16k")

	# Пример
	text = "В Казани в 2024 прошёл БРИКС."
	encoded = tokenizer.encode(text)

	print("Токены:", encoded.tokens)
	print("IDs:", encoded.ids)