Update README.md

d9e3010 verified 7 months ago

2.1 kB

license: mit
language:
  - ru
library_name: tokenizers
tags:
  - tokenizer
  - Unigram
  - subword
  - russian
  - custom
datasets:
  - ria.ru
  - lenta.ru
  - meduza.io
  - kommersant.ru
metrics:
  - oov_rate
  - reconstruction_accuracy
  - compression_ratio

🇷🇺 Russian Unigram Tokenizer 16k

Russian Unigram Tokenizer 16k — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.

🧠 Описание модели

Тип модели: Subword токенизатор (Unigram)
Язык: Русский
Алгоритм: Unigram
Размер словаря: 16 000
Минимальная частота: 3
Нормализация: NFKC
Пре-токенизация: Whitespace

📚 Корпус

Токенизатор обучен на корпусе из 55 000+ слов, собранных с русскоязычных новостных сайтов:

(Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)

📊 Метрики

Метрика	Значение	Описание
OOV rate	1%	Доля слов, отсутствующих в словаре
Reconstruction accuracy	0%	Точность восстановления исходного текста после токенизации
Compression ratio	0.5	Коэффициент сжатия корпуса

🚀 Пример использования

from tokenizers import Tokenizer

tokenizer = Tokenizer.from_pretrained("Shu-vi/Russian_Unigram_Tokenizer_16k")

# Пример
text = "В Казани в 2024 прошёл БРИКС."
encoded = tokenizer.encode(text)

print("Токены:", encoded.tokens)
print("IDs:", encoded.ids)