Shu-vi's picture
Update README.md
d9e3010 verified
metadata
license: mit
language:
  - ru
library_name: tokenizers
tags:
  - tokenizer
  - Unigram
  - subword
  - russian
  - custom
datasets:
  - ria.ru
  - lenta.ru
  - meduza.io
  - kommersant.ru
metrics:
  - oov_rate
  - reconstruction_accuracy
  - compression_ratio

🇷🇺 Russian Unigram Tokenizer 16k

Russian Unigram Tokenizer 16k — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.


🧠 Описание модели

  • Тип модели: Subword токенизатор (Unigram)
  • Язык: Русский
  • Алгоритм: Unigram
  • Размер словаря: 16 000
  • Минимальная частота: 3
  • Нормализация: NFKC
  • Пре-токенизация: Whitespace

📚 Корпус

Токенизатор обучен на корпусе из 55 000+ слов, собранных с русскоязычных новостных сайтов:

(Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)


📊 Метрики

Метрика Значение Описание
OOV rate 1% Доля слов, отсутствующих в словаре
Reconstruction accuracy 0% Точность восстановления исходного текста после токенизации
Compression ratio 0.5 Коэффициент сжатия корпуса

🚀 Пример использования

from tokenizers import Tokenizer

tokenizer = Tokenizer.from_pretrained("Shu-vi/Russian_Unigram_Tokenizer_16k")

# Пример
text = "В Казани в 2024 прошёл БРИКС."
encoded = tokenizer.encode(text)

print("Токены:", encoded.tokens)
print("IDs:", encoded.ids)