Shu-vi
/

Russian_Unigram_Tokenizer_16k

Model card Files Files and versions

Shu-vi commited on Oct 10, 2025

Commit

d9e3010

·

verified ·

1 Parent(s): be9e70a

Update README.md

Files changed (1) hide show

README.md +75 -3

README.md CHANGED Viewed

@@ -1,3 +1,75 @@
----
-license: mit
----

+---
+license: mit
+language:
+- ru
+library_name: tokenizers
+tags:
+- tokenizer
+- Unigram
+- subword
+- russian
+- custom
+datasets:
+- ria.ru
+- lenta.ru
+- meduza.io
+- kommersant.ru
+metrics:
+- oov_rate
+- reconstruction_accuracy
+- compression_ratio
+---
+# 🇷🇺 Russian Unigram Tokenizer 16k
+**Russian Unigram Tokenizer 16k** — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.
+---
+## 🧠 Описание модели
+- **Тип модели:** Subword токенизатор (Unigram)
+- **Язык:** Русский
+- **Алгоритм:** Unigram
+- **Размер словаря:** 16 000
+- **Минимальная частота:** 3
+- **Нормализация:** NFKC
+- **Пре-токенизация:** Whitespace
+---
+## 📚 Корпус
+Токенизатор обучен на корпусе из **55 000+ слов**, собранных с русскоязычных новостных сайтов:
+- [ria.ru](https://ria.ru)
+- [lenta.ru](https://lenta.ru)
+- [meduza.io](https://meduza.io)
+- [kommersant.ru](https://www.kommersant.ru)
+(Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)
+---
+## 📊 Метрики
+| Метрика | Значение | Описание |
+|----------|-----------|-----------|
+| **OOV rate** | 1% | Доля слов, отсутствующих в словаре |
+| **Reconstruction accuracy** | 0% | Точность восстановления исходного текста после токенизации |
+| **Compression ratio** | 0.5 | Коэффициент сжатия корпуса |
+---
+## 🚀 Пример использования
+```python
+from tokenizers import Tokenizer
+tokenizer = Tokenizer.from_pretrained("Shu-vi/Russian_Unigram_Tokenizer_16k")
+# Пример
+text = "В Казани в 2024 прошёл БРИКС."
+encoded = tokenizer.encode(text)
+print("Токены:", encoded.tokens)
+print("IDs:", encoded.ids)