Shu-vi's picture
Update README.md
c41999b verified
---
license: mit
language:
- ru
library_name: tokenizers
tags:
- tokenizer
- BPE
- subword
- russian
- custom
datasets:
- ria.ru
- lenta.ru
- meduza.io
- kommersant.ru
metrics:
- oov_rate
- reconstruction_accuracy
- compression_ratio
---
# 🇷🇺 Russian BPE Tokenizer 16k
**Russian BPE Tokenizer 16k** — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.
---
## 🧠 Описание модели
- **Тип модели:** Subword токенизатор (BPE)
- **Язык:** Русский
- **Алгоритм:** Byte Pair Encoding
- **Размер словаря:** 16 000
- **Минимальная частота:** 3
- **Нормализация:** NFKC
- **Пре-токенизация:** Whitespace
---
## 📚 Корпус
Токенизатор обучен на корпусе из **55 000+ слов**, собранных с русскоязычных новостных сайтов:
- [ria.ru](https://ria.ru)
- [lenta.ru](https://lenta.ru)
- [meduza.io](https://meduza.io)
- [kommersant.ru](https://www.kommersant.ru)
(Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)
---
## 📊 Метрики
| Метрика | Значение | Описание |
|----------|-----------|-----------|
| **OOV rate** | 6% | Доля слов, отсутствующих в словаре |
| **Reconstruction accuracy** | 2% | Точность восстановления исходного текста после токенизации |
| **Compression ratio** | 0.59 | Коэффициент сжатия корпуса |
---
## 🚀 Пример использования
```python
from tokenizers import Tokenizer
tokenizer = Tokenizer.from_pretrained("Shu-vi/russian-bpe-tokenizer-16k")
# Пример
text = "В Казани в 2024 прошёл БРИКС."
encoded = tokenizer.encode(text)
print("Токены:", encoded.tokens)
print("IDs:", encoded.ids)