| --- |
| license: mit |
| language: |
| - ru |
| library_name: tokenizers |
| tags: |
| - tokenizer |
| - BPE |
| - subword |
| - russian |
| - custom |
| datasets: |
| - ria.ru |
| - lenta.ru |
| - meduza.io |
| - kommersant.ru |
| metrics: |
| - oov_rate |
| - reconstruction_accuracy |
| - compression_ratio |
| --- |
| |
| # 🇷🇺 Russian BPE Tokenizer 16k |
|
|
| **Russian BPE Tokenizer 16k** — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов. |
|
|
| --- |
|
|
| ## 🧠 Описание модели |
|
|
| - **Тип модели:** Subword токенизатор (BPE) |
| - **Язык:** Русский |
| - **Алгоритм:** Byte Pair Encoding |
| - **Размер словаря:** 16 000 |
| - **Минимальная частота:** 3 |
| - **Нормализация:** NFKC |
| - **Пре-токенизация:** Whitespace |
|
|
| --- |
|
|
| ## 📚 Корпус |
|
|
| Токенизатор обучен на корпусе из **55 000+ слов**, собранных с русскоязычных новостных сайтов: |
| - [ria.ru](https://ria.ru) |
| - [lenta.ru](https://lenta.ru) |
| - [meduza.io](https://meduza.io) |
| - [kommersant.ru](https://www.kommersant.ru) |
|
|
| (Корпус собран в 2025 году и включает тексты новостных статей разных тематик.) |
|
|
| --- |
|
|
| ## 📊 Метрики |
|
|
| | Метрика | Значение | Описание | |
| |----------|-----------|-----------| |
| | **OOV rate** | 6% | Доля слов, отсутствующих в словаре | |
| | **Reconstruction accuracy** | 2% | Точность восстановления исходного текста после токенизации | |
| | **Compression ratio** | 0.59 | Коэффициент сжатия корпуса | |
|
|
| --- |
|
|
| ## 🚀 Пример использования |
|
|
| ```python |
| from tokenizers import Tokenizer |
| |
| tokenizer = Tokenizer.from_pretrained("Shu-vi/russian-bpe-tokenizer-16k") |
| |
| # Пример |
| text = "В Казани в 2024 прошёл БРИКС." |
| encoded = tokenizer.encode(text) |
| |
| print("Токены:", encoded.tokens) |
| print("IDs:", encoded.ids) |
| |