---
license: apache-2.0
language:
- id
- en
library_name: sentencepiece
tags:
- aibys
- tokenizer
- bpe
---

# Aibys Tokenizer (32K Vocab)

Tokenizer resmi untuk project **Aibys 500M**, dikembangkan oleh **Syahril Haryono**. Tokenizer ini dilatih menggunakan algoritma BPE (Byte Pair Encoding) melalui SentencePiece dengan strategi *weighted sampling* khusus untuk mengoptimalkan pemahaman Bahasa Indonesia dan identitas model.

## 📊 Training Strategy
Tokenizer ini dilatih menggunakan **10,000,000 kalimat** dengan distribusi porsi sebagai berikut:
- **Indo Core & Wikipedia**: 30-35% (Pondasi utama bahasa Indonesia).
- **Indo Small (Multiple Sources)**: 100% sampling.
- **Identitas Aibys**: 100% CRITICAL (Memastikan model mengenali dirinya dan penciptanya, Syahril Haryono).
- **Global Wiki & English Edu**: 1.5% - 10% (Wawasan global dan struktur bahasa Inggris).
- **Mathematics**: 2% (Optimasi karakter angka dan simbol matematika).

## ⚙️ Configuration
- **Vocab Size**: 32,000
- **Model Type**: BPE
- **Character Coverage**: 0.9995
- **Byte Fallback**: Enabled (Mencegah error [UNK] pada karakter unik).

## 🚀 Usage
Kamu bisa menggunakan tokenizer ini dengan library `sentencepiece`:

```python
import sentencepiece as spm

sp = spm.SentencePieceProcessor()
sp.load("aibys.model")

text = "Saya adalah Aibys, AI buatan Syahril Haryono."
print(sp.encode_as_pieces(text))