| | --- |
| | license: apache-2.0 |
| | language: |
| | - id |
| | - en |
| | library_name: sentencepiece |
| | tags: |
| | - aibys |
| | - tokenizer |
| | - bpe |
| | --- |
| | |
| | # Aibys Tokenizer (32K Vocab) |
| |
|
| | Tokenizer resmi untuk project **Aibys 500M**, dikembangkan oleh **Syahril Haryono**. Tokenizer ini dilatih menggunakan algoritma BPE (Byte Pair Encoding) melalui SentencePiece dengan strategi *weighted sampling* khusus untuk mengoptimalkan pemahaman Bahasa Indonesia dan identitas model. |
| |
|
| | ## ๐ Training Strategy |
| | Tokenizer ini dilatih menggunakan **10,000,000 kalimat** dengan distribusi porsi sebagai berikut: |
| | - **Indo Core & Wikipedia**: 30-35% (Pondasi utama bahasa Indonesia). |
| | - **Indo Small (Multiple Sources)**: 100% sampling. |
| | - **Identitas Aibys**: 100% CRITICAL (Memastikan model mengenali dirinya dan penciptanya, Syahril Haryono). |
| | - **Global Wiki & English Edu**: 1.5% - 10% (Wawasan global dan struktur bahasa Inggris). |
| | - **Mathematics**: 2% (Optimasi karakter angka dan simbol matematika). |
| |
|
| | ## โ๏ธ Configuration |
| | - **Vocab Size**: 32,000 |
| | - **Model Type**: BPE |
| | - **Character Coverage**: 0.9995 |
| | - **Byte Fallback**: Enabled (Mencegah error [UNK] pada karakter unik). |
| |
|
| | ## ๐ Usage |
| | Kamu bisa menggunakan tokenizer ini dengan library `sentencepiece`: |
| |
|
| | ```python |
| | import sentencepiece as spm |
| | |
| | sp = spm.SentencePieceProcessor() |
| | sp.load("aibys.model") |
| | |
| | text = "Saya adalah Aibys, AI buatan Syahril Haryono." |
| | print(sp.encode_as_pieces(text)) |