aibys-tokenizer / README.md
syhrlhyn's picture
Update README.md
75d986b verified
---
license: apache-2.0
language:
- id
- en
library_name: sentencepiece
tags:
- aibys
- tokenizer
- bpe
---
# Aibys Tokenizer (32K Vocab)
Tokenizer resmi untuk project **Aibys 500M**, dikembangkan oleh **Syahril Haryono**. Tokenizer ini dilatih menggunakan algoritma BPE (Byte Pair Encoding) melalui SentencePiece dengan strategi *weighted sampling* khusus untuk mengoptimalkan pemahaman Bahasa Indonesia dan identitas model.
## ๐Ÿ“Š Training Strategy
Tokenizer ini dilatih menggunakan **10,000,000 kalimat** dengan distribusi porsi sebagai berikut:
- **Indo Core & Wikipedia**: 30-35% (Pondasi utama bahasa Indonesia).
- **Indo Small (Multiple Sources)**: 100% sampling.
- **Identitas Aibys**: 100% CRITICAL (Memastikan model mengenali dirinya dan penciptanya, Syahril Haryono).
- **Global Wiki & English Edu**: 1.5% - 10% (Wawasan global dan struktur bahasa Inggris).
- **Mathematics**: 2% (Optimasi karakter angka dan simbol matematika).
## โš™๏ธ Configuration
- **Vocab Size**: 32,000
- **Model Type**: BPE
- **Character Coverage**: 0.9995
- **Byte Fallback**: Enabled (Mencegah error [UNK] pada karakter unik).
## ๐Ÿš€ Usage
Kamu bisa menggunakan tokenizer ini dengan library `sentencepiece`:
```python
import sentencepiece as spm
sp = spm.SentencePieceProcessor()
sp.load("aibys.model")
text = "Saya adalah Aibys, AI buatan Syahril Haryono."
print(sp.encode_as_pieces(text))