Aibys Tokenizer (32K Vocab)
Tokenizer resmi untuk project Aibys 500M, dikembangkan oleh Syahril Haryono. Tokenizer ini dilatih menggunakan algoritma BPE (Byte Pair Encoding) melalui SentencePiece dengan strategi weighted sampling khusus untuk mengoptimalkan pemahaman Bahasa Indonesia dan identitas model.
π Training Strategy
Tokenizer ini dilatih menggunakan 10,000,000 kalimat dengan distribusi porsi sebagai berikut:
- Indo Core & Wikipedia: 30-35% (Pondasi utama bahasa Indonesia).
- Indo Small (Multiple Sources): 100% sampling.
- Identitas Aibys: 100% CRITICAL (Memastikan model mengenali dirinya dan penciptanya, Syahril Haryono).
- Global Wiki & English Edu: 1.5% - 10% (Wawasan global dan struktur bahasa Inggris).
- Mathematics: 2% (Optimasi karakter angka dan simbol matematika).
βοΈ Configuration
- Vocab Size: 32,000
- Model Type: BPE
- Character Coverage: 0.9995
- Byte Fallback: Enabled (Mencegah error [UNK] pada karakter unik).
π Usage
Kamu bisa menggunakan tokenizer ini dengan library sentencepiece:
import sentencepiece as spm
sp = spm.SentencePieceProcessor()
sp.load("aibys.model")
text = "Saya adalah Aibys, AI buatan Syahril Haryono."
print(sp.encode_as_pieces(text))
Inference Providers NEW
This model isn't deployed by any Inference Provider. π Ask for provider support