--- license: apache-2.0 language: - id - en library_name: sentencepiece tags: - aibys - tokenizer - bpe --- # Aibys Tokenizer (32K Vocab) Tokenizer resmi untuk project **Aibys 500M**, dikembangkan oleh **Syahril Haryono**. Tokenizer ini dilatih menggunakan algoritma BPE (Byte Pair Encoding) melalui SentencePiece dengan strategi *weighted sampling* khusus untuk mengoptimalkan pemahaman Bahasa Indonesia dan identitas model. ## 📊 Training Strategy Tokenizer ini dilatih menggunakan **10,000,000 kalimat** dengan distribusi porsi sebagai berikut: - **Indo Core & Wikipedia**: 30-35% (Pondasi utama bahasa Indonesia). - **Indo Small (Multiple Sources)**: 100% sampling. - **Identitas Aibys**: 100% CRITICAL (Memastikan model mengenali dirinya dan penciptanya, Syahril Haryono). - **Global Wiki & English Edu**: 1.5% - 10% (Wawasan global dan struktur bahasa Inggris). - **Mathematics**: 2% (Optimasi karakter angka dan simbol matematika). ## ⚙️ Configuration - **Vocab Size**: 32,000 - **Model Type**: BPE - **Character Coverage**: 0.9995 - **Byte Fallback**: Enabled (Mencegah error [UNK] pada karakter unik). ## 🚀 Usage Kamu bisa menggunakan tokenizer ini dengan library `sentencepiece`: ```python import sentencepiece as spm sp = spm.SentencePieceProcessor() sp.load("aibys.model") text = "Saya adalah Aibys, AI buatan Syahril Haryono." print(sp.encode_as_pieces(text))