Aibys Tokenizer (32K Vocab)

Tokenizer resmi untuk project Aibys 500M, dikembangkan oleh Syahril Haryono. Tokenizer ini dilatih menggunakan algoritma BPE (Byte Pair Encoding) melalui SentencePiece dengan strategi weighted sampling khusus untuk mengoptimalkan pemahaman Bahasa Indonesia dan identitas model.

📊 Training Strategy

Tokenizer ini dilatih menggunakan 10,000,000 kalimat dengan distribusi porsi sebagai berikut:

Indo Core & Wikipedia: 30-35% (Pondasi utama bahasa Indonesia).
Indo Small (Multiple Sources): 100% sampling.
Identitas Aibys: 100% CRITICAL (Memastikan model mengenali dirinya dan penciptanya, Syahril Haryono).
Global Wiki & English Edu: 1.5% - 10% (Wawasan global dan struktur bahasa Inggris).
Mathematics: 2% (Optimasi karakter angka dan simbol matematika).

⚙️ Configuration

Vocab Size: 32,000
Model Type: BPE
Character Coverage: 0.9995
Byte Fallback: Enabled (Mencegah error [UNK] pada karakter unik).

🚀 Usage

Kamu bisa menggunakan tokenizer ini dengan library sentencepiece:

import sentencepiece as spm

sp = spm.SentencePieceProcessor()
sp.load("aibys.model")

text = "Saya adalah Aibys, AI buatan Syahril Haryono."
print(sp.encode_as_pieces(text))

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support