Aibys Tokenizer (32K Vocab)

Tokenizer resmi untuk project Aibys 500M, dikembangkan oleh Syahril Haryono. Tokenizer ini dilatih menggunakan algoritma BPE (Byte Pair Encoding) melalui SentencePiece dengan strategi weighted sampling khusus untuk mengoptimalkan pemahaman Bahasa Indonesia dan identitas model.

πŸ“Š Training Strategy

Tokenizer ini dilatih menggunakan 10,000,000 kalimat dengan distribusi porsi sebagai berikut:

  • Indo Core & Wikipedia: 30-35% (Pondasi utama bahasa Indonesia).
  • Indo Small (Multiple Sources): 100% sampling.
  • Identitas Aibys: 100% CRITICAL (Memastikan model mengenali dirinya dan penciptanya, Syahril Haryono).
  • Global Wiki & English Edu: 1.5% - 10% (Wawasan global dan struktur bahasa Inggris).
  • Mathematics: 2% (Optimasi karakter angka dan simbol matematika).

βš™οΈ Configuration

  • Vocab Size: 32,000
  • Model Type: BPE
  • Character Coverage: 0.9995
  • Byte Fallback: Enabled (Mencegah error [UNK] pada karakter unik).

πŸš€ Usage

Kamu bisa menggunakan tokenizer ini dengan library sentencepiece:

import sentencepiece as spm

sp = spm.SentencePieceProcessor()
sp.load("aibys.model")

text = "Saya adalah Aibys, AI buatan Syahril Haryono."
print(sp.encode_as_pieces(text))
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support