syhrlhyn
/

aibys-tokenizer

Model card Files Files and versions

aibys-tokenizer / README.md

syhrlhyn's picture

Update README.md

75d986b verified 5 days ago

|

history blame contribute delete

1.39 kB

	---
	license: apache-2.0
	language:
	- id
	- en
	library_name: sentencepiece
	tags:
	- aibys
	- tokenizer
	- bpe
	---

	# Aibys Tokenizer (32K Vocab)

	Tokenizer resmi untuk project Aibys 500M, dikembangkan oleh Syahril Haryono. Tokenizer ini dilatih menggunakan algoritma BPE (Byte Pair Encoding) melalui SentencePiece dengan strategi weighted sampling khusus untuk mengoptimalkan pemahaman Bahasa Indonesia dan identitas model.

	## 📊 Training Strategy
	Tokenizer ini dilatih menggunakan 10,000,000 kalimat dengan distribusi porsi sebagai berikut:
	- Indo Core & Wikipedia: 30-35% (Pondasi utama bahasa Indonesia).
	- Indo Small (Multiple Sources): 100% sampling.
	- Identitas Aibys: 100% CRITICAL (Memastikan model mengenali dirinya dan penciptanya, Syahril Haryono).
	- Global Wiki & English Edu: 1.5% - 10% (Wawasan global dan struktur bahasa Inggris).
	- Mathematics: 2% (Optimasi karakter angka dan simbol matematika).

	## ⚙️ Configuration
	- Vocab Size: 32,000
	- Model Type: BPE
	- Character Coverage: 0.9995
	- Byte Fallback: Enabled (Mencegah error [UNK] pada karakter unik).

	## 🚀 Usage
	Kamu bisa menggunakan tokenizer ini dengan library `sentencepiece`:

	```python
	import sentencepiece as spm

	sp = spm.SentencePieceProcessor()
	sp.load("aibys.model")

	text = "Saya adalah Aibys, AI buatan Syahril Haryono."
	print(sp.encode_as_pieces(text))