syhrlhyn
/

aibys-tokenizer

Model card Files Files and versions

syhrlhyn commited on 4 days ago

Commit

75d986b

·

verified ·

1 Parent(s): 1cfad42

Update README.md

Files changed (1) hide show

README.md +41 -3

README.md CHANGED Viewed

@@ -1,3 +1,41 @@
----
-license: apache-2.0
----

+---
+license: apache-2.0
+language:
+- id
+- en
+library_name: sentencepiece
+tags:
+- aibys
+- tokenizer
+- bpe
+---
+# Aibys Tokenizer (32K Vocab)
+Tokenizer resmi untuk project **Aibys 500M**, dikembangkan oleh **Syahril Haryono**. Tokenizer ini dilatih menggunakan algoritma BPE (Byte Pair Encoding) melalui SentencePiece dengan strategi *weighted sampling* khusus untuk mengoptimalkan pemahaman Bahasa Indonesia dan identitas model.
+## 📊 Training Strategy
+Tokenizer ini dilatih menggunakan **10,000,000 kalimat** dengan distribusi porsi sebagai berikut:
+- **Indo Core & Wikipedia**: 30-35% (Pondasi utama bahasa Indonesia).
+- **Indo Small (Multiple Sources)**: 100% sampling.
+- **Identitas Aibys**: 100% CRITICAL (Memastikan model mengenali dirinya dan penciptanya, Syahril Haryono).
+- **Global Wiki & English Edu**: 1.5% - 10% (Wawasan global dan struktur bahasa Inggris).
+- **Mathematics**: 2% (Optimasi karakter angka dan simbol matematika).
+## ⚙️ Configuration
+- **Vocab Size**: 32,000
+- **Model Type**: BPE
+- **Character Coverage**: 0.9995
+- **Byte Fallback**: Enabled (Mencegah error [UNK] pada karakter unik).
+## 🚀 Usage
+Kamu bisa menggunakan tokenizer ini dengan library `sentencepiece`:
+```python
+import sentencepiece as spm
+sp = spm.SentencePieceProcessor()
+sp.load("aibys.model")
+text = "Saya adalah Aibys, AI buatan Syahril Haryono."
+print(sp.encode_as_pieces(text))