Update README.md
Browse files
README.md
CHANGED
|
@@ -1,3 +1,41 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: apache-2.0
|
| 3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: apache-2.0
|
| 3 |
+
language:
|
| 4 |
+
- id
|
| 5 |
+
- en
|
| 6 |
+
library_name: sentencepiece
|
| 7 |
+
tags:
|
| 8 |
+
- aibys
|
| 9 |
+
- tokenizer
|
| 10 |
+
- bpe
|
| 11 |
+
---
|
| 12 |
+
|
| 13 |
+
# Aibys Tokenizer (32K Vocab)
|
| 14 |
+
|
| 15 |
+
Tokenizer resmi untuk project **Aibys 500M**, dikembangkan oleh **Syahril Haryono**. Tokenizer ini dilatih menggunakan algoritma BPE (Byte Pair Encoding) melalui SentencePiece dengan strategi *weighted sampling* khusus untuk mengoptimalkan pemahaman Bahasa Indonesia dan identitas model.
|
| 16 |
+
|
| 17 |
+
## 📊 Training Strategy
|
| 18 |
+
Tokenizer ini dilatih menggunakan **10,000,000 kalimat** dengan distribusi porsi sebagai berikut:
|
| 19 |
+
- **Indo Core & Wikipedia**: 30-35% (Pondasi utama bahasa Indonesia).
|
| 20 |
+
- **Indo Small (Multiple Sources)**: 100% sampling.
|
| 21 |
+
- **Identitas Aibys**: 100% CRITICAL (Memastikan model mengenali dirinya dan penciptanya, Syahril Haryono).
|
| 22 |
+
- **Global Wiki & English Edu**: 1.5% - 10% (Wawasan global dan struktur bahasa Inggris).
|
| 23 |
+
- **Mathematics**: 2% (Optimasi karakter angka dan simbol matematika).
|
| 24 |
+
|
| 25 |
+
## ⚙️ Configuration
|
| 26 |
+
- **Vocab Size**: 32,000
|
| 27 |
+
- **Model Type**: BPE
|
| 28 |
+
- **Character Coverage**: 0.9995
|
| 29 |
+
- **Byte Fallback**: Enabled (Mencegah error [UNK] pada karakter unik).
|
| 30 |
+
|
| 31 |
+
## 🚀 Usage
|
| 32 |
+
Kamu bisa menggunakan tokenizer ini dengan library `sentencepiece`:
|
| 33 |
+
|
| 34 |
+
```python
|
| 35 |
+
import sentencepiece as spm
|
| 36 |
+
|
| 37 |
+
sp = spm.SentencePieceProcessor()
|
| 38 |
+
sp.load("aibys.model")
|
| 39 |
+
|
| 40 |
+
text = "Saya adalah Aibys, AI buatan Syahril Haryono."
|
| 41 |
+
print(sp.encode_as_pieces(text))
|