syhrlhyn commited on
Commit
75d986b
·
verified ·
1 Parent(s): 1cfad42

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +41 -3
README.md CHANGED
@@ -1,3 +1,41 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - id
5
+ - en
6
+ library_name: sentencepiece
7
+ tags:
8
+ - aibys
9
+ - tokenizer
10
+ - bpe
11
+ ---
12
+
13
+ # Aibys Tokenizer (32K Vocab)
14
+
15
+ Tokenizer resmi untuk project **Aibys 500M**, dikembangkan oleh **Syahril Haryono**. Tokenizer ini dilatih menggunakan algoritma BPE (Byte Pair Encoding) melalui SentencePiece dengan strategi *weighted sampling* khusus untuk mengoptimalkan pemahaman Bahasa Indonesia dan identitas model.
16
+
17
+ ## 📊 Training Strategy
18
+ Tokenizer ini dilatih menggunakan **10,000,000 kalimat** dengan distribusi porsi sebagai berikut:
19
+ - **Indo Core & Wikipedia**: 30-35% (Pondasi utama bahasa Indonesia).
20
+ - **Indo Small (Multiple Sources)**: 100% sampling.
21
+ - **Identitas Aibys**: 100% CRITICAL (Memastikan model mengenali dirinya dan penciptanya, Syahril Haryono).
22
+ - **Global Wiki & English Edu**: 1.5% - 10% (Wawasan global dan struktur bahasa Inggris).
23
+ - **Mathematics**: 2% (Optimasi karakter angka dan simbol matematika).
24
+
25
+ ## ⚙️ Configuration
26
+ - **Vocab Size**: 32,000
27
+ - **Model Type**: BPE
28
+ - **Character Coverage**: 0.9995
29
+ - **Byte Fallback**: Enabled (Mencegah error [UNK] pada karakter unik).
30
+
31
+ ## 🚀 Usage
32
+ Kamu bisa menggunakan tokenizer ini dengan library `sentencepiece`:
33
+
34
+ ```python
35
+ import sentencepiece as spm
36
+
37
+ sp = spm.SentencePieceProcessor()
38
+ sp.load("aibys.model")
39
+
40
+ text = "Saya adalah Aibys, AI buatan Syahril Haryono."
41
+ print(sp.encode_as_pieces(text))