fzengin18 commited on
Commit
a60203b
·
verified ·
1 Parent(s): 2c2ec04

Add Hugging Face model card metadata

Browse files
Files changed (1) hide show
  1. README.md +38 -16
README.md CHANGED
@@ -20,6 +20,7 @@ Multrenizer is a bilingual English-Turkish Unigram tokenizer built from scratch
20
  ## Links
21
 
22
  - Repository: [github.com/fzengin19/multrenizer](https://github.com/fzengin19/multrenizer)
 
23
 
24
  ## Why Multrenizer?
25
 
@@ -94,27 +95,27 @@ Selected examples:
94
  ```text
95
  güzelleştirilmiş
96
  Multrenizer: güzel + leştirilmiş [2 tokens]
97
- Kumru-2B: 2 tokens
98
  Turkcell-7B: güzel + leştirilmiş [2 tokens]
99
- Qwen-3: 5 tokens
100
- Mistral-3.1: 5 tokens
101
- GPT-2: 10 tokens
102
 
103
  İstanbul'da
104
  Multrenizer: istanbul + ' + da [3 tokens]
105
- Kumru-2B: 3 tokens
106
  Turkcell-7B: İstanbul + ' + da [3 tokens]
107
- Qwen-3: 4 tokens
108
- Mistral-3.1: 4 tokens
109
- GPT-2: 5 tokens
110
 
111
  Afyonkarahisarlılaştıramadıklarımızdan
112
  Multrenizer: afyonkarahisar + lı + laştı + r + ama + dıkları + mızda + n [8 tokens]
113
- Kumru-2B: 8 tokens
114
- Turkcell-7B: 9 tokens
115
- Qwen-3: 16 tokens
116
- Mistral-3.1: 16 tokens
117
- GPT-2: 21 tokens
118
  ```
119
 
120
  ### Turkish I/i Normalization
@@ -169,7 +170,7 @@ source .venv/bin/activate
169
  pip install -r requirements.txt
170
  ```
171
 
172
- ### Use the shipped tokenizer
173
 
174
  ```python
175
  from tokenizers import Tokenizer
@@ -184,6 +185,27 @@ print(tok.normalizer.normalize_str("IŞIK"))
184
  # 'ışık'
185
  ```
186
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
187
  ### Train from scratch
188
 
189
  ```bash
@@ -195,8 +217,8 @@ python train_tokenizer.py --data-dir data/
195
 
196
  # 3. Optional: push tokenizer files to Hugging Face Hub
197
  python train_tokenizer.py --data-dir data/ \
198
- --repo-id your-username/multrenizer \
199
- --hf-token hf_xxxxx
200
  ```
201
 
202
  ### Run benchmarks
 
20
  ## Links
21
 
22
  - Repository: [github.com/fzengin19/multrenizer](https://github.com/fzengin19/multrenizer)
23
+ - Hugging Face: [huggingface.co/fzengin18/multrenizer](https://huggingface.co/fzengin18/multrenizer)
24
 
25
  ## Why Multrenizer?
26
 
 
95
  ```text
96
  güzelleştirilmiş
97
  Multrenizer: güzel + leştirilmiş [2 tokens]
98
+ Kumru-2B: güzel + leÅŁtirilmiÅŁ [2 tokens]
99
  Turkcell-7B: güzel + leştirilmiş [2 tokens]
100
+ Qwen-3: g + üz + elle + ÅŁtir + ilmiÅŁ [5 tokens]
101
+ Mistral-3.1: g + üz + elle + ÅŁtir + ilmiÅŁ [5 tokens]
102
+ GPT-2: g + ü + z + elle + ÅŁ + t + ir + il + mi + ÅŁ [10 tokens]
103
 
104
  İstanbul'da
105
  Multrenizer: istanbul + ' + da [3 tokens]
106
+ Kumru-2B: İstanbul + ' + da [3 tokens]
107
  Turkcell-7B: İstanbul + ' + da [3 tokens]
108
+ Qwen-3: İ + stanbul + 'd + a [4 tokens]
109
+ Mistral-3.1: İ + stanbul + 'd + a [4 tokens]
110
+ GPT-2: Ä + ° + stanbul + 'd + a [5 tokens]
111
 
112
  Afyonkarahisarlılaştıramadıklarımızdan
113
  Multrenizer: afyonkarahisar + lı + laştı + r + ama + dıkları + mızda + n [8 tokens]
114
+ Kumru-2B: Af + yonkarahisar + lı + laÅŁtır + ama + dık + larımız + dan [8 tokens]
115
+ Turkcell-7B: Afyon + kar + ah + is + arlı + laştır + a + madık + larımızdan [9 tokens]
116
+ Qwen-3: Af + yon + kar + ah + is + ar + lı + la + ÅŁt + ı + ram + ad + ıkl + ar + ımız + dan [16 tokens]
117
+ Mistral-3.1: Af + yon + kar + ah + is + arl + ı + laÅŁt + ı + ram + ad + ıkları + m + ı + zd + an [16 tokens]
118
+ GPT-2: Af + yon + kar + ah + is + arl + ı + la + ÅŁ + t + ı + ram + ad + ı + k + lar + ı + m + ı + z + dan [21 tokens]
119
  ```
120
 
121
  ### Turkish I/i Normalization
 
170
  pip install -r requirements.txt
171
  ```
172
 
173
+ ### Use the shipped tokenizer locally
174
 
175
  ```python
176
  from tokenizers import Tokenizer
 
185
  # 'ışık'
186
  ```
187
 
188
+ ### Load from Hugging Face
189
+
190
+ ```python
191
+ from tokenizers import Tokenizer
192
+
193
+ tok = Tokenizer.from_pretrained("fzengin18/multrenizer")
194
+
195
+ encoded = tok.encode("İstanbul'da güzel bir gün")
196
+ print(encoded.tokens)
197
+ # ['<s>', 'istanbul', "'", 'da', 'güzel', 'bir', 'gün', '</s>']
198
+ ```
199
+
200
+ If you use `transformers`, this also works:
201
+
202
+ ```python
203
+ from transformers import AutoTokenizer
204
+
205
+ tok = AutoTokenizer.from_pretrained("fzengin18/multrenizer")
206
+ print(tok.tokenize("İstanbul'da güzel bir gün"))
207
+ ```
208
+
209
  ### Train from scratch
210
 
211
  ```bash
 
217
 
218
  # 3. Optional: push tokenizer files to Hugging Face Hub
219
  python train_tokenizer.py --data-dir data/ \
220
+ --repo-id fzengin18/multrenizer \
221
+ --hf-token "$HF_TOKEN"
222
  ```
223
 
224
  ### Run benchmarks