Add Hugging Face model card metadata
Browse files
README.md
CHANGED
|
@@ -20,6 +20,7 @@ Multrenizer is a bilingual English-Turkish Unigram tokenizer built from scratch
|
|
| 20 |
## Links
|
| 21 |
|
| 22 |
- Repository: [github.com/fzengin19/multrenizer](https://github.com/fzengin19/multrenizer)
|
|
|
|
| 23 |
|
| 24 |
## Why Multrenizer?
|
| 25 |
|
|
@@ -94,27 +95,27 @@ Selected examples:
|
|
| 94 |
```text
|
| 95 |
güzelleştirilmiş
|
| 96 |
Multrenizer: güzel + leştirilmiş [2 tokens]
|
| 97 |
-
Kumru-2B: 2 tokens
|
| 98 |
Turkcell-7B: güzel + leştirilmiş [2 tokens]
|
| 99 |
-
Qwen-3: 5 tokens
|
| 100 |
-
Mistral-3.1: 5 tokens
|
| 101 |
-
GPT-2: 10 tokens
|
| 102 |
|
| 103 |
İstanbul'da
|
| 104 |
Multrenizer: istanbul + ' + da [3 tokens]
|
| 105 |
-
Kumru-2B: 3 tokens
|
| 106 |
Turkcell-7B: İstanbul + ' + da [3 tokens]
|
| 107 |
-
Qwen-3: 4 tokens
|
| 108 |
-
Mistral-3.1: 4 tokens
|
| 109 |
-
GPT-2: 5 tokens
|
| 110 |
|
| 111 |
Afyonkarahisarlılaştıramadıklarımızdan
|
| 112 |
Multrenizer: afyonkarahisar + lı + laştı + r + ama + dıkları + mızda + n [8 tokens]
|
| 113 |
-
Kumru-2B: 8 tokens
|
| 114 |
-
Turkcell-7B: 9 tokens
|
| 115 |
-
Qwen-3: 16 tokens
|
| 116 |
-
Mistral-3.1: 16 tokens
|
| 117 |
-
GPT-2: 21 tokens
|
| 118 |
```
|
| 119 |
|
| 120 |
### Turkish I/i Normalization
|
|
@@ -169,7 +170,7 @@ source .venv/bin/activate
|
|
| 169 |
pip install -r requirements.txt
|
| 170 |
```
|
| 171 |
|
| 172 |
-
### Use the shipped tokenizer
|
| 173 |
|
| 174 |
```python
|
| 175 |
from tokenizers import Tokenizer
|
|
@@ -184,6 +185,27 @@ print(tok.normalizer.normalize_str("IŞIK"))
|
|
| 184 |
# 'ışık'
|
| 185 |
```
|
| 186 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 187 |
### Train from scratch
|
| 188 |
|
| 189 |
```bash
|
|
@@ -195,8 +217,8 @@ python train_tokenizer.py --data-dir data/
|
|
| 195 |
|
| 196 |
# 3. Optional: push tokenizer files to Hugging Face Hub
|
| 197 |
python train_tokenizer.py --data-dir data/ \
|
| 198 |
-
--repo-id
|
| 199 |
-
--hf-token
|
| 200 |
```
|
| 201 |
|
| 202 |
### Run benchmarks
|
|
|
|
| 20 |
## Links
|
| 21 |
|
| 22 |
- Repository: [github.com/fzengin19/multrenizer](https://github.com/fzengin19/multrenizer)
|
| 23 |
+
- Hugging Face: [huggingface.co/fzengin18/multrenizer](https://huggingface.co/fzengin18/multrenizer)
|
| 24 |
|
| 25 |
## Why Multrenizer?
|
| 26 |
|
|
|
|
| 95 |
```text
|
| 96 |
güzelleştirilmiş
|
| 97 |
Multrenizer: güzel + leştirilmiş [2 tokens]
|
| 98 |
+
Kumru-2B: güzel + leÅŁtirilmiÅŁ [2 tokens]
|
| 99 |
Turkcell-7B: güzel + leştirilmiş [2 tokens]
|
| 100 |
+
Qwen-3: g + üz + elle + ÅŁtir + ilmiÅŁ [5 tokens]
|
| 101 |
+
Mistral-3.1: g + üz + elle + ÅŁtir + ilmiÅŁ [5 tokens]
|
| 102 |
+
GPT-2: g + ü + z + elle + ÅŁ + t + ir + il + mi + ÅŁ [10 tokens]
|
| 103 |
|
| 104 |
İstanbul'da
|
| 105 |
Multrenizer: istanbul + ' + da [3 tokens]
|
| 106 |
+
Kumru-2B: İstanbul + ' + da [3 tokens]
|
| 107 |
Turkcell-7B: İstanbul + ' + da [3 tokens]
|
| 108 |
+
Qwen-3: İ + stanbul + 'd + a [4 tokens]
|
| 109 |
+
Mistral-3.1: İ + stanbul + 'd + a [4 tokens]
|
| 110 |
+
GPT-2: Ä + ° + stanbul + 'd + a [5 tokens]
|
| 111 |
|
| 112 |
Afyonkarahisarlılaştıramadıklarımızdan
|
| 113 |
Multrenizer: afyonkarahisar + lı + laştı + r + ama + dıkları + mızda + n [8 tokens]
|
| 114 |
+
Kumru-2B: Af + yonkarahisar + lı + laÅŁtır + ama + dık + larımız + dan [8 tokens]
|
| 115 |
+
Turkcell-7B: Afyon + kar + ah + is + arlı + laştır + a + madık + larımızdan [9 tokens]
|
| 116 |
+
Qwen-3: Af + yon + kar + ah + is + ar + lı + la + ÅŁt + ı + ram + ad + ıkl + ar + ımız + dan [16 tokens]
|
| 117 |
+
Mistral-3.1: Af + yon + kar + ah + is + arl + ı + laÅŁt + ı + ram + ad + ıkları + m + ı + zd + an [16 tokens]
|
| 118 |
+
GPT-2: Af + yon + kar + ah + is + arl + ı + la + ÅŁ + t + ı + ram + ad + ı + k + lar + ı + m + ı + z + dan [21 tokens]
|
| 119 |
```
|
| 120 |
|
| 121 |
### Turkish I/i Normalization
|
|
|
|
| 170 |
pip install -r requirements.txt
|
| 171 |
```
|
| 172 |
|
| 173 |
+
### Use the shipped tokenizer locally
|
| 174 |
|
| 175 |
```python
|
| 176 |
from tokenizers import Tokenizer
|
|
|
|
| 185 |
# 'ışık'
|
| 186 |
```
|
| 187 |
|
| 188 |
+
### Load from Hugging Face
|
| 189 |
+
|
| 190 |
+
```python
|
| 191 |
+
from tokenizers import Tokenizer
|
| 192 |
+
|
| 193 |
+
tok = Tokenizer.from_pretrained("fzengin18/multrenizer")
|
| 194 |
+
|
| 195 |
+
encoded = tok.encode("İstanbul'da güzel bir gün")
|
| 196 |
+
print(encoded.tokens)
|
| 197 |
+
# ['<s>', 'istanbul', "'", 'da', 'güzel', 'bir', 'gün', '</s>']
|
| 198 |
+
```
|
| 199 |
+
|
| 200 |
+
If you use `transformers`, this also works:
|
| 201 |
+
|
| 202 |
+
```python
|
| 203 |
+
from transformers import AutoTokenizer
|
| 204 |
+
|
| 205 |
+
tok = AutoTokenizer.from_pretrained("fzengin18/multrenizer")
|
| 206 |
+
print(tok.tokenize("İstanbul'da güzel bir gün"))
|
| 207 |
+
```
|
| 208 |
+
|
| 209 |
### Train from scratch
|
| 210 |
|
| 211 |
```bash
|
|
|
|
| 217 |
|
| 218 |
# 3. Optional: push tokenizer files to Hugging Face Hub
|
| 219 |
python train_tokenizer.py --data-dir data/ \
|
| 220 |
+
--repo-id fzengin18/multrenizer \
|
| 221 |
+
--hf-token "$HF_TOKEN"
|
| 222 |
```
|
| 223 |
|
| 224 |
### Run benchmarks
|