Update README.md
Browse files
README.md
CHANGED
|
@@ -44,17 +44,6 @@ Il tokenizer è stato addestrato su ~14M righe bilanciate EN/IT (50%/50%) proven
|
|
| 44 |
|
| 45 |
La parità EN/IT è una scelta deliberata: i tokenizer addestrati prevalentemente su inglese tendono a usare 2–3× più token per rappresentare testi italiani. Questo tokenizer è ottimizzato per entrambe le lingue.
|
| 46 |
|
| 47 |
-
# Efficienza
|
| 48 |
-
Confronto token/carattere su testi scientifici e colloquiali:
|
| 49 |
-
|
| 50 |
-
| Lingua | Quark Tokenizer | cosmo2-tokenizer | Δ |
|
| 51 |
-
|---|---|---|---|
|
| 52 |
-
| Inglese (scientifico) | — | — | ~0% |
|
| 53 |
-
| Italiano (scientifico) | — | — | **~−25%** |
|
| 54 |
-
| Italiano (colloquiale) | — | — | **~−30%** |
|
| 55 |
-
|
| 56 |
-
> Il tokenizer Quark usa fino al 30% meno token per testi italiani rispetto a tokenizer ottimizzati solo per l'inglese.
|
| 57 |
-
|
| 58 |
# Special Tokens
|
| 59 |
```
|
| 60 |
<unk> → unknown
|
|
|
|
| 44 |
|
| 45 |
La parità EN/IT è una scelta deliberata: i tokenizer addestrati prevalentemente su inglese tendono a usare 2–3× più token per rappresentare testi italiani. Questo tokenizer è ottimizzato per entrambe le lingue.
|
| 46 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 47 |
# Special Tokens
|
| 48 |
```
|
| 49 |
<unk> → unknown
|