ThingsAI commited on
Commit
c88472a
·
verified ·
1 Parent(s): 1910046

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +0 -11
README.md CHANGED
@@ -44,17 +44,6 @@ Il tokenizer è stato addestrato su ~14M righe bilanciate EN/IT (50%/50%) proven
44
 
45
  La parità EN/IT è una scelta deliberata: i tokenizer addestrati prevalentemente su inglese tendono a usare 2–3× più token per rappresentare testi italiani. Questo tokenizer è ottimizzato per entrambe le lingue.
46
 
47
- # Efficienza
48
- Confronto token/carattere su testi scientifici e colloquiali:
49
-
50
- | Lingua | Quark Tokenizer | cosmo2-tokenizer | Δ |
51
- |---|---|---|---|
52
- | Inglese (scientifico) | — | — | ~0% |
53
- | Italiano (scientifico) | — | — | **~−25%** |
54
- | Italiano (colloquiale) | — | — | **~−30%** |
55
-
56
- > Il tokenizer Quark usa fino al 30% meno token per testi italiani rispetto a tokenizer ottimizzati solo per l'inglese.
57
-
58
  # Special Tokens
59
  ```
60
  <unk> → unknown
 
44
 
45
  La parità EN/IT è una scelta deliberata: i tokenizer addestrati prevalentemente su inglese tendono a usare 2–3× più token per rappresentare testi italiani. Questo tokenizer è ottimizzato per entrambe le lingue.
46
 
 
 
 
 
 
 
 
 
 
 
 
47
  # Special Tokens
48
  ```
49
  <unk> → unknown