openeurollm
/

tokenizer-256k

european-languages

Model card Files Files and versions

timpal0l commited on Feb 23

Commit

ac1ce77

·

verified ·

1 Parent(s): 74b8574

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -47,7 +47,7 @@ tags:
 license: apache-2.0
 ---
-# OpenEuroLLM Tokenizer (262k)
 A **262,144-token SentencePiece BPE tokenizer** designed for efficient tokenization across all EU official languages and additional European languages. Trained on 173 GB of curated multilingual text from the OpenEuroLLM data catalogue on LUMI HPC.
@@ -63,7 +63,7 @@ A **262,144-token SentencePiece BPE tokenizer** designed for efficient tokenizat
 ```python
 from transformers import AutoTokenizer
-tok = AutoTokenizer.from_pretrained("openeurollm/tokenizer-262k")
 text = "Hello world! Bonjour le monde. Hej världen!"
 ids = tok(text)["input_ids"]

 license: apache-2.0
 ---
+# OpenEuroLLM Tokenizer (256k)
 A **262,144-token SentencePiece BPE tokenizer** designed for efficient tokenization across all EU official languages and additional European languages. Trained on 173 GB of curated multilingual text from the OpenEuroLLM data catalogue on LUMI HPC.
 ```python
 from transformers import AutoTokenizer
+tok = AutoTokenizer.from_pretrained("openeurollm/tokenizer-256k")
 text = "Hello world! Bonjour le monde. Hej världen!"
 ids = tok(text)["input_ids"]