jonasaise
/

oellm_tokenizer_262k_v2

Model card Files Files and versions

jonasaise commited on Sep 12, 2025

Commit

e582746

·

verified ·

1 Parent(s): a5e1957

Update languages and fix

Files changed (1) hide show

README.md +43 -11

README.md CHANGED Viewed

@@ -1,16 +1,48 @@
 ---
 license: apache-2.0
 language:
-- en
-- sv
-- fr
-- de
-- fi
-- es
-- it
-- nl
-- pl
-# Add other key languages here
 ---
 # OpenEuroLLM Tokenizer v2 (oellm-262k-v2)
@@ -64,10 +96,10 @@ print(f"Encoded token IDs: {encoded_ids}")
 decoded_text = tokenizer.decode(encoded_ids)
 print(f"Decoded text: {decoded_text}")
-```
 # The tokenizer automatically adds a BOS token
 # >>> Decoded text: <s> Hej, detta är ett test av den nya OpenEuroLLM-tokeniseraren.
 ## Intended Use and Limitations
 This tokenizer is intended to be used for pre-training and fine-tuning large language models

 ---
 license: apache-2.0
 language:
+- als
+- bos
+- bul
+- cat
+- ces
+- dan
+- deu
+- ekk
+- ell
+- eng
+- est
+- eus
+- fin
+- fra
+- gle
+- glg
+- hrv
+- hun
+- isl
+- ita
+- kat
+- lav
+- lit
+- ltg
+- lvs
+- mkd
+- mlt
+- nld
+- nno
+- nob
+- nor
+- pol
+- por
+- ron
+- slk
+- slv
+- spa
+- sqi
+- srp
+- swe
+- tur
+- ukr
 ---
 # OpenEuroLLM Tokenizer v2 (oellm-262k-v2)
 decoded_text = tokenizer.decode(encoded_ids)
 print(f"Decoded text: {decoded_text}")
 # The tokenizer automatically adds a BOS token
 # >>> Decoded text: <s> Hej, detta är ett test av den nya OpenEuroLLM-tokeniseraren.
+```
 ## Intended Use and Limitations
 This tokenizer is intended to be used for pre-training and fine-tuning large language models