damfle
/

multistral-tokenizer

@@ -23,16 +23,16 @@ Training completed successfully!
 ## Datasets
 - nick007x/github-code-2025 (35%)
-- HuggingFaceFW/fineweb-2 (10%)
-- HuggingFaceFW/fineweb-2 (15%)
-- HuggingFaceFW/fineweb-2 (15%)
-- HuggingFaceFW/fineweb (25%)
 ## Special Tokens
-<|begin|>, <|return|>, <|pad|>, <|start|>, <|channel|>, <|end|>, <|message|>, <|image|>, <|video|>, <|audio|>, <|call|>, <|constrain|>, <|unknown|>
 ## Enforced Vocabulary
-analysis, assistant, commentary, developer, final, json, system, tool, toon, user, yaml
 ## Usage
@@ -42,4 +42,4 @@ from multistral.multistraltokenizer import MultistralTokenizer
 tokenizer = MultistralTokenizer.from_pretrained("models/aizia_tokenizer")
 tokens = tokenizer.encode("Your text here")
 text = tokenizer.decode(tokens)
-```

 ## Datasets
 - nick007x/github-code-2025 (35%)
+- HuggingFaceFW/fineweb-2 - Lojban (10%)
+- HuggingFaceFW/fineweb-2 - French (15%)
+- HuggingFaceFW/fineweb-2 - Chinese (15%)
+- HuggingFaceFW/fineweb - English (25%)
 ## Special Tokens
+```<|begin|>, <|return|>, <|pad|>, <|start|>, <|channel|>, <|end|>, <|message|>, <|image|>, <|video|>, <|audio|>, <|call|>, <|constrain|>, <|unknown|>```
 ## Enforced Vocabulary
+```analysis, assistant, commentary, developer, final, json, system, tool, toon, user, yaml```
 ## Usage
 tokenizer = MultistralTokenizer.from_pretrained("models/aizia_tokenizer")
 tokens = tokenizer.encode("Your text here")
 text = tokenizer.decode(tokens)
+```