stefan-it
/

ModernBERT-large-tokenizer-fix

Model card Files Files and versions

ModernBERT-large-tokenizer-fix / tokenizer_config.json

Commit History

fix: also use `add_prefix_space = True` in tokenizer config

d36a72c
verified

stefan-it commited on May 8, 2025

feat: use RoBERTa tokenizer to (hopefully) fix some tokenization problems for token classification tasks

8962aeb
verified

stefan-it commited on May 8, 2025

Set tokenizer "model_max_length" property to 8192 (#9)

45bb465
verified

NohTow commited on Jan 15, 2025

undo last commit

4bbcbf4
verified

bclavie commited on Jan 11, 2025

Add `"add_prefix_space": true,`; this allows for much stronger token-level performance (e.g. NER, ColBERT) (#10)

d1d612e
verified

tomaarsen HF Staff commited on Jan 11, 2025

Update tokenizer: Set lstrip=True for [MASK]

b1cadbc

Tom Aarsen commited on Dec 17, 2024

Upload ModernBERT-large model

dca61cc

Tom Aarsen commited on Dec 11, 2024