Tropic-AI
/

moBERTo

Eval Results (legacy)

Model card Files Files and versions

thiagolaitz commited on 7 days ago

Commit

162ee7b

·

verified ·

1 Parent(s): 6f800c6

Update README.md

Files changed (1) hide show

README.md +10 -3

README.md CHANGED Viewed

@@ -215,7 +215,6 @@ Cross-encoder reranking, fine-tuned on mMARCO-PT triples.
 > **Note on GLUE:** As expected from continued pretraining on Portuguese, English
 > performance degrades. ModernBERT-base remains the strongest on GLUE (0.8301);
-> this trade-off reflects the finite capacity of a base-sized model.
 ---
@@ -285,11 +284,19 @@ Same hyperparameters as Phase 1, except:
 | Hugging Face Repo                              | Paper Name                  | Tokenizer | Long-ctx post-tr. |
 |------------------------------------------------|-----------------------------|-----------|-------------------|
-| `Tropic-AI/moBERTo-orig-tokenizer-1k`          | moBERTo (orig. tok.)        | Original  | No                |
 | `Tropic-AI/moBERTo-orig-tokenizer`             | moBERTo-8k (orig. tok.)     | Original  | Yes               |
-| `Tropic-AI/moBERTo-1k`                         | moBERTo-SWM (PT tok.)       | PT (SWM)  | No                |
 | **`Tropic-AI/moBERTo` *(this)*               * | **moBERTo-SWM-8k (PT tok.)**| PT (SWM)  | **Yes**           |
 ---
 ## Citation

 > **Note on GLUE:** As expected from continued pretraining on Portuguese, English
 > performance degrades. ModernBERT-base remains the strongest on GLUE (0.8301);
 ---
 | Hugging Face Repo                              | Paper Name                  | Tokenizer | Long-ctx post-tr. |
 |------------------------------------------------|-----------------------------|-----------|-------------------|
 | `Tropic-AI/moBERTo-orig-tokenizer`             | moBERTo-8k (orig. tok.)     | Original  | Yes               |
 | **`Tropic-AI/moBERTo` *(this)*               * | **moBERTo-SWM-8k (PT tok.)**| PT (SWM)  | **Yes**           |
 ---
 ## Citation
+@misc{laitz2026mobertomodernencoderportuguese,
+      title={moBERTo: A Modern Encoder for Portuguese via Continued Pretraining of ModernBERT},
+      author={Thiago Laitz and Thales Sales Almeida and João Guilherme Alves Santos and Giovana Kerche Bonás},
+      year={2026},
+      eprint={2606.22722},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2606.22722},
+}