AdaMLLab
/

XLM-RoBERTa-Arabic-Quality-Classifier

Text Classification

quality_classifier

feature-extraction

quality-classifier

Model card Files Files and versions

SultanR commited on Jan 30

Commit

1f84cc7

·

verified ·

1 Parent(s): f62d881

Create README.md

Files changed (1) hide show

README.md +58 -0

README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+language:
+- ar
+license: apache-2.0
+library_name: transformers
+pipeline_tag: text-classification
+base_model: FacebookAI/xlm-roberta-base
+tags:
+- quality-classifier
+- data-filtering
+- pretraining
+- fineweb2-hq
+---
+<p align="center">
+  <a href="https://huggingface.co/collections/AdaMLLab/mixminmatch">
+    <img src="https://img.shields.io/badge/🤗_Collection-MixMinMatch-blue" alt="MixMinMatch Collection">
+  </a>
+</p>
+# XLM-RoBERTa Arabic Quality Classifier
+A text quality classifier for Arabic pretraining data, trained from XLM-RoBERTa. This model reproduces the FineWeb2-HQ approach ([Messmer et al., 2025](https://arxiv.org/abs/2502.10361)) for Arabic, as the original authors did not release their trained classifiers but did release their code.
+For improved Arabic performance and inference speed, see [mmBERT-Arabic-Quality-Classifier](https://huggingface.co/AdaMLLab/mmBERT-Arabic-Quality-Classifier).
+## Usage
+```python
+from transformers import pipeline
+classifier = pipeline("text-classification", model="AdaMLLab/XLM-RoBERTa-Arabic-Quality-Classifier")
+result = classifier("النص العربي هنا")
+```
+## Citation
+```bib
+@misc{messmer2025fineweb2hq,
+      title={Enhancing Multilingual LLM Pretraining with Model-Based Data Selection},
+      author={Bettina Messmer and Vinko Sabolčec and Martin Jaggi},
+      year={2025},
+      eprint={2502.10361},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2502.10361},
+}
+@misc{alrashed2025mixminmatch,
+      title={Mix, MinHash, and Match: Cross-Source Agreement for Multilingual Pretraining Datasets},
+      author={Sultan Alrashed and Francesco Orabona},
+      year={2025},
+      eprint={2512.18834v2},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.18834v2},
+}
+```