# src/evaluators/normalization/datasets.py
NORMALIZATION_DATASETS = {
    "madar-tun": {
        "path": "tunis-ai/MADAR-TUN",
        "split": "test",  # or "test" if available
        "arabish_col": "arabish",
        "canonical_col": "lem",  # could also be "words"
        "description": "MADAR-TUN: Arabizi → Lemma normalization"
    }
}