How to use from the
Use from the
PEFT library
from peft import PeftModel
from transformers import AutoModelForSequenceClassification

base_model = AutoModelForSequenceClassification.from_pretrained("AbderrahmanSkiredj1/BERTouch")
model = PeftModel.from_pretrained(base_model, "MedAdil/BERTal")

🇲🇦 BERTal — Classification Sémantique de Messages en Darija Marocaine

Comprendre la Darija, l'Arabizi et le Français — là où les modèles classiques échouent.

BERTal est un modèle de classification de texte fine-tuné sur BERTouch via la méthode LoRA, spécialisé dans la compréhension sémantique des messages rédigés en Darija marocaine, en Arabizi (écriture latine du dialecte) et en Français — y compris leurs mélanges (Code-switching), phénomène omniprésent dans la communication numérique marocaine.


🎯 Tâche

Classification automatique de messages en 7 catégories métier :

Catégorie Description
🔵 Recrutement Offres d'emploi, CV, entretiens, stages
🟢 Personnel Famille, amis, échanges informels
🟠 Commercial Vente, achat, prix, promotions
🟣 Administratif Documents officiels, CNSS, CIN, commune
🩵 Education Examens, cours, université, concours
🔴 Santé Médecin, pharmacie, hôpital, médicaments
⚫ Autre Sport, divertissement, actualités

🧠 Pourquoi BERTal ?

La Darija marocaine est l'une des langues les plus parlées au Maghreb, utilisée quotidiennement par plus de 40 millions de personnes, mais quasi absente des ressources NLP existantes. Elle présente trois défis majeurs :

  • Aucune orthographe standardisée — chaque locuteur écrit à sa façon
  • Arabizi omniprésent — mélange de chiffres et de lettres latines (3, 7, 9)
  • Code-switching permanent — Darija + Français dans la même phrase

BERTal relève ces défis en s'appuyant sur BERTouch, le seul modèle BERT pré-entraîné nativement sur la Darija marocaine, et en l'adaptant via LoRA sur un dataset multilingue de 351 573 phrases couvrant les trois scripts.


📊 Performances

Évaluation Score
Accuracy (validation, 52 736 phrases) 81.34%
Accuracy (jeu de test inédit 70 phrases multilingues) 74.3%
Baseline sans fine-tuning 11.4%
Gain total +62.9 points

Résultats par catégorie (jeu de test 70 phrases)

Catégorie Score
Recrutement 90%
Santé 90%
Commercial 80%
Autre 80%
Personnel 60%
Administratif 60%
Education 60%

🗂️ Dataset d'entraînement

Le modèle a été entraîné sur un dataset multilingue construit en 4 versions itératives à partir du corpus ATLASIA, enrichi par génération synthétique via Gemini 2.5 Flash.

Script Lignes %
Arabe (Darija) 191 654 54.5%
Arabizi 107 567 30.6%
Français 52 352 14.9%
Total 351 573 100%

Déséquilibre inter-classes : 1.35x (quasi équilibré naturellement).


⚙️ Configuration LoRA

LoraConfig(
    task_type      = TaskType.SEQ_CLS,
    r              = 16,
    lora_alpha     = 32,
    lora_dropout   = 0.1,
    target_modules = ["query", "value"]
)
  • Paramètres entraînables : 595 207 / 135 793 934 (0.44%)
  • Époques : 3
  • GPU : Tesla T4 (Google Colab)
  • Batch size : 32

🚀 Utilisation

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from peft import PeftModel

CATEGORIES = [
    'Recrutement', 'Personnel', 'Commercial',
    'Administratif', 'Education', 'Sante', 'Autre'
]
label2id = {label: idx for idx, label in enumerate(CATEGORIES)}
id2label = {idx: label for idx, label in enumerate(CATEGORIES)}

# Charger le modèle
tokenizer   = AutoTokenizer.from_pretrained("MedAdil/BERTal")
base_model  = AutoModelForSequenceClassification.from_pretrained(
    "AbderrahmanSkiredj1/BERTouch",
    num_labels              = 7,
    id2label                = id2label,
    label2id                = label2id,
    ignore_mismatched_sizes = True
)
model = PeftModel.from_pretrained(base_model, "MedAdil/BERTal")
model.eval()

# Classifier un message
def classifier(texte: str) -> dict:
    inputs  = tokenizer(texte, return_tensors="pt", truncation=True, max_length=128)
    with torch.no_grad():
        logits  = model(**inputs).logits
    probas       = F.softmax(logits, dim=-1)[0]
    scores       = {id2label[i]: round(float(p), 4) for i, p in enumerate(probas)}
    label_predit = max(scores, key=scores.get)
    return {"label": label_predit, "confidence": scores[label_predit], "scores": scores}

# Exemples
print(classifier("bghit nkhdem f had chrika IT"))
# → {'label': 'Recrutement', 'confidence': 0.9935, ...}

print(classifier("خصني رونديفو عند الطبيب"))
# → {'label': 'Sante', 'confidence': 0.9904, ...}

print(classifier("Je cherche un appartement à Oujda"))
# → {'label': 'Commercial', 'confidence': 0.9942, ...}

📝 Citation

@misc{mani2026bertal,
  author    = {Mohammed Adil MANI},
  title     = {BERTal: LoRA Fine-tuning of BERTouch for Multilingual 
               Moroccan Darija Message Classification},
  year      = {2026},
  publisher = {Hugging Face},
  url       = {https://huggingface.co/MedAdil/BERTal}
}

BERTal — Bringing NLP to the language of millions 🇲🇦

Downloads last month
57
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for MedAdil/BERTal

Adapter
(1)
this model