Qwen2.5-0.5B Wolof (adaptateur LoRA)

Adaptateur LoRA entraînant Qwen2.5-0.5B à générer du texte en wolof, langue d'Afrique de l'Ouest peu dotée. Projet de recherche M2 (NLP).

  • Modèle de base : Qwen/Qwen2.5-0.5B
  • Type : adaptateur LoRA (causal language modeling)
  • Langue : wolof (wo)
  • Auteur : BobCodeur

Utilisation

⚠️ C'est un adaptateur : on charge la base Qwen2.5-0.5B puis on applique l'adaptateur.

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel

base = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B")
model = PeftModel.from_pretrained(base, "BobCodeur/qwen2.5-0.5b-wolof")
tokenizer = AutoTokenizer.from_pretrained("BobCodeur/qwen2.5-0.5b-wolof")

# Amorce clairement wolof pour rester dans la langue
prompt = "Dakar mooy gëblag réew mi. Lii ëpp ci yëngu-yëngu yi ci wàllu koom-koom"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

sortie = model.generate(
    **inputs,
    max_new_tokens=80,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
    repetition_penalty=1.15,
)
print(tokenizer.decode(sortie[0], skip_special_tokens=True))

Données d'entraînement

Corpus wolof (~886 000 mots) fusionné depuis plusieurs sources publiques, nettoyé (caractères non-latins retirés, dédoublonné) :

  • Waxal (galsenai/WaxalNLP) — transcriptions
  • Wikipedia wolof (wikimedia/wikipedia, 20231101.wo)
  • CC-100 wolof (data.statmt.org/cc-100/wo.txt.xz)
  • MAFAND fr-wol (masakhane/lafand-mt)

Détails d'entraînement

Hyperparamètre Valeur
LoRA r / alpha 16 / 32
Modules ciblés q, k, v, o, gate, up, down
Epochs 5
Learning rate 2e-4 (cosine, warmup 5 %)
Précision fp16 mixte
Blocs 256 tokens
Matériel 1× GPU T4 (Colab)

Résultat : loss d'entraînement ≈ 2.1 (perplexité ≈ 8).

Limitations

  • Petit modèle (0.5B) : sur des prompts courts ou ambigus, la génération peut dériver vers d'autres langues (anglais, etc.), car le prior multilingue de Qwen domine. Utiliser des amorces clairement wolof et assez longues.
  • Corpus modeste (~886k mots) : couverture lexicale et factuelle limitée.
  • Orthographe mixte (conventions wolof variées présentes dans le corpus).

Framework

  • PEFT 0.19.1
Downloads last month
22
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for BobCodeur/qwen2.5-0.5b-wolof

Adapter
(424)
this model

Spaces using BobCodeur/qwen2.5-0.5b-wolof 2