Instructions to use BobCodeur/qwen2.5-0.5b-wolof with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- PEFT
How to use BobCodeur/qwen2.5-0.5b-wolof with PEFT:
from peft import PeftModel from transformers import AutoModelForCausalLM base_model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B") model = PeftModel.from_pretrained(base_model, "BobCodeur/qwen2.5-0.5b-wolof") - Notebooks
- Google Colab
- Kaggle
Qwen2.5-0.5B Wolof (adaptateur LoRA)
Adaptateur LoRA entraînant Qwen2.5-0.5B à générer du texte en wolof, langue d'Afrique de l'Ouest peu dotée. Projet de recherche M2 (NLP).
- Modèle de base :
Qwen/Qwen2.5-0.5B - Type : adaptateur LoRA (causal language modeling)
- Langue : wolof (
wo) - Auteur : BobCodeur
Utilisation
⚠️ C'est un adaptateur : on charge la base Qwen2.5-0.5B puis on applique l'adaptateur.
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
base = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B")
model = PeftModel.from_pretrained(base, "BobCodeur/qwen2.5-0.5b-wolof")
tokenizer = AutoTokenizer.from_pretrained("BobCodeur/qwen2.5-0.5b-wolof")
# Amorce clairement wolof pour rester dans la langue
prompt = "Dakar mooy gëblag réew mi. Lii ëpp ci yëngu-yëngu yi ci wàllu koom-koom"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
sortie = model.generate(
**inputs,
max_new_tokens=80,
do_sample=True,
temperature=0.6,
top_p=0.9,
repetition_penalty=1.15,
)
print(tokenizer.decode(sortie[0], skip_special_tokens=True))
Données d'entraînement
Corpus wolof (~886 000 mots) fusionné depuis plusieurs sources publiques, nettoyé (caractères non-latins retirés, dédoublonné) :
- Waxal (
galsenai/WaxalNLP) — transcriptions - Wikipedia wolof (
wikimedia/wikipedia,20231101.wo) - CC-100 wolof (
data.statmt.org/cc-100/wo.txt.xz) - MAFAND fr-wol (
masakhane/lafand-mt)
Détails d'entraînement
| Hyperparamètre | Valeur |
|---|---|
LoRA r / alpha |
16 / 32 |
| Modules ciblés | q, k, v, o, gate, up, down |
| Epochs | 5 |
| Learning rate | 2e-4 (cosine, warmup 5 %) |
| Précision | fp16 mixte |
| Blocs | 256 tokens |
| Matériel | 1× GPU T4 (Colab) |
Résultat : loss d'entraînement ≈ 2.1 (perplexité ≈ 8).
Limitations
- Petit modèle (0.5B) : sur des prompts courts ou ambigus, la génération peut dériver vers d'autres langues (anglais, etc.), car le prior multilingue de Qwen domine. Utiliser des amorces clairement wolof et assez longues.
- Corpus modeste (~886k mots) : couverture lexicale et factuelle limitée.
- Orthographe mixte (conventions wolof variées présentes dans le corpus).
Framework
- PEFT 0.19.1
- Downloads last month
- 22
Model tree for BobCodeur/qwen2.5-0.5b-wolof
Base model
Qwen/Qwen2.5-0.5B