--- library\_name: transformers tags: - translation - sequence-to-sequence - wolof - french --- # Wolof–French BART Translation Model Card **Résumé rapide :** Ce modèle est une version fine‑tuned de `facebook/bart-base` pour la **traduction** du Wolof vers le Français. ## Model Details ### Model Description Ce modèle Seq2Seq basé sur BART a été entraîné avec PyTorch Lightning et Weights & Biases pour optimiser la métrique BLEU sur un corpus Wolof–Français de 35 000 phrases. * **Développé par :** Diamweli Mamadou Diadie SANKARE * LinkedIn: https://sn.linkedin.com/in/diamweli-sankare-713001192 * **Type de modèle :** Seq2Seq / Transformer (BART) * **Langues :** Wolof → Français * **Licence :** MIT * **Modèle fine‑tuned depuis :** `facebook/bart-base` ### Usage prévu * **Utilisation directe :** Traduction de phrases du Wolof vers le Français * **Cas d’usage en aval :** Intégration dans des applications de traduction automatique ou assistée ## Bias, Risks, and Limitations * Le modèle peut produire des traductions inexactes pour des phrases idiomatiques ou des termes peu fréquents. * Biais possible lié à la distribution des phrases du corpus d’entraînement. * # Traduit mieux les phrases courtes essayez avec des phrases de moins de 10 mots **Recommandations :** * Vérifier les traductions critiques manuellement. * Enrichir le corpus d’entraînement avec des phrases variés et longues pour améliorer la couverture lexicale. ## How to Get Started with the Model ```python from transformers import AutoTokenizer, AutoModelForSeq2SeqLM tokenizer = AutoTokenizer.from_pretrained("Diamweli/wolof-bart-finetuned") model = AutoModelForSeq2SeqLM.from_pretrained("Diamweli/wolof-bart-finetuned") # Exemple de traduction text = "Ambedkar mingi judd ci xeetu Dalit, di xeet wu ñu joxul benn cër ci Inde ndax dañu naan kenn du leen laal." inputs = tokenizer(text, return_tensors="pt") outputs = model.generate( **inputs, max_new_tokens=100, num_beams=4, early_stopping=True, ) result = tokenizer.decode(outputs[0], skip_special_tokens=True) print(result) # → Traduction en français ``` ## Training Details * **Données :** 35 000 paires de phrases Wolof–Français au format CSV * **Framework :** PyTorch Lightning, Hugging Face Transformers * **Optimisation :** Bayesian sweep W\&B sur la métrique BLEU * **Hyperparamètres clés :** * Learning Rate = 6.59e-5 * Batch size = 64 * Epochs = 5 * `src_max_len` = 74, `tgt_max_len` = 99 ## Evaluation * **Métrique principale :** BLEU * **Jeu de validation :** 10 % du corpus initial ### Résultats | Metric | Score | |-------------|-----------| | BLEU | 4.8945 | | ROUGE-1 | 0.2454 | | ROUGE-2 | 0.0745 | | ROUGE-L | 0.2098 | | ROUGE-Lsum | 0.2097 | | Test Loss | 3.5154 | ## Model Card Authors * Diamweli Mamadou Diadie SANKARE ## Contact Pour toute question, contactez : [sankarediamweli@gmail.com](mailto:sankarediamweli@gmail.com])