| | --- |
| | |
| | library\_name: transformers |
| | tags: |
| |
|
| | - translation |
| | - sequence-to-sequence |
| | - wolof |
| | - french |
| |
|
| | --- |
| | |
| | # Wolof–French BART Translation Model Card |
| |
|
| | **Résumé rapide :** |
| | Ce modèle est une version fine‑tuned de `facebook/bart-base` pour la **traduction** du Wolof vers le Français. |
| |
|
| | ## Model Details |
| |
|
| | ### Model Description |
| |
|
| | Ce modèle Seq2Seq basé sur BART a été entraîné avec PyTorch Lightning et Weights & Biases pour optimiser la métrique BLEU sur un corpus Wolof–Français de 35 000 phrases. |
| |
|
| | * **Développé par :** Diamweli Mamadou Diadie SANKARE |
| | * LinkedIn: https://sn.linkedin.com/in/diamweli-sankare-713001192 |
| | * **Type de modèle :** Seq2Seq / Transformer (BART) |
| | * **Langues :** Wolof → Français |
| | * **Licence :** MIT |
| | * **Modèle fine‑tuned depuis :** `facebook/bart-base` |
| |
|
| | ### Usage prévu |
| |
|
| | * **Utilisation directe :** Traduction de phrases du Wolof vers le Français |
| | * **Cas d’usage en aval :** Intégration dans des applications de traduction automatique ou assistée |
| |
|
| | ## Bias, Risks, and Limitations |
| |
|
| | * Le modèle peut produire des traductions inexactes pour des phrases idiomatiques ou des termes peu fréquents. |
| | * Biais possible lié à la distribution des phrases du corpus d’entraînement. |
| | * # Traduit mieux les phrases courtes essayez avec des phrases de moins de 10 mots |
| |
|
| | **Recommandations :** |
| |
|
| | * Vérifier les traductions critiques manuellement. |
| | * Enrichir le corpus d’entraînement avec des phrases variés et longues pour améliorer la couverture lexicale. |
| |
|
| | ## How to Get Started with the Model |
| |
|
| | ```python |
| | from transformers import AutoTokenizer, AutoModelForSeq2SeqLM |
| | |
| | tokenizer = AutoTokenizer.from_pretrained("Diamweli/wolof-bart-finetuned") |
| | model = AutoModelForSeq2SeqLM.from_pretrained("Diamweli/wolof-bart-finetuned") |
| | |
| | # Exemple de traduction |
| | text = "Ambedkar mingi judd ci xeetu Dalit, di xeet wu ñu joxul benn cër ci Inde ndax dañu naan kenn du leen laal." |
| | inputs = tokenizer(text, return_tensors="pt") |
| | outputs = model.generate( |
| | **inputs, |
| | max_new_tokens=100, |
| | num_beams=4, |
| | early_stopping=True, |
| | ) |
| | result = tokenizer.decode(outputs[0], skip_special_tokens=True) |
| | print(result) |
| | # → Traduction en français |
| | ``` |
| |
|
| | ## Training Details |
| |
|
| | * **Données :** 35 000 paires de phrases Wolof–Français au format CSV |
| | * **Framework :** PyTorch Lightning, Hugging Face Transformers |
| | * **Optimisation :** Bayesian sweep W\&B sur la métrique BLEU |
| | * **Hyperparamètres clés :** |
| |
|
| | * Learning Rate = 6.59e-5 |
| | * Batch size = 64 |
| | * Epochs = 5 |
| | * `src_max_len` = 74, `tgt_max_len` = 99 |
| |
|
| | ## Evaluation |
| |
|
| | * **Métrique principale :** BLEU |
| | * **Jeu de validation :** 10 % du corpus initial |
| |
|
| | ### Résultats |
| |
|
| | | Metric | Score | |
| | |-------------|-----------| |
| | | BLEU | 4.8945 | |
| | | ROUGE-1 | 0.2454 | |
| | | ROUGE-2 | 0.0745 | |
| | | ROUGE-L | 0.2098 | |
| | | ROUGE-Lsum | 0.2097 | |
| | | Test Loss | 3.5154 | |
| |
|
| |
|
| | ## Model Card Authors |
| |
|
| | * Diamweli Mamadou Diadie SANKARE |
| |
|
| | ## Contact |
| |
|
| | Pour toute question, contactez : [sankarediamweli@gmail.com](mailto:sankarediamweli@gmail.com]) |