AIntelligenceSEN
/

bart_french_wolof

sequence-to-sequence

Model card Files Files and versions

AIntelligenceSEN commited on Aug 4, 2025

Commit

023d4b4

·

verified ·

1 Parent(s): ff986f1

Create README.md

Files changed (1) hide show

README.md +104 -0

README.md ADDED Viewed

	@@ -0,0 +1,104 @@

+---
+library\_name: transformers
+tags:
+- translation
+- sequence-to-sequence
+- wolof
+- french
+---
+# Wolof–French BART Translation Model Card
+**Résumé rapide :**
+Ce modèle est une version fine‑tuned de `facebook/bart-base` pour la **traduction** du Wolof vers le Français.
+## Model Details
+### Model Description
+Ce modèle Seq2Seq basé sur BART a été entraîné avec PyTorch Lightning et Weights & Biases pour optimiser la métrique BLEU sur un corpus Wolof–Français de 35 000 phrases.
+* **Développé par :** Diamweli Mamadou Diadie SANKARE
+* LinkedIn: https://sn.linkedin.com/in/diamweli-sankare-713001192
+* **Type de modèle :** Seq2Seq / Transformer (BART)
+* **Langues :** Wolof → Français
+* **Licence :** MIT
+* **Modèle fine‑tuned depuis :** `facebook/bart-base`
+### Usage prévu
+* **Utilisation directe :** Traduction de phrases du Wolof vers le Français
+* **Cas d’usage en aval :** Intégration dans des applications de traduction automatique ou assistée
+## Bias, Risks, and Limitations
+* Le modèle peut produire des traductions inexactes pour des phrases idiomatiques ou des termes peu fréquents.
+* Biais possible lié à la distribution des phrases du corpus d’entraînement.
+* # Traduit mieux les phrases courtes essayez avec des phrases de moins de 10 mots
+**Recommandations :**
+* Vérifier les traductions critiques manuellement.
+* Enrichir le corpus d’entraînement avec des phrases variés et longues pour améliorer la couverture lexicale.
+## How to Get Started with the Model
+```python
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+tokenizer = AutoTokenizer.from_pretrained("Diamweli/wolof-bart-finetuned")
+model     = AutoModelForSeq2SeqLM.from_pretrained("Diamweli/wolof-bart-finetuned")
+# Exemple de traduction
+text = "Ambedkar mingi judd ci xeetu Dalit, di xeet wu ñu joxul benn cër ci Inde ndax dañu naan kenn du leen laal."
+inputs = tokenizer(text, return_tensors="pt")
+outputs = model.generate(
+    **inputs,
+    max_new_tokens=100,
+    num_beams=4,
+    early_stopping=True,
+)
+result = tokenizer.decode(outputs[0], skip_special_tokens=True)
+print(result)
+# → Traduction en français
+```
+## Training Details
+* **Données :** 35 000 paires de phrases Wolof–Français au format CSV
+* **Framework :** PyTorch Lightning, Hugging Face Transformers
+* **Optimisation :** Bayesian sweep W\&B sur la métrique BLEU
+* **Hyperparamètres clés :**
+  * Learning Rate = 6.59e-5
+  * Batch size = 64
+  * Epochs = 5
+  * `src_max_len` = 74, `tgt_max_len` = 99
+## Evaluation
+* **Métrique principale :** BLEU
+* **Jeu de validation :** 10 % du corpus initial
+### Résultats
+| Metric      | Score     |
+|-------------|-----------|
+| BLEU        | 4.8945    |
+| ROUGE-1     | 0.2454    |
+| ROUGE-2     | 0.0745    |
+| ROUGE-L     | 0.2098    |
+| ROUGE-Lsum  | 0.2097    |
+| Test Loss   | 3.5154    |
+## Model Card Authors
+* Diamweli Mamadou Diadie SANKARE
+## Contact
+Pour toute question, contactez : [sankarediamweli@gmail.com](mailto:sankarediamweli@gmail.com])