AIntelligenceSEN commited on
Commit
023d4b4
·
verified ·
1 Parent(s): ff986f1

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +104 -0
README.md ADDED
@@ -0,0 +1,104 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+
3
+ library\_name: transformers
4
+ tags:
5
+
6
+ - translation
7
+ - sequence-to-sequence
8
+ - wolof
9
+ - french
10
+
11
+ ---
12
+
13
+ # Wolof–French BART Translation Model Card
14
+
15
+ **Résumé rapide :**
16
+ Ce modèle est une version fine‑tuned de `facebook/bart-base` pour la **traduction** du Wolof vers le Français.
17
+
18
+ ## Model Details
19
+
20
+ ### Model Description
21
+
22
+ Ce modèle Seq2Seq basé sur BART a été entraîné avec PyTorch Lightning et Weights & Biases pour optimiser la métrique BLEU sur un corpus Wolof–Français de 35 000 phrases.
23
+
24
+ * **Développé par :** Diamweli Mamadou Diadie SANKARE
25
+ * LinkedIn: https://sn.linkedin.com/in/diamweli-sankare-713001192
26
+ * **Type de modèle :** Seq2Seq / Transformer (BART)
27
+ * **Langues :** Wolof → Français
28
+ * **Licence :** MIT
29
+ * **Modèle fine‑tuned depuis :** `facebook/bart-base`
30
+
31
+ ### Usage prévu
32
+
33
+ * **Utilisation directe :** Traduction de phrases du Wolof vers le Français
34
+ * **Cas d’usage en aval :** Intégration dans des applications de traduction automatique ou assistée
35
+
36
+ ## Bias, Risks, and Limitations
37
+
38
+ * Le modèle peut produire des traductions inexactes pour des phrases idiomatiques ou des termes peu fréquents.
39
+ * Biais possible lié à la distribution des phrases du corpus d’entraînement.
40
+ * # Traduit mieux les phrases courtes essayez avec des phrases de moins de 10 mots
41
+
42
+ **Recommandations :**
43
+
44
+ * Vérifier les traductions critiques manuellement.
45
+ * Enrichir le corpus d’entraînement avec des phrases variés et longues pour améliorer la couverture lexicale.
46
+
47
+ ## How to Get Started with the Model
48
+
49
+ ```python
50
+ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
51
+
52
+ tokenizer = AutoTokenizer.from_pretrained("Diamweli/wolof-bart-finetuned")
53
+ model = AutoModelForSeq2SeqLM.from_pretrained("Diamweli/wolof-bart-finetuned")
54
+
55
+ # Exemple de traduction
56
+ text = "Ambedkar mingi judd ci xeetu Dalit, di xeet wu ñu joxul benn cër ci Inde ndax dañu naan kenn du leen laal."
57
+ inputs = tokenizer(text, return_tensors="pt")
58
+ outputs = model.generate(
59
+ **inputs,
60
+ max_new_tokens=100,
61
+ num_beams=4,
62
+ early_stopping=True,
63
+ )
64
+ result = tokenizer.decode(outputs[0], skip_special_tokens=True)
65
+ print(result)
66
+ # → Traduction en français
67
+ ```
68
+
69
+ ## Training Details
70
+
71
+ * **Données :** 35 000 paires de phrases Wolof–Français au format CSV
72
+ * **Framework :** PyTorch Lightning, Hugging Face Transformers
73
+ * **Optimisation :** Bayesian sweep W\&B sur la métrique BLEU
74
+ * **Hyperparamètres clés :**
75
+
76
+ * Learning Rate = 6.59e-5
77
+ * Batch size = 64
78
+ * Epochs = 5
79
+ * `src_max_len` = 74, `tgt_max_len` = 99
80
+
81
+ ## Evaluation
82
+
83
+ * **Métrique principale :** BLEU
84
+ * **Jeu de validation :** 10 % du corpus initial
85
+
86
+ ### Résultats
87
+
88
+ | Metric | Score |
89
+ |-------------|-----------|
90
+ | BLEU | 4.8945 |
91
+ | ROUGE-1 | 0.2454 |
92
+ | ROUGE-2 | 0.0745 |
93
+ | ROUGE-L | 0.2098 |
94
+ | ROUGE-Lsum | 0.2097 |
95
+ | Test Loss | 3.5154 |
96
+
97
+
98
+ ## Model Card Authors
99
+
100
+ * Diamweli Mamadou Diadie SANKARE
101
+
102
+ ## Contact
103
+
104
+ Pour toute question, contactez : [sankarediamweli@gmail.com](mailto:sankarediamweli@gmail.com])