AIntelligenceSEN
/

bart_french_wolof

sequence-to-sequence

Model card Files Files and versions

bart_french_wolof / README.md

AIntelligenceSEN's picture

AIntelligenceSEN

Create README.md

023d4b4 verified 7 months ago

|

history blame contribute delete

3.05 kB

	---

	library\_name: transformers
	tags:

	- translation
	- sequence-to-sequence
	- wolof
	- french

	---

	# Wolof–French BART Translation Model Card

	Résumé rapide :
	Ce modèle est une version fine‑tuned de `facebook/bart-base` pour la traduction du Wolof vers le Français.

	## Model Details

	### Model Description

	Ce modèle Seq2Seq basé sur BART a été entraîné avec PyTorch Lightning et Weights & Biases pour optimiser la métrique BLEU sur un corpus Wolof–Français de 35 000 phrases.

	* Développé par : Diamweli Mamadou Diadie SANKARE
	* LinkedIn: https://sn.linkedin.com/in/diamweli-sankare-713001192
	* Type de modèle : Seq2Seq / Transformer (BART)
	* Langues : Wolof → Français
	* Licence : MIT
	* Modèle fine‑tuned depuis : `facebook/bart-base`

	### Usage prévu

	* Utilisation directe : Traduction de phrases du Wolof vers le Français
	* Cas d’usage en aval : Intégration dans des applications de traduction automatique ou assistée

	## Bias, Risks, and Limitations

	* Le modèle peut produire des traductions inexactes pour des phrases idiomatiques ou des termes peu fréquents.
	* Biais possible lié à la distribution des phrases du corpus d’entraînement.
	* # Traduit mieux les phrases courtes essayez avec des phrases de moins de 10 mots

	Recommandations :

	* Vérifier les traductions critiques manuellement.
	* Enrichir le corpus d’entraînement avec des phrases variés et longues pour améliorer la couverture lexicale.

	## How to Get Started with the Model

	```python
	from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

	tokenizer = AutoTokenizer.from_pretrained("Diamweli/wolof-bart-finetuned")
	model = AutoModelForSeq2SeqLM.from_pretrained("Diamweli/wolof-bart-finetuned")

	# Exemple de traduction
	text = "Ambedkar mingi judd ci xeetu Dalit, di xeet wu ñu joxul benn cër ci Inde ndax dañu naan kenn du leen laal."
	inputs = tokenizer(text, return_tensors="pt")
	outputs = model.generate(
	**inputs,
	max_new_tokens=100,
	num_beams=4,
	early_stopping=True,
	)
	result = tokenizer.decode(outputs[0], skip_special_tokens=True)
	print(result)
	# → Traduction en français
	```

	## Training Details

	* Données : 35 000 paires de phrases Wolof–Français au format CSV
	* Framework : PyTorch Lightning, Hugging Face Transformers
	* Optimisation : Bayesian sweep W\&B sur la métrique BLEU
	* Hyperparamètres clés :

	* Learning Rate = 6.59e-5
	* Batch size = 64
	* Epochs = 5
	* `src_max_len` = 74, `tgt_max_len` = 99

	## Evaluation

	* Métrique principale : BLEU
	* Jeu de validation : 10 % du corpus initial

	### Résultats

	\| Metric \| Score \|
	\|-------------\|-----------\|
	\| BLEU \| 4.8945 \|
	\| ROUGE-1 \| 0.2454 \|
	\| ROUGE-2 \| 0.0745 \|
	\| ROUGE-L \| 0.2098 \|
	\| ROUGE-Lsum \| 0.2097 \|
	\| Test Loss \| 3.5154 \|


	## Model Card Authors

	* Diamweli Mamadou Diadie SANKARE

	## Contact

	Pour toute question, contactez : [sankarediamweli@gmail.com](mailto:sankarediamweli@gmail.com])