Première version du tokenizer Baoulé

88f6d87 verified about 1 year ago

4.73 kB


	```markdown
	---
	language:
	- baq
	- bci
	- fr
	tags:
	- African NLP
	- low-resource language
	- sentencepiece
	- tokenizer
	- Baoulé
	- Côte d'Ivoire
	- translation
	- tonal language
	datasets:
	- custom
	license: apache-2.0
	library_name: transformers
	pipeline_tag: text2text-generation
	widget:
	- text: "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn"
	example_title: "Traduction de base"
	---

	# Tokenizer Baoulé : Modèle de Traduction Français-Baoulé

	🌍 Premier tokenizer SentencePiece spécialisé pour la langue Baoulé (Côte d'Ivoire) 🇨🇮

	[![Hugging Face Hub](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Model%20Hub-blue)](https://huggingface.co/votre_username/baoule-tokenizer)

	## Fonctionnalités Clés

	✅ Prise en charge complète des caractères tonals Baoulé (ɛ́, ɩ̄, ɔ̀, etc.)
	✅ Optimisé pour les modèles de traduction automatique (Transformer)
	✅ Vocabulaire de 206 tokens avec couverture linguistique complète
	✅ Intégration native avec 🤗 Transformers et Tokenizers
	✅ Compatible avec Google Traduction Custom Model et Amazon Translate

	## Installation et Utilisation

	```python
	from transformers import AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained("Adjoumani/BaouleTokenizer_V1")

	# Utilisation du tokenizer

	text = "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn"
	encoded = tokenizer.encode(text)
	decoded = tokenizer.decode(encoded)

	print(f"Tokens: {tokenizer.tokenize(text)}")
	# Output: ['W', 'a', 'f', 'a', '▁s', 'ɛ', '▁y', 'ɛ', '▁ɔ', '▁f', 'a', 't', 'a', '▁k', 'ɛ', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'e', '▁l', 'a', 'f', 'i', '▁s', 'u', '▁k', 'ɛ', '▁b', 'é', '▁t', 'r', 'á', 'n', '▁a', 's', 'i', 'ɛ', '’', 'n', '▁s', 'u', '▁w', 'a', '’', 'n', ',', '▁b', 'e', '▁b', 'u', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'é', '▁k', 'ɔ', '́', '▁ɲ', 'a', 'n', 'm', 'i', 'ɛ', 'n']
	```

	## Détails Techniques

	\| Paramètre \| Valeur \|
	\|--------------------\|----------------------\|
	\| Architecture \| SentencePiece BPE \|
	\| Taille du vocabulaire \| 206 \|
	\| Caractères couverts \| 1.0 (Unicode) \|
	\| Tokens spéciaux \| [BOS], [EOS], [UNK], [PAD] \|
	\| Langues cibles \| Français ↔ Baoulé \|
	\| Encodage \| UTF-8 \|

	## Tons Supportés

	Le tokenizer gère tous les tons Baoulé selon la norme Unicode :

	\| Caractère \| Code Unicode \| Exemple \|
	\|-----------\|--------------\|---------\|
	\| ɛ́ \| U+025B U+0301\| Mɔ́kɛ́ \|
	\| ɩ̄ \| U+0269 U+0304\| Ɩ̄tɩ̄ \|
	\| ɔ̀ \| U+0254 U+0300\| Kɔ̀lɔ̀ \|
	\| ɛ̂ \| U+025B U+0302\| Ɛ̂sɛ̂ \|

	## Cas d'Usage Recommandés

	- Traduction automatique Français-Baoulé
	- Synthèse vocale pour systèmes d'assistance vocale
	- Reconnaissance de la parole Baoulé
	- Outils éducatifs numériques
	- Préservation du patrimoine linguistique

	## Meilleures Pratiques

	```python
	# Pour gérer les phrases longues
	tokenizer.model_max_length = 512

	# Ajout de tokens personnalisés
	new_tokens = ["<dialect:NDÊ>", "<dialect:SAFOUÈ>"]
	tokenizer.add_tokens(new_tokens)
	```

	## Jeu de Données d'Entraînement

	Données collectées grâce à :
	- Traductions de textes bibliques : Les données ont été extraites en grande partie depuis [Glosbe](https://www.glosbe.com/) et structurées manuellement pour assurer une qualité et une précision optimales. Le contenu a été nettoyé pour supprimer les balises HTML indésirables et formaté de manière cohérente.
	- Corpus oral transcrit (projet UNESCO)
	- Phrases quotidiennes annotées
	- Textes gouvernementaux bilingues

	Taille du corpus : 1500 phrases alignées (en cours d'expansion)

	## Citation

	Si vous utilisez ce tokenizer dans vos recherches, merci de citer :

	```bibtex
	@misc{BaouleTokenizer2023,
	author = {Votre Nom},
	title = {Baoulé Tokenizer for Low-Resource Machine Translation},
	year = {2023},
	publisher = {Hugging Face},
	howpublished = {\url{https://huggingface.co/Adjoumani/BaouleTokenizer_V1}}
	}
	```

	## Licence

	Apache 2.0 - [Voir la licence complète](LICENSE)

	## Contribuer

	Nous encourageons les contributions notamment pour :
	- L'expansion du vocabulaire
	- L'annotation des tons
	- L'ajout de dialectes régionaux

	Contact : [contact@les-experts-en-solutions-digitales.com](mailto:contact@les-experts-en-solutions-digitales.com)

	---

	Mots-clés SEO : Tokenizer Baoulé, Traduction Français-Baoulé, NLP Africain, Langues Tonales, Côte d'Ivoire AI, Modèle Linguistique Basse Ressource, SentencePiece Baoulé, Préservation Langue Africaine
	```