baouleTokenizer / README.md
Adjoumani's picture
Première version du tokenizer Baoulé
88f6d87 verified
```markdown
---
language:
- baq
- bci
- fr
tags:
- African NLP
- low-resource language
- sentencepiece
- tokenizer
- Baoulé
- Côte d'Ivoire
- translation
- tonal language
datasets:
- custom
license: apache-2.0
library_name: transformers
pipeline_tag: text2text-generation
widget:
- text: "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn"
example_title: "Traduction de base"
---
# Tokenizer Baoulé : Modèle de Traduction Français-Baoulé
🌍 Premier tokenizer SentencePiece spécialisé pour la langue Baoulé (Côte d'Ivoire) 🇨🇮
[![Hugging Face Hub](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Model%20Hub-blue)](https://huggingface.co/votre_username/baoule-tokenizer)
## Fonctionnalités Clés
✅ Prise en charge complète des caractères tonals Baoulé (ɛ́, ɩ̄, ɔ̀, etc.)
✅ Optimisé pour les modèles de traduction automatique (Transformer)
✅ Vocabulaire de 206 tokens avec couverture linguistique complète
✅ Intégration native avec 🤗 Transformers et Tokenizers
✅ Compatible avec Google Traduction Custom Model et Amazon Translate
## Installation et Utilisation
```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Adjoumani/BaouleTokenizer_V1")
# Utilisation du tokenizer
text = "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn"
encoded = tokenizer.encode(text)
decoded = tokenizer.decode(encoded)
print(f"Tokens: {tokenizer.tokenize(text)}")
# Output: ['W', 'a', 'f', 'a', '▁s', 'ɛ', '▁y', 'ɛ', '▁ɔ', '▁f', 'a', 't', 'a', '▁k', 'ɛ', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'e', '▁l', 'a', 'f', 'i', '▁s', 'u', '▁k', 'ɛ', '▁b', 'é', '▁t', 'r', 'á', 'n', '▁a', 's', 'i', 'ɛ', '’', 'n', '▁s', 'u', '▁w', 'a', '’', 'n', ',', '▁b', 'e', '▁b', 'u', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'é', '▁k', 'ɔ', '́', '▁ɲ', 'a', 'n', 'm', 'i', 'ɛ', 'n']
```
## Détails Techniques
| Paramètre | Valeur |
|--------------------|----------------------|
| Architecture | SentencePiece BPE |
| Taille du vocabulaire | 206 |
| Caractères couverts | 1.0 (Unicode) |
| Tokens spéciaux | [BOS], [EOS], [UNK], [PAD] |
| Langues cibles | Français ↔ Baoulé |
| Encodage | UTF-8 |
## Tons Supportés
Le tokenizer gère tous les tons Baoulé selon la norme Unicode :
| Caractère | Code Unicode | Exemple |
|-----------|--------------|---------|
| ɛ́ | U+025B U+0301| Mɔ́kɛ́ |
| ɩ̄ | U+0269 U+0304| Ɩ̄tɩ̄ |
| ɔ̀ | U+0254 U+0300| Kɔ̀lɔ̀ |
| ɛ̂ | U+025B U+0302| Ɛ̂sɛ̂ |
## Cas d'Usage Recommandés
- Traduction automatique Français-Baoulé
- Synthèse vocale pour systèmes d'assistance vocale
- Reconnaissance de la parole Baoulé
- Outils éducatifs numériques
- Préservation du patrimoine linguistique
## Meilleures Pratiques
```python
# Pour gérer les phrases longues
tokenizer.model_max_length = 512
# Ajout de tokens personnalisés
new_tokens = ["<dialect:NDÊ>", "<dialect:SAFOUÈ>"]
tokenizer.add_tokens(new_tokens)
```
## Jeu de Données d'Entraînement
Données collectées grâce à :
- Traductions de textes bibliques : Les données ont été extraites en grande partie depuis [Glosbe](https://www.glosbe.com/) et structurées manuellement pour assurer une qualité et une précision optimales. Le contenu a été nettoyé pour supprimer les balises HTML indésirables et formaté de manière cohérente.
- Corpus oral transcrit (projet UNESCO)
- Phrases quotidiennes annotées
- Textes gouvernementaux bilingues
**Taille du corpus** : 1500 phrases alignées (en cours d'expansion)
## Citation
Si vous utilisez ce tokenizer dans vos recherches, merci de citer :
```bibtex
@misc{BaouleTokenizer2023,
author = {Votre Nom},
title = {Baoulé Tokenizer for Low-Resource Machine Translation},
year = {2023},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/Adjoumani/BaouleTokenizer_V1}}
}
```
## Licence
Apache 2.0 - [Voir la licence complète](LICENSE)
## Contribuer
Nous encourageons les contributions notamment pour :
- L'expansion du vocabulaire
- L'annotation des tons
- L'ajout de dialectes régionaux
Contact : [contact@les-experts-en-solutions-digitales.com](mailto:contact@les-experts-en-solutions-digitales.com)
---
**Mots-clés SEO** : Tokenizer Baoulé, Traduction Français-Baoulé, NLP Africain, Langues Tonales, Côte d'Ivoire AI, Modèle Linguistique Basse Ressource, SentencePiece Baoulé, Préservation Langue Africaine
```