| ```markdown | |
| --- | |
| language: | |
| - baq | |
| - bci | |
| - fr | |
| tags: | |
| - African NLP | |
| - low-resource language | |
| - sentencepiece | |
| - tokenizer | |
| - Baoulé | |
| - Côte d'Ivoire | |
| - translation | |
| - tonal language | |
| datasets: | |
| - custom | |
| license: apache-2.0 | |
| library_name: transformers | |
| pipeline_tag: text2text-generation | |
| widget: | |
| - text: "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn" | |
| example_title: "Traduction de base" | |
| --- | |
| # Tokenizer Baoulé : Modèle de Traduction Français-Baoulé | |
| 🌍 Premier tokenizer SentencePiece spécialisé pour la langue Baoulé (Côte d'Ivoire) 🇨🇮 | |
| [](https://huggingface.co/votre_username/baoule-tokenizer) | |
| ## Fonctionnalités Clés | |
| ✅ Prise en charge complète des caractères tonals Baoulé (ɛ́, ɩ̄, ɔ̀, etc.) | |
| ✅ Optimisé pour les modèles de traduction automatique (Transformer) | |
| ✅ Vocabulaire de 206 tokens avec couverture linguistique complète | |
| ✅ Intégration native avec 🤗 Transformers et Tokenizers | |
| ✅ Compatible avec Google Traduction Custom Model et Amazon Translate | |
| ## Installation et Utilisation | |
| ```python | |
| from transformers import AutoTokenizer | |
| tokenizer = AutoTokenizer.from_pretrained("Adjoumani/BaouleTokenizer_V1") | |
| # Utilisation du tokenizer | |
| text = "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn" | |
| encoded = tokenizer.encode(text) | |
| decoded = tokenizer.decode(encoded) | |
| print(f"Tokens: {tokenizer.tokenize(text)}") | |
| # Output: ['W', 'a', 'f', 'a', '▁s', 'ɛ', '▁y', 'ɛ', '▁ɔ', '▁f', 'a', 't', 'a', '▁k', 'ɛ', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'e', '▁l', 'a', 'f', 'i', '▁s', 'u', '▁k', 'ɛ', '▁b', 'é', '▁t', 'r', 'á', 'n', '▁a', 's', 'i', 'ɛ', '’', 'n', '▁s', 'u', '▁w', 'a', '’', 'n', ',', '▁b', 'e', '▁b', 'u', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'é', '▁k', 'ɔ', '́', '▁ɲ', 'a', 'n', 'm', 'i', 'ɛ', 'n'] | |
| ``` | |
| ## Détails Techniques | |
| | Paramètre | Valeur | | |
| |--------------------|----------------------| | |
| | Architecture | SentencePiece BPE | | |
| | Taille du vocabulaire | 206 | | |
| | Caractères couverts | 1.0 (Unicode) | | |
| | Tokens spéciaux | [BOS], [EOS], [UNK], [PAD] | | |
| | Langues cibles | Français ↔ Baoulé | | |
| | Encodage | UTF-8 | | |
| ## Tons Supportés | |
| Le tokenizer gère tous les tons Baoulé selon la norme Unicode : | |
| | Caractère | Code Unicode | Exemple | | |
| |-----------|--------------|---------| | |
| | ɛ́ | U+025B U+0301| Mɔ́kɛ́ | | |
| | ɩ̄ | U+0269 U+0304| Ɩ̄tɩ̄ | | |
| | ɔ̀ | U+0254 U+0300| Kɔ̀lɔ̀ | | |
| | ɛ̂ | U+025B U+0302| Ɛ̂sɛ̂ | | |
| ## Cas d'Usage Recommandés | |
| - Traduction automatique Français-Baoulé | |
| - Synthèse vocale pour systèmes d'assistance vocale | |
| - Reconnaissance de la parole Baoulé | |
| - Outils éducatifs numériques | |
| - Préservation du patrimoine linguistique | |
| ## Meilleures Pratiques | |
| ```python | |
| # Pour gérer les phrases longues | |
| tokenizer.model_max_length = 512 | |
| # Ajout de tokens personnalisés | |
| new_tokens = ["<dialect:NDÊ>", "<dialect:SAFOUÈ>"] | |
| tokenizer.add_tokens(new_tokens) | |
| ``` | |
| ## Jeu de Données d'Entraînement | |
| Données collectées grâce à : | |
| - Traductions de textes bibliques : Les données ont été extraites en grande partie depuis [Glosbe](https://www.glosbe.com/) et structurées manuellement pour assurer une qualité et une précision optimales. Le contenu a été nettoyé pour supprimer les balises HTML indésirables et formaté de manière cohérente. | |
| - Corpus oral transcrit (projet UNESCO) | |
| - Phrases quotidiennes annotées | |
| - Textes gouvernementaux bilingues | |
| **Taille du corpus** : 1500 phrases alignées (en cours d'expansion) | |
| ## Citation | |
| Si vous utilisez ce tokenizer dans vos recherches, merci de citer : | |
| ```bibtex | |
| @misc{BaouleTokenizer2023, | |
| author = {Votre Nom}, | |
| title = {Baoulé Tokenizer for Low-Resource Machine Translation}, | |
| year = {2023}, | |
| publisher = {Hugging Face}, | |
| howpublished = {\url{https://huggingface.co/Adjoumani/BaouleTokenizer_V1}} | |
| } | |
| ``` | |
| ## Licence | |
| Apache 2.0 - [Voir la licence complète](LICENSE) | |
| ## Contribuer | |
| Nous encourageons les contributions notamment pour : | |
| - L'expansion du vocabulaire | |
| - L'annotation des tons | |
| - L'ajout de dialectes régionaux | |
| Contact : [contact@les-experts-en-solutions-digitales.com](mailto:contact@les-experts-en-solutions-digitales.com) | |
| --- | |
| **Mots-clés SEO** : Tokenizer Baoulé, Traduction Français-Baoulé, NLP Africain, Langues Tonales, Côte d'Ivoire AI, Modèle Linguistique Basse Ressource, SentencePiece Baoulé, Préservation Langue Africaine | |
| ``` | |