```markdown --- language: - baq - bci - fr tags: - African NLP - low-resource language - sentencepiece - tokenizer - Baoulé - Côte d'Ivoire - translation - tonal language datasets: - custom license: apache-2.0 library_name: transformers pipeline_tag: text2text-generation widget: - text: "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn" example_title: "Traduction de base" --- # Tokenizer Baoulé : Modèle de Traduction Français-Baoulé 🌍 Premier tokenizer SentencePiece spécialisé pour la langue Baoulé (Côte d'Ivoire) 🇨🇮 [![Hugging Face Hub](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Model%20Hub-blue)](https://huggingface.co/votre_username/baoule-tokenizer) ## Fonctionnalités Clés ✅ Prise en charge complète des caractères tonals Baoulé (ɛ́, ɩ̄, ɔ̀, etc.) ✅ Optimisé pour les modèles de traduction automatique (Transformer) ✅ Vocabulaire de 206 tokens avec couverture linguistique complète ✅ Intégration native avec 🤗 Transformers et Tokenizers ✅ Compatible avec Google Traduction Custom Model et Amazon Translate ## Installation et Utilisation ```python from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("Adjoumani/BaouleTokenizer_V1") # Utilisation du tokenizer text = "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn" encoded = tokenizer.encode(text) decoded = tokenizer.decode(encoded) print(f"Tokens: {tokenizer.tokenize(text)}") # Output: ['W', 'a', 'f', 'a', '▁s', 'ɛ', '▁y', 'ɛ', '▁ɔ', '▁f', 'a', 't', 'a', '▁k', 'ɛ', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'e', '▁l', 'a', 'f', 'i', '▁s', 'u', '▁k', 'ɛ', '▁b', 'é', '▁t', 'r', 'á', 'n', '▁a', 's', 'i', 'ɛ', '’', 'n', '▁s', 'u', '▁w', 'a', '’', 'n', ',', '▁b', 'e', '▁b', 'u', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'é', '▁k', 'ɔ', '́', '▁ɲ', 'a', 'n', 'm', 'i', 'ɛ', 'n'] ``` ## Détails Techniques | Paramètre | Valeur | |--------------------|----------------------| | Architecture | SentencePiece BPE | | Taille du vocabulaire | 206 | | Caractères couverts | 1.0 (Unicode) | | Tokens spéciaux | [BOS], [EOS], [UNK], [PAD] | | Langues cibles | Français ↔ Baoulé | | Encodage | UTF-8 | ## Tons Supportés Le tokenizer gère tous les tons Baoulé selon la norme Unicode : | Caractère | Code Unicode | Exemple | |-----------|--------------|---------| | ɛ́ | U+025B U+0301| Mɔ́kɛ́ | | ɩ̄ | U+0269 U+0304| Ɩ̄tɩ̄ | | ɔ̀ | U+0254 U+0300| Kɔ̀lɔ̀ | | ɛ̂ | U+025B U+0302| Ɛ̂sɛ̂ | ## Cas d'Usage Recommandés - Traduction automatique Français-Baoulé - Synthèse vocale pour systèmes d'assistance vocale - Reconnaissance de la parole Baoulé - Outils éducatifs numériques - Préservation du patrimoine linguistique ## Meilleures Pratiques ```python # Pour gérer les phrases longues tokenizer.model_max_length = 512 # Ajout de tokens personnalisés new_tokens = ["", ""] tokenizer.add_tokens(new_tokens) ``` ## Jeu de Données d'Entraînement Données collectées grâce à : - Traductions de textes bibliques : Les données ont été extraites en grande partie depuis [Glosbe](https://www.glosbe.com/) et structurées manuellement pour assurer une qualité et une précision optimales. Le contenu a été nettoyé pour supprimer les balises HTML indésirables et formaté de manière cohérente. - Corpus oral transcrit (projet UNESCO) - Phrases quotidiennes annotées - Textes gouvernementaux bilingues **Taille du corpus** : 1500 phrases alignées (en cours d'expansion) ## Citation Si vous utilisez ce tokenizer dans vos recherches, merci de citer : ```bibtex @misc{BaouleTokenizer2023, author = {Votre Nom}, title = {Baoulé Tokenizer for Low-Resource Machine Translation}, year = {2023}, publisher = {Hugging Face}, howpublished = {\url{https://huggingface.co/Adjoumani/BaouleTokenizer_V1}} } ``` ## Licence Apache 2.0 - [Voir la licence complète](LICENSE) ## Contribuer Nous encourageons les contributions notamment pour : - L'expansion du vocabulaire - L'annotation des tons - L'ajout de dialectes régionaux Contact : [contact@les-experts-en-solutions-digitales.com](mailto:contact@les-experts-en-solutions-digitales.com) --- **Mots-clés SEO** : Tokenizer Baoulé, Traduction Français-Baoulé, NLP Africain, Langues Tonales, Côte d'Ivoire AI, Modèle Linguistique Basse Ressource, SentencePiece Baoulé, Préservation Langue Africaine ```