Adjoumani commited on
Commit
6a62038
·
verified ·
1 Parent(s): 48b5846

Upload folder using huggingface_hub

Browse files
Files changed (8) hide show
  1. README.md +139 -0
  2. added_tokens.json +3 -0
  3. special_tokens_map.json +30 -0
  4. spm.model +3 -0
  5. spm.vocab +206 -0
  6. tokenizer.json +779 -0
  7. tokenizer.model +3 -0
  8. tokenizer_config.json +59 -0
README.md ADDED
@@ -0,0 +1,139 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ```markdown
3
+ ---
4
+ language:
5
+ - baq
6
+ - bci
7
+ - fr
8
+ tags:
9
+ - African NLP
10
+ - low-resource language
11
+ - sentencepiece
12
+ - tokenizer
13
+ - Baoulé
14
+ - Côte d'Ivoire
15
+ - translation
16
+ - tonal language
17
+ datasets:
18
+ - custom
19
+ license: apache-2.0
20
+ library_name: transformers
21
+ pipeline_tag: text2text-generation
22
+ widget:
23
+ - text: "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn"
24
+ example_title: "Traduction de base"
25
+ ---
26
+
27
+ # Tokenizer Baoulé : Modèle de Traduction Français-Baoulé
28
+
29
+ 🌍 Premier tokenizer SentencePiece spécialisé pour la langue Baoulé (Côte d'Ivoire) 🇨🇮
30
+
31
+ [![Hugging Face Hub](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Model%20Hub-blue)](https://huggingface.co/votre_username/baoule-tokenizer)
32
+
33
+ ## Fonctionnalités Clés
34
+
35
+ ✅ Prise en charge complète des caractères tonals Baoulé (ɛ́, ɩ̄, ɔ̀, etc.)
36
+ ✅ Optimisé pour les modèles de traduction automatique (Transformer)
37
+ ✅ Vocabulaire de 206 tokens avec couverture linguistique complète
38
+ ✅ Intégration native avec 🤗 Transformers et Tokenizers
39
+ ✅ Compatible avec Google Traduction Custom Model et Amazon Translate
40
+
41
+ ## Installation et Utilisation
42
+
43
+ ```python
44
+ from transformers import AutoTokenizer
45
+
46
+ tokenizer = AutoTokenizer.from_pretrained("Adjoumani/BaouleTokenizer_V1")
47
+
48
+ # Utilisation du tokenizer
49
+
50
+ text = "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn"
51
+ encoded = tokenizer.encode(text)
52
+ decoded = tokenizer.decode(encoded)
53
+
54
+ print(f"Tokens: {tokenizer.tokenize(text)}")
55
+ # Output: ['W', 'a', 'f', 'a', '▁s', 'ɛ', '▁y', 'ɛ', '▁ɔ', '▁f', 'a', 't', 'a', '▁k', 'ɛ', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'e', '▁l', 'a', 'f', 'i', '▁s', 'u', '▁k', 'ɛ', '▁b', 'é', '▁t', 'r', 'á', 'n', '▁a', 's', 'i', 'ɛ', '’', 'n', '▁s', 'u', '▁w', 'a', '’', 'n', ',', '▁b', 'e', '▁b', 'u', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'é', '▁k', 'ɔ', '́', '▁ɲ', 'a', 'n', 'm', 'i', 'ɛ', 'n']
56
+ ```
57
+
58
+ ## Détails Techniques
59
+
60
+ | Paramètre | Valeur |
61
+ |--------------------|----------------------|
62
+ | Architecture | SentencePiece BPE |
63
+ | Taille du vocabulaire | 206 |
64
+ | Caractères couverts | 1.0 (Unicode) |
65
+ | Tokens spéciaux | [BOS], [EOS], [UNK], [PAD] |
66
+ | Langues cibles | Français ↔ Baoulé |
67
+ | Encodage | UTF-8 |
68
+
69
+ ## Tons Supportés
70
+
71
+ Le tokenizer gère tous les tons Baoulé selon la norme Unicode :
72
+
73
+ | Caractère | Code Unicode | Exemple |
74
+ |-----------|--------------|---------|
75
+ | ɛ́ | U+025B U+0301| Mɔ́kɛ́ |
76
+ | ɩ̄ | U+0269 U+0304| Ɩ̄tɩ̄ |
77
+ | ɔ̀ | U+0254 U+0300| Kɔ̀lɔ̀ |
78
+ | ɛ̂ | U+025B U+0302| Ɛ̂sɛ̂ |
79
+
80
+ ## Cas d'Usage Recommandés
81
+
82
+ - Traduction automatique Français-Baoulé
83
+ - Synthèse vocale pour systèmes d'assistance vocale
84
+ - Reconnaissance de la parole Baoulé
85
+ - Outils éducatifs numériques
86
+ - Préservation du patrimoine linguistique
87
+
88
+ ## Meilleures Pratiques
89
+
90
+ ```python
91
+ # Pour gérer les phrases longues
92
+ tokenizer.model_max_length = 512
93
+
94
+ # Ajout de tokens personnalisés
95
+ new_tokens = ["<dialect:NDÊ>", "<dialect:SAFOUÈ>"]
96
+ tokenizer.add_tokens(new_tokens)
97
+ ```
98
+
99
+ ## Jeu de Données d'Entraînement
100
+
101
+ Données collectées grâce à :
102
+ - Traductions de textes bibliques : Les données ont été extraites en grande partie depuis [Glosbe](https://www.glosbe.com/) et structurées manuellement pour assurer une qualité et une précision optimales. Le contenu a été nettoyé pour supprimer les balises HTML indésirables et formaté de manière cohérente.
103
+ - Corpus oral transcrit (projet UNESCO)
104
+ - Phrases quotidiennes annotées
105
+ - Textes gouvernementaux bilingues
106
+
107
+ **Taille du corpus** : 1500 phrases alignées (en cours d'expansion)
108
+
109
+ ## Citation
110
+
111
+ Si vous utilisez ce tokenizer dans vos recherches, merci de citer :
112
+
113
+ ```bibtex
114
+ @misc{BaouleTokenizer2023,
115
+ author = {Votre Nom},
116
+ title = {Baoulé Tokenizer for Low-Resource Machine Translation},
117
+ year = {2023},
118
+ publisher = {Hugging Face},
119
+ howpublished = {\url{https://huggingface.co/Adjoumani/BaouleTokenizer_V1}}
120
+ }
121
+ ```
122
+
123
+ ## Licence
124
+
125
+ Apache 2.0 - [Voir la licence complète](LICENSE)
126
+
127
+ ## Contribuer
128
+
129
+ Nous encourageons les contributions notamment pour :
130
+ - L'expansion du vocabulaire
131
+ - L'annotation des tons
132
+ - L'ajout de dialectes régionaux
133
+
134
+ Contact : [contact@les-experts-en-solutions-digitales.com](mailto:contact@les-experts-en-solutions-digitales.com)
135
+
136
+ ---
137
+
138
+ **Mots-clés SEO** : Tokenizer Baoulé, Traduction Français-Baoulé, NLP Africain, Langues Tonales, Côte d'Ivoire AI, Modèle Linguistique Basse Ressource, SentencePiece Baoulé, Préservation Langue Africaine
139
+ ```
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<pad>": 206
3
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,30 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "eos_token": {
10
+ "content": "</s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "<pad>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "unk_token": {
24
+ "content": "<unk>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ }
30
+ }
spm.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9d8c538d19bc460d3b0730c26645f6b0ede1f462c5cbf9bc6cf5dc578f0049f1
3
+ size 240063
spm.vocab ADDED
@@ -0,0 +1,206 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ <unk> 0
2
+ <s> 0
3
+ </s> 0
4
+ ▁n -0
5
+ ▁a -1
6
+ ▁i -2
7
+ ▁ɛ -3
8
+ ▁u -4
9
+ ▁e -5
10
+ ▁l -6
11
+ ▁’ -7
12
+ ▁k -8
13
+ ▁m -9
14
+ ▁s -10
15
+ ▁b -11
16
+ ▁ɔ -12
17
+ ▁, -13
18
+ ▁' -14
19
+ ▁o -15
20
+ ▁w -16
21
+ ▁f -17
22
+ ▁t -18
23
+ ▁g -19
24
+ ▁y -20
25
+ ▁. -21
26
+ ▁r -22
27
+ ▁d -23
28
+ ▁p -24
29
+ ▁z -25
30
+ ▁j -26
31
+ ▁: -27
32
+ ▁1 -28
33
+ ▁Z -29
34
+ ▁c -30
35
+ ▁? -31
36
+ ▁S -32
37
+ ▁A -33
38
+ ▁N -34
39
+ ▁K -35
40
+ ▁v -36
41
+ ▁á -37
42
+ ▁2 -38
43
+ ▁Ɲ -39
44
+ ▁M -40
45
+ ▁ɲ -41
46
+ ▁B -42
47
+ ▁é -43
48
+ ▁“ -44
49
+ ▁” -45
50
+ ▁I -46
51
+ ▁́ -47
52
+ ▁‘ -48
53
+ ▁3 -49
54
+ ▁Ɔ -50
55
+ ▁4 -51
56
+ ▁0 -52
57
+ ▁) -53
58
+ ▁E -54
59
+ ▁5 -55
60
+ ▁- -56
61
+ ▁( -57
62
+ ▁L -58
63
+ ▁— -59
64
+ ▁Y -60
65
+ ▁F -61
66
+ ▁ó -62
67
+ ▁í -63
68
+ ▁ú -64
69
+ ▁6 -65
70
+ ▁W -66
71
+ ▁7 -67
72
+ ▁9 -68
73
+ ▁D -69
74
+ ▁T -70
75
+ ▁8 -71
76
+ ▁P -72
77
+ ▁; -73
78
+ ▁Ɛ -74
79
+ ▁! -75
80
+ ▁J -76
81
+ ▁ń -77
82
+ ▁G -78
83
+ ▁R -79
84
+ ▁U -80
85
+ ▁[ -81
86
+ ▁] -82
87
+ ▁C -83
88
+ ▁O -84
89
+ ▁h -85
90
+ ▁• -86
91
+ ▁É -87
92
+ ▁▪ -88
93
+ ▁* -89
94
+ ▁/ -90
95
+ ▁Ń -91
96
+ ▁q -92
97
+ ▁| -93
98
+ ▁V -94
99
+ ▁ḿ -95
100
+ ▁– -96
101
+ ▁è -97
102
+ ▁Ḿ -98
103
+ ▁H -99
104
+ ▁Á -100
105
+ ▁ -101
106
+ n -102
107
+ a -103
108
+ i -104
109
+ ɛ -105
110
+ u -106
111
+ e -107
112
+ l -108
113
+ ’ -109
114
+ k -110
115
+ m -111
116
+ s -112
117
+ b -113
118
+ ɔ -114
119
+ , -115
120
+ ' -116
121
+ o -117
122
+ w -118
123
+ f -119
124
+ t -120
125
+ g -121
126
+ y -122
127
+ . -123
128
+ r -124
129
+ d -125
130
+ p -126
131
+ z -127
132
+ j -128
133
+ : -129
134
+ 1 -130
135
+ Z -131
136
+ c -132
137
+ ? -133
138
+ S -134
139
+ A -135
140
+ N -136
141
+ K -137
142
+ v -138
143
+ á -139
144
+ 2 -140
145
+ Ɲ -141
146
+ M -142
147
+ ɲ -143
148
+ B -144
149
+ é -145
150
+ “ -146
151
+ ” -147
152
+ I -148
153
+ ́ -149
154
+ ‘ -150
155
+ 3 -151
156
+ Ɔ -152
157
+ 4 -153
158
+ 0 -154
159
+ ) -155
160
+ E -156
161
+ 5 -157
162
+ - -158
163
+ ( -159
164
+ L -160
165
+ — -161
166
+ Y -162
167
+ F -163
168
+ ó -164
169
+ í -165
170
+ ú -166
171
+ 6 -167
172
+ W -168
173
+ 7 -169
174
+ 9 -170
175
+ D -171
176
+ T -172
177
+ 8 -173
178
+ P -174
179
+ ; -175
180
+ Ɛ -176
181
+ ! -177
182
+ J -178
183
+ ń -179
184
+ G -180
185
+ R -181
186
+ U -182
187
+ [ -183
188
+ ] -184
189
+ C -185
190
+ O -186
191
+ h -187
192
+ • -188
193
+ É -189
194
+ ▪ -190
195
+ * -191
196
+ / -192
197
+ Ń -193
198
+ q -194
199
+ | -195
200
+ V -196
201
+ ḿ -197
202
+ – -198
203
+ è -199
204
+ Ḿ -200
205
+ H -201
206
+ Á -202
tokenizer.json ADDED
@@ -0,0 +1,779 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "version": "1.0",
3
+ "truncation": null,
4
+ "padding": null,
5
+ "added_tokens": [
6
+ {
7
+ "id": 0,
8
+ "content": "<unk>",
9
+ "single_word": false,
10
+ "lstrip": false,
11
+ "rstrip": false,
12
+ "normalized": false,
13
+ "special": true
14
+ },
15
+ {
16
+ "id": 1,
17
+ "content": "<s>",
18
+ "single_word": false,
19
+ "lstrip": false,
20
+ "rstrip": false,
21
+ "normalized": false,
22
+ "special": true
23
+ },
24
+ {
25
+ "id": 2,
26
+ "content": "</s>",
27
+ "single_word": false,
28
+ "lstrip": false,
29
+ "rstrip": false,
30
+ "normalized": false,
31
+ "special": true
32
+ },
33
+ {
34
+ "id": 206,
35
+ "content": "<pad>",
36
+ "single_word": false,
37
+ "lstrip": false,
38
+ "rstrip": false,
39
+ "normalized": false,
40
+ "special": true
41
+ }
42
+ ],
43
+ "normalizer": {
44
+ "type": "Sequence",
45
+ "normalizers": [
46
+ {
47
+ "type": "Replace",
48
+ "pattern": {
49
+ "String": " "
50
+ },
51
+ "content": "▁"
52
+ }
53
+ ]
54
+ },
55
+ "pre_tokenizer": null,
56
+ "post_processor": {
57
+ "type": "TemplateProcessing",
58
+ "single": [
59
+ {
60
+ "SpecialToken": {
61
+ "id": "<s>",
62
+ "type_id": 0
63
+ }
64
+ },
65
+ {
66
+ "Sequence": {
67
+ "id": "A",
68
+ "type_id": 0
69
+ }
70
+ },
71
+ {
72
+ "SpecialToken": {
73
+ "id": "</s>",
74
+ "type_id": 0
75
+ }
76
+ }
77
+ ],
78
+ "pair": [
79
+ {
80
+ "SpecialToken": {
81
+ "id": "<s>",
82
+ "type_id": 0
83
+ }
84
+ },
85
+ {
86
+ "Sequence": {
87
+ "id": "A",
88
+ "type_id": 0
89
+ }
90
+ },
91
+ {
92
+ "SpecialToken": {
93
+ "id": "</s>",
94
+ "type_id": 0
95
+ }
96
+ },
97
+ {
98
+ "SpecialToken": {
99
+ "id": "<s>",
100
+ "type_id": 1
101
+ }
102
+ },
103
+ {
104
+ "Sequence": {
105
+ "id": "B",
106
+ "type_id": 1
107
+ }
108
+ },
109
+ {
110
+ "SpecialToken": {
111
+ "id": "</s>",
112
+ "type_id": 1
113
+ }
114
+ }
115
+ ],
116
+ "special_tokens": {
117
+ "</s>": {
118
+ "id": "</s>",
119
+ "ids": [
120
+ 2
121
+ ],
122
+ "tokens": [
123
+ "</s>"
124
+ ]
125
+ },
126
+ "<s>": {
127
+ "id": "<s>",
128
+ "ids": [
129
+ 1
130
+ ],
131
+ "tokens": [
132
+ "<s>"
133
+ ]
134
+ }
135
+ }
136
+ },
137
+ "decoder": {
138
+ "type": "Sequence",
139
+ "decoders": [
140
+ {
141
+ "type": "Replace",
142
+ "pattern": {
143
+ "String": "▁"
144
+ },
145
+ "content": " "
146
+ },
147
+ {
148
+ "type": "ByteFallback"
149
+ },
150
+ {
151
+ "type": "Fuse"
152
+ }
153
+ ]
154
+ },
155
+ "model": {
156
+ "type": "BPE",
157
+ "dropout": null,
158
+ "unk_token": "<unk>",
159
+ "continuing_subword_prefix": null,
160
+ "end_of_word_suffix": null,
161
+ "fuse_unk": true,
162
+ "byte_fallback": true,
163
+ "ignore_merges": false,
164
+ "vocab": {
165
+ "<unk>": 0,
166
+ "<s>": 1,
167
+ "</s>": 2,
168
+ "▁n": 3,
169
+ "▁a": 4,
170
+ "▁i": 5,
171
+ "▁ɛ": 6,
172
+ "▁u": 7,
173
+ "▁e": 8,
174
+ "▁l": 9,
175
+ "▁’": 10,
176
+ "▁k": 11,
177
+ "▁m": 12,
178
+ "▁s": 13,
179
+ "▁b": 14,
180
+ "▁ɔ": 15,
181
+ "▁,": 16,
182
+ "▁'": 17,
183
+ "▁o": 18,
184
+ "▁w": 19,
185
+ "▁f": 20,
186
+ "▁t": 21,
187
+ "▁g": 22,
188
+ "▁y": 23,
189
+ "▁.": 24,
190
+ "▁r": 25,
191
+ "▁d": 26,
192
+ "▁p": 27,
193
+ "▁z": 28,
194
+ "▁j": 29,
195
+ "▁:": 30,
196
+ "▁1": 31,
197
+ "▁Z": 32,
198
+ "▁c": 33,
199
+ "▁?": 34,
200
+ "▁S": 35,
201
+ "▁A": 36,
202
+ "▁N": 37,
203
+ "▁K": 38,
204
+ "▁v": 39,
205
+ "▁á": 40,
206
+ "▁2": 41,
207
+ "▁Ɲ": 42,
208
+ "▁M": 43,
209
+ "▁ɲ": 44,
210
+ "▁B": 45,
211
+ "▁é": 46,
212
+ "▁“": 47,
213
+ "▁”": 48,
214
+ "▁I": 49,
215
+ "▁́": 50,
216
+ "▁‘": 51,
217
+ "▁3": 52,
218
+ "▁Ɔ": 53,
219
+ "▁4": 54,
220
+ "▁0": 55,
221
+ "▁)": 56,
222
+ "▁E": 57,
223
+ "▁5": 58,
224
+ "▁-": 59,
225
+ "▁(": 60,
226
+ "▁L": 61,
227
+ "▁—": 62,
228
+ "▁Y": 63,
229
+ "▁F": 64,
230
+ "▁ó": 65,
231
+ "▁í": 66,
232
+ "▁ú": 67,
233
+ "▁6": 68,
234
+ "▁W": 69,
235
+ "▁7": 70,
236
+ "▁9": 71,
237
+ "▁D": 72,
238
+ "▁T": 73,
239
+ "▁8": 74,
240
+ "▁P": 75,
241
+ "▁;": 76,
242
+ "▁Ɛ": 77,
243
+ "▁!": 78,
244
+ "▁J": 79,
245
+ "▁ń": 80,
246
+ "▁G": 81,
247
+ "▁R": 82,
248
+ "▁U": 83,
249
+ "▁[": 84,
250
+ "▁]": 85,
251
+ "▁C": 86,
252
+ "▁O": 87,
253
+ "▁h": 88,
254
+ "▁•": 89,
255
+ "▁É": 90,
256
+ "▁▪": 91,
257
+ "▁*": 92,
258
+ "▁/": 93,
259
+ "▁Ń": 94,
260
+ "▁q": 95,
261
+ "▁|": 96,
262
+ "▁V": 97,
263
+ "▁ḿ": 98,
264
+ "▁–": 99,
265
+ "▁è": 100,
266
+ "▁Ḿ": 101,
267
+ "▁H": 102,
268
+ "▁Á": 103,
269
+ "▁": 104,
270
+ "n": 105,
271
+ "a": 106,
272
+ "i": 107,
273
+ "ɛ": 108,
274
+ "u": 109,
275
+ "e": 110,
276
+ "l": 111,
277
+ "’": 112,
278
+ "k": 113,
279
+ "m": 114,
280
+ "s": 115,
281
+ "b": 116,
282
+ "ɔ": 117,
283
+ ",": 118,
284
+ "'": 119,
285
+ "o": 120,
286
+ "w": 121,
287
+ "f": 122,
288
+ "t": 123,
289
+ "g": 124,
290
+ "y": 125,
291
+ ".": 126,
292
+ "r": 127,
293
+ "d": 128,
294
+ "p": 129,
295
+ "z": 130,
296
+ "j": 131,
297
+ ":": 132,
298
+ "1": 133,
299
+ "Z": 134,
300
+ "c": 135,
301
+ "?": 136,
302
+ "S": 137,
303
+ "A": 138,
304
+ "N": 139,
305
+ "K": 140,
306
+ "v": 141,
307
+ "á": 142,
308
+ "2": 143,
309
+ "Ɲ": 144,
310
+ "M": 145,
311
+ "ɲ": 146,
312
+ "B": 147,
313
+ "é": 148,
314
+ "“": 149,
315
+ "”": 150,
316
+ "I": 151,
317
+ "́": 152,
318
+ "‘": 153,
319
+ "3": 154,
320
+ "Ɔ": 155,
321
+ "4": 156,
322
+ "0": 157,
323
+ ")": 158,
324
+ "E": 159,
325
+ "5": 160,
326
+ "-": 161,
327
+ "(": 162,
328
+ "L": 163,
329
+ "—": 164,
330
+ "Y": 165,
331
+ "F": 166,
332
+ "ó": 167,
333
+ "í": 168,
334
+ "ú": 169,
335
+ "6": 170,
336
+ "W": 171,
337
+ "7": 172,
338
+ "9": 173,
339
+ "D": 174,
340
+ "T": 175,
341
+ "8": 176,
342
+ "P": 177,
343
+ ";": 178,
344
+ "Ɛ": 179,
345
+ "!": 180,
346
+ "J": 181,
347
+ "ń": 182,
348
+ "G": 183,
349
+ "R": 184,
350
+ "U": 185,
351
+ "[": 186,
352
+ "]": 187,
353
+ "C": 188,
354
+ "O": 189,
355
+ "h": 190,
356
+ "•": 191,
357
+ "É": 192,
358
+ "▪": 193,
359
+ "*": 194,
360
+ "/": 195,
361
+ "Ń": 196,
362
+ "q": 197,
363
+ "|": 198,
364
+ "V": 199,
365
+ "ḿ": 200,
366
+ "–": 201,
367
+ "è": 202,
368
+ "Ḿ": 203,
369
+ "H": 204,
370
+ "Á": 205
371
+ },
372
+ "merges": [
373
+ [
374
+ "▁",
375
+ "n"
376
+ ],
377
+ [
378
+ "▁",
379
+ "a"
380
+ ],
381
+ [
382
+ "▁",
383
+ "i"
384
+ ],
385
+ [
386
+ "▁",
387
+ "ɛ"
388
+ ],
389
+ [
390
+ "▁",
391
+ "u"
392
+ ],
393
+ [
394
+ "▁",
395
+ "e"
396
+ ],
397
+ [
398
+ "▁",
399
+ "l"
400
+ ],
401
+ [
402
+ "▁",
403
+ "’"
404
+ ],
405
+ [
406
+ "▁",
407
+ "k"
408
+ ],
409
+ [
410
+ "▁",
411
+ "m"
412
+ ],
413
+ [
414
+ "▁",
415
+ "s"
416
+ ],
417
+ [
418
+ "▁",
419
+ "b"
420
+ ],
421
+ [
422
+ "▁",
423
+ "ɔ"
424
+ ],
425
+ [
426
+ "▁",
427
+ ","
428
+ ],
429
+ [
430
+ "▁",
431
+ "'"
432
+ ],
433
+ [
434
+ "▁",
435
+ "o"
436
+ ],
437
+ [
438
+ "▁",
439
+ "w"
440
+ ],
441
+ [
442
+ "▁",
443
+ "f"
444
+ ],
445
+ [
446
+ "▁",
447
+ "t"
448
+ ],
449
+ [
450
+ "▁",
451
+ "g"
452
+ ],
453
+ [
454
+ "▁",
455
+ "y"
456
+ ],
457
+ [
458
+ "▁",
459
+ "."
460
+ ],
461
+ [
462
+ "▁",
463
+ "r"
464
+ ],
465
+ [
466
+ "▁",
467
+ "d"
468
+ ],
469
+ [
470
+ "▁",
471
+ "p"
472
+ ],
473
+ [
474
+ "▁",
475
+ "z"
476
+ ],
477
+ [
478
+ "▁",
479
+ "j"
480
+ ],
481
+ [
482
+ "▁",
483
+ ":"
484
+ ],
485
+ [
486
+ "▁",
487
+ "1"
488
+ ],
489
+ [
490
+ "▁",
491
+ "Z"
492
+ ],
493
+ [
494
+ "▁",
495
+ "c"
496
+ ],
497
+ [
498
+ "▁",
499
+ "?"
500
+ ],
501
+ [
502
+ "▁",
503
+ "S"
504
+ ],
505
+ [
506
+ "▁",
507
+ "A"
508
+ ],
509
+ [
510
+ "▁",
511
+ "N"
512
+ ],
513
+ [
514
+ "▁",
515
+ "K"
516
+ ],
517
+ [
518
+ "▁",
519
+ "v"
520
+ ],
521
+ [
522
+ "▁",
523
+ "á"
524
+ ],
525
+ [
526
+ "▁",
527
+ "2"
528
+ ],
529
+ [
530
+ "▁",
531
+ "Ɲ"
532
+ ],
533
+ [
534
+ "▁",
535
+ "M"
536
+ ],
537
+ [
538
+ "▁",
539
+ "ɲ"
540
+ ],
541
+ [
542
+ "▁",
543
+ "B"
544
+ ],
545
+ [
546
+ "▁",
547
+ "é"
548
+ ],
549
+ [
550
+ "▁",
551
+ "“"
552
+ ],
553
+ [
554
+ "▁",
555
+ "”"
556
+ ],
557
+ [
558
+ "▁",
559
+ "I"
560
+ ],
561
+ [
562
+ "▁",
563
+ "́"
564
+ ],
565
+ [
566
+ "▁",
567
+ "‘"
568
+ ],
569
+ [
570
+ "▁",
571
+ "3"
572
+ ],
573
+ [
574
+ "▁",
575
+ "Ɔ"
576
+ ],
577
+ [
578
+ "▁",
579
+ "4"
580
+ ],
581
+ [
582
+ "▁",
583
+ "0"
584
+ ],
585
+ [
586
+ "▁",
587
+ ")"
588
+ ],
589
+ [
590
+ "▁",
591
+ "E"
592
+ ],
593
+ [
594
+ "▁",
595
+ "5"
596
+ ],
597
+ [
598
+ "▁",
599
+ "-"
600
+ ],
601
+ [
602
+ "▁",
603
+ "("
604
+ ],
605
+ [
606
+ "▁",
607
+ "L"
608
+ ],
609
+ [
610
+ "▁",
611
+ "—"
612
+ ],
613
+ [
614
+ "▁",
615
+ "Y"
616
+ ],
617
+ [
618
+ "▁",
619
+ "F"
620
+ ],
621
+ [
622
+ "▁",
623
+ "ó"
624
+ ],
625
+ [
626
+ "▁",
627
+ "í"
628
+ ],
629
+ [
630
+ "▁",
631
+ "ú"
632
+ ],
633
+ [
634
+ "▁",
635
+ "6"
636
+ ],
637
+ [
638
+ "▁",
639
+ "W"
640
+ ],
641
+ [
642
+ "▁",
643
+ "7"
644
+ ],
645
+ [
646
+ "▁",
647
+ "9"
648
+ ],
649
+ [
650
+ "▁",
651
+ "D"
652
+ ],
653
+ [
654
+ "▁",
655
+ "T"
656
+ ],
657
+ [
658
+ "▁",
659
+ "8"
660
+ ],
661
+ [
662
+ "▁",
663
+ "P"
664
+ ],
665
+ [
666
+ "▁",
667
+ ";"
668
+ ],
669
+ [
670
+ "▁",
671
+ "Ɛ"
672
+ ],
673
+ [
674
+ "▁",
675
+ "!"
676
+ ],
677
+ [
678
+ "▁",
679
+ "J"
680
+ ],
681
+ [
682
+ "▁",
683
+ "ń"
684
+ ],
685
+ [
686
+ "▁",
687
+ "G"
688
+ ],
689
+ [
690
+ "▁",
691
+ "R"
692
+ ],
693
+ [
694
+ "▁",
695
+ "U"
696
+ ],
697
+ [
698
+ "▁",
699
+ "["
700
+ ],
701
+ [
702
+ "▁",
703
+ "]"
704
+ ],
705
+ [
706
+ "▁",
707
+ "C"
708
+ ],
709
+ [
710
+ "▁",
711
+ "O"
712
+ ],
713
+ [
714
+ "▁",
715
+ "h"
716
+ ],
717
+ [
718
+ "▁",
719
+ "•"
720
+ ],
721
+ [
722
+ "▁",
723
+ "É"
724
+ ],
725
+ [
726
+ "▁",
727
+ "▪"
728
+ ],
729
+ [
730
+ "▁",
731
+ "*"
732
+ ],
733
+ [
734
+ "▁",
735
+ "/"
736
+ ],
737
+ [
738
+ "▁",
739
+ "Ń"
740
+ ],
741
+ [
742
+ "▁",
743
+ "q"
744
+ ],
745
+ [
746
+ "▁",
747
+ "|"
748
+ ],
749
+ [
750
+ "▁",
751
+ "V"
752
+ ],
753
+ [
754
+ "▁",
755
+ "ḿ"
756
+ ],
757
+ [
758
+ "▁",
759
+ "–"
760
+ ],
761
+ [
762
+ "▁",
763
+ "è"
764
+ ],
765
+ [
766
+ "▁",
767
+ "Ḿ"
768
+ ],
769
+ [
770
+ "▁",
771
+ "H"
772
+ ],
773
+ [
774
+ "▁",
775
+ "Á"
776
+ ]
777
+ ]
778
+ }
779
+ }
tokenizer.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9d8c538d19bc460d3b0730c26645f6b0ede1f462c5cbf9bc6cf5dc578f0049f1
3
+ size 240063
tokenizer_config.json ADDED
@@ -0,0 +1,59 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_bos_token": true,
3
+ "add_eos_token": true,
4
+ "add_prefix_space": null,
5
+ "added_tokens_decoder": {
6
+ "0": {
7
+ "content": "<unk>",
8
+ "lstrip": false,
9
+ "normalized": false,
10
+ "rstrip": false,
11
+ "single_word": false,
12
+ "special": true
13
+ },
14
+ "1": {
15
+ "content": "<s>",
16
+ "lstrip": false,
17
+ "normalized": false,
18
+ "rstrip": false,
19
+ "single_word": false,
20
+ "special": true
21
+ },
22
+ "2": {
23
+ "content": "</s>",
24
+ "lstrip": false,
25
+ "normalized": false,
26
+ "rstrip": false,
27
+ "single_word": false,
28
+ "special": true
29
+ },
30
+ "206": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false,
36
+ "special": true
37
+ }
38
+ },
39
+ "bos_token": "<s>",
40
+ "clean_up_tokenization_spaces": false,
41
+ "eos_token": "</s>",
42
+ "extra_special_tokens": {},
43
+ "legacy": true,
44
+ "model_max_length": 1000000000000000019884624838656,
45
+ "pad_token": "<pad>",
46
+ "sp_model_kwargs": {},
47
+ "spaces_between_special_tokens": false,
48
+ "tokenizer_class": "LlamaTokenizer",
49
+ "unk_token": "<unk>",
50
+ "use_default_system_prompt": false,
51
+ "special_tokens_map_file": "special_tokens_map.json",
52
+ "description": "Tokenizer Baoulé pour traduction Français-Baoulé",
53
+ "language": [
54
+ "baq",
55
+ "Baoule"
56
+ ],
57
+ "license": "Apache-2.0",
58
+ "do_lower_case": false
59
+ }