Upload tokenizer

Files changed (3) hide show

added_tokens.json ADDED Viewed

+{
+  "<mask>": 250053,
+  "az_AZ": 250027,
+  "bn_IN": 250028,
+  "fa_IR": 250029,
+  "gl_ES": 250051,
+  "he_IL": 250030,
+  "hr_HR": 250031,
+  "id_ID": 250032,
+  "ka_GE": 250033,
+  "km_KH": 250034,
+  "mk_MK": 250035,
+  "ml_IN": 250036,
+  "mn_MN": 250037,
+  "mr_IN": 250038,
+  "pl_PL": 250039,
+  "ps_AF": 250040,
+  "pt_XX": 250041,
+  "sl_SI": 250052,
+  "sv_SE": 250042,
+  "sw_KE": 250043,
+  "ta_IN": 250044,
+  "te_IN": 250045,
+  "th_TH": 250046,
+  "tl_XX": 250047,
+  "uk_UA": 250048,
+  "ur_PK": 250049,
+  "xh_ZA": 250050
+}

special_tokens_map.json CHANGED Viewed

@@ -53,9 +53,27 @@
     "gl_ES",
     "sl_SI"
   ],
-  "bos_token": "<s>",
-  "cls_token": "<s>",
-  "eos_token": "</s>",
   "mask_token": {
     "content": "<mask>",
     "lstrip": true,
@@ -63,7 +81,25 @@
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": "<pad>",
-  "sep_token": "</s>",
-  "unk_token": "<unk>"
 }

     "gl_ES",
     "sl_SI"
   ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
   "mask_token": {
     "content": "<mask>",
     "lstrip": true,
     "rstrip": false,
     "single_word": false
   },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer_config.json CHANGED Viewed

@@ -523,6 +523,6 @@
   "sp_model_kwargs": {},
   "src_lang": "en_XX",
   "tgt_lang": "en_XX",
-  "tokenizer_class": "MBart50Tokenizer",
   "unk_token": "<unk>"
 }

   "sp_model_kwargs": {},
   "src_lang": "en_XX",
   "tgt_lang": "en_XX",
+  "tokenizer_class": "MBartTokenizer",
   "unk_token": "<unk>"
 }