Upload tokenizer

Browse files

Files changed (4) hide show

special_tokens_map.json +8 -44
tokenizer.json +32 -87
tokenizer_config.json +11 -13
vocab.json +0 -0

special_tokens_map.json CHANGED Viewed

@@ -1,51 +1,15 @@
 {
-  "bos_token": {
-    "content": "[CLS]",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "cls_token": {
-    "content": "[CLS]",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "[SEP]",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
   "mask_token": {
-    "content": "[MASK]",
     "lstrip": true,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": {
-    "content": "[PAD]",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "sep_token": {
-    "content": "[SEP]",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "[UNK]",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
   "mask_token": {
+    "content": "<mask>",
     "lstrip": true,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
 }

tokenizer.json CHANGED Viewed

@@ -1,51 +1,58 @@
 {
   "version": "1.0",
   "truncation": null,
-  "padding": null,
   "added_tokens": [
     {
       "id": 0,
-      "content": "[PAD]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true,
       "special": true
     },
     {
       "id": 1,
-      "content": "[CLS]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true,
       "special": true
     },
     {
       "id": 2,
-      "content": "[SEP]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true,
       "special": true
     },
     {
       "id": 3,
-      "content": "[UNK]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true,
       "special": true
     },
     {
       "id": 50264,
-      "content": "[MASK]",
       "single_word": false,
       "lstrip": true,
       "rstrip": false,
-      "normalized": true,
       "special": true
     }
   ],
@@ -57,79 +64,17 @@
     "use_regex": true
   },
   "post_processor": {
-    "type": "TemplateProcessing",
-    "single": [
-      {
-        "SpecialToken": {
-          "id": "[CLS]",
-          "type_id": 0
-        }
-      },
-      {
-        "Sequence": {
-          "id": "A",
-          "type_id": 0
-        }
-      },
-      {
-        "SpecialToken": {
-          "id": "[SEP]",
-          "type_id": 0
-        }
-      }
     ],
-    "pair": [
-      {
-        "SpecialToken": {
-          "id": "[CLS]",
-          "type_id": 0
-        }
-      },
-      {
-        "Sequence": {
-          "id": "A",
-          "type_id": 0
-        }
-      },
-      {
-        "SpecialToken": {
-          "id": "[SEP]",
-          "type_id": 0
-        }
-      },
-      {
-        "Sequence": {
-          "id": "B",
-          "type_id": 1
-        }
-      },
-      {
-        "SpecialToken": {
-          "id": "[SEP]",
-          "type_id": 1
-        }
-      }
     ],
-    "special_tokens": {
-      "[CLS]": {
-        "id": "[CLS]",
-        "ids": [
-          1
-        ],
-        "tokens": [
-          "[CLS]"
-        ]
-      },
-      "[SEP]": {
-        "id": "[SEP]",
-        "ids": [
-          2
-        ],
-        "tokens": [
-          "[SEP]"
-        ]
-      }
-    }
   },
   "decoder": {
     "type": "ByteLevel",
@@ -146,10 +91,10 @@
     "fuse_unk": false,
     "byte_fallback": false,
     "vocab": {
-      "[PAD]": 0,
-      "[CLS]": 1,
-      "[SEP]": 2,
-      "[UNK]": 3,
       ".": 4,
       "Ġthe": 5,
       ",": 6,
@@ -50410,7 +50355,7 @@
       "madeupword0000": 50261,
       "madeupword0001": 50262,
       "madeupword0002": 50263,
-      "[MASK]": 50264
     },
     "merges": [
       "Ġ t",

 {
   "version": "1.0",
   "truncation": null,
+  "padding": {
+    "strategy": "BatchLongest",
+    "direction": "Right",
+    "pad_to_multiple_of": null,
+    "pad_id": 1,
+    "pad_type_id": 0,
+    "pad_token": "<pad>"
+  },
   "added_tokens": [
     {
       "id": 0,
+      "content": "<s>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
       "special": true
     },
     {
       "id": 1,
+      "content": "<pad>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
       "special": true
     },
     {
       "id": 2,
+      "content": "</s>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
       "special": true
     },
     {
       "id": 3,
+      "content": "<unk>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
       "special": true
     },
     {
       "id": 50264,
+      "content": "<mask>",
       "single_word": false,
       "lstrip": true,
       "rstrip": false,
+      "normalized": false,
       "special": true
     }
   ],
     "use_regex": true
   },
   "post_processor": {
+    "type": "RobertaProcessing",
+    "sep": [
+      "</s>",
+      2
     ],
+    "cls": [
+      "<s>",
+      0
     ],
+    "trim_offsets": true,
+    "add_prefix_space": false
   },
   "decoder": {
     "type": "ByteLevel",
     "fuse_unk": false,
     "byte_fallback": false,
     "vocab": {
+      "<s>": 0,
+      "<pad>": 1,
+      "</s>": 2,
+      "<unk>": 3,
       ".": 4,
       "Ġthe": 5,
       ",": 6,
       "madeupword0000": 50261,
       "madeupword0001": 50262,
       "madeupword0002": 50263,
+      "<mask>": 50264
     },
     "merges": [
       "Ġ t",

tokenizer_config.json CHANGED Viewed

@@ -1,9 +1,8 @@
 {
-  "add_bos_token": false,
   "add_prefix_space": false,
   "bos_token": {
     "__type": "AddedToken",
-    "content": "[CLS]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
@@ -12,16 +11,15 @@
   "clean_up_tokenization_spaces": true,
   "cls_token": {
     "__type": "AddedToken",
-    "content": "[CLS]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
     "single_word": false
   },
-  "do_lower_case": false,
   "eos_token": {
     "__type": "AddedToken",
-    "content": "[SEP]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
@@ -30,16 +28,16 @@
   "errors": "replace",
   "mask_token": {
     "__type": "AddedToken",
-    "content": "[MASK]",
     "lstrip": true,
     "normalized": true,
     "rstrip": false,
     "single_word": false
   },
-  "model_max_length": 512,
   "pad_token": {
     "__type": "AddedToken",
-    "content": "[PAD]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
@@ -47,20 +45,20 @@
   },
   "sep_token": {
     "__type": "AddedToken",
-    "content": "[SEP]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
     "single_word": false
   },
-  "tokenizer_class": "DebertaTokenizer",
   "unk_token": {
     "__type": "AddedToken",
-    "content": "[UNK]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
     "single_word": false
-  },
-  "vocab_type": "gpt2"
 }

 {
   "add_prefix_space": false,
   "bos_token": {
     "__type": "AddedToken",
+    "content": "<s>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
   "clean_up_tokenization_spaces": true,
   "cls_token": {
     "__type": "AddedToken",
+    "content": "<s>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
     "__type": "AddedToken",
+    "content": "</s>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
   "errors": "replace",
   "mask_token": {
     "__type": "AddedToken",
+    "content": "<mask>",
     "lstrip": true,
     "normalized": true,
     "rstrip": false,
     "single_word": false
   },
+  "model_max_length": 1000000000000000019884624838656,
   "pad_token": {
     "__type": "AddedToken",
+    "content": "<pad>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
   },
   "sep_token": {
     "__type": "AddedToken",
+    "content": "</s>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
     "single_word": false
   },
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
   "unk_token": {
     "__type": "AddedToken",
+    "content": "<unk>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
     "single_word": false
+  }
 }

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff