goabonga
/

wikitext-2-raw-v1

@@ -9,7 +9,8 @@
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     },
     {
       "id": 1,
@@ -17,7 +18,8 @@
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     },
     {
       "id": 2,
@@ -25,7 +27,8 @@
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     },
     {
       "id": 3,
@@ -33,7 +36,8 @@
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": false
     }
   ],
   "added_tokens_decoder": {
@@ -79,13 +83,114 @@
     ]
   },
   "pre_tokenizer": {
-    "type": "Whitespace"
   },
-  "post_processor": null,
   "decoder": {
     "type": "WordPiece",
     "unk_token": "<unk>"
   },
   "special_tokens": {
     "pad_token": 0,
     "unk_token": 1,

       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 1,
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 2,
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     },
     {
       "id": 3,
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "added_tokens_decoder": {
     ]
   },
   "pre_tokenizer": {
+    "type": "Sequence",
+    "pretokenizers": [
+      {
+        "type": "Whitespace"
+      },
+      {
+        "type": "Punctuation",
+        "behavior": "Isolated"
+      }
+    ]
+  },
+  "post_processor": {
+    "type": "TemplateProcessing",
+    "single": [
+      {
+        "SpecialToken": {
+          "id": "<bos>",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "<eos>",
+          "type_id": 0
+        }
+      }
+    ],
+    "pair": [
+      {
+        "SpecialToken": {
+          "id": "<bos>",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "B",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "<eos>",
+          "type_id": 0
+        }
+      }
+    ],
+    "special_tokens": {
+      "<pad>": {
+        "id": "<pad>",
+        "ids": [
+          0
+        ],
+        "tokens": [
+          "<pad>"
+        ]
+      },
+      "<unk>": {
+        "id": "<unk>",
+        "ids": [
+          1
+        ],
+        "tokens": [
+          "<unk>"
+        ]
+      },
+      "<bos>": {
+        "id": "<bos>",
+        "ids": [
+          2
+        ],
+        "tokens": [
+          "<bos>"
+        ]
+      },
+      "<eos>": {
+        "id": "<eos>",
+        "ids": [
+          3
+        ],
+        "tokens": [
+          "<eos>"
+        ]
+      }
+    }
   },
   "decoder": {
     "type": "WordPiece",
     "unk_token": "<unk>"
   },
+  "special": [
+    0,
+    1,
+    2,
+    3
+  ],
   "special_tokens": {
     "pad_token": 0,
     "unk_token": 1,