Upload tokenizer

Files changed (4) hide show

merges.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ #version: 0.2

special_tokens_map.json CHANGED Viewed

@@ -1,6 +1,30 @@
 {
-  "bos_token": "<go>",
-  "eos_token": "</s>",
-  "pad_token": "<pad>",
-  "unk_token": "<unk>"
 }

 {
+  "bos_token": {
+    "content": "<go>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer_config.json CHANGED Viewed

@@ -1,38 +1,47 @@
 {
-  "pad_token": "<pad>",
-  "eos_token": "</s>",
   "bos_token": "<go>",
-  "unk_token": "<unk>",
-  "vocab": [
-    "<pad>",
-    "</s>",
-    "<unk>",
-    "<go>",
-    "S",
-    "O",
-    "2",
-    "n",
-    "l",
-    "F",
-    "H",
-    "C",
-    "o",
-    "5",
-    "r",
-    "s",
-    "=",
-    "6",
-    "[",
-    "N",
-    "4",
-    "c",
-    "-",
-    "3",
-    ")",
-    "#",
-    "]",
-    "B",
-    "(",
-    "1"
-  ]
-}

 {
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<go>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
   "bos_token": "<go>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<unk>"
+}

vocab.json ADDED Viewed

+{
+  "#": 25,
+  "(": 28,
+  ")": 24,
+  "-": 22,
+  "1": 29,
+  "2": 6,
+  "3": 23,
+  "4": 20,
+  "5": 13,
+  "6": 17,
+  "</s>": 1,
+  "<go>": 3,
+  "<pad>": 0,
+  "<unk>": 2,
+  "=": 16,
+  "B": 27,
+  "C": 11,
+  "F": 9,
+  "H": 10,
+  "N": 19,
+  "O": 5,
+  "S": 4,
+  "[": 18,
+  "]": 26,
+  "c": 21,
+  "l": 8,
+  "n": 7,
+  "o": 12,
+  "r": 14,
+  "s": 15
+}