Upload tokenizer

Browse files

Files changed (5) hide show

added_tokens.json +2 -1
chat_template.jinja +1 -1
special_tokens_map.json +4 -4
tokenizer.json +2 -2
tokenizer_config.json +20 -3

added_tokens.json CHANGED Viewed

@@ -8,5 +8,6 @@
   "<|tool_call|>": 200025,
   "<|tool_response|>": 200027,
   "<|tool|>": 200023,
-  "<|user|>": 200021
 }

   "<|tool_call|>": 200025,
   "<|tool_response|>": 200027,
   "<|tool|>": 200023,
+  "<|user|>": 200021,
+  "<｜PAD▁TOKEN｜>": 200029
 }

chat_template.jinja CHANGED Viewed

@@ -1 +1 @@

- {% for message in messages %}{% if message['role'] == 'system' and 'tools' in message and message['tools'] is not none %}{{ '<|' + message['role'] + '|>' + message['content'] + '<|tool|>' + message['tools'] + '<|/tool|>' + '<|end|>' }}{% else %}{{ '<|' + message['role'] + '|>' + message['content'] + '<|end|>' }}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>' }}{% ~~else %}{{ eos_token }}{%~~ endif %}

+ {% for message in messages %}{% if message['role'] == 'system' and 'tools' in message and message['tools'] is not none %}{{ '<|' + message['role'] + '|>' + message['content'] + '<|tool|>' + message['tools'] + '<|/tool|>' + '<|end|>' }}{% else %}{{ '<|' + message['role'] + '|>' + message['content'] + '<|end|>' }}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>' }}{% endif %}

special_tokens_map.json CHANGED Viewed

@@ -7,21 +7,21 @@
     "single_word": false
   },
   "eos_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
-    "rstrip": false,
     "single_word": false
   },
   "pad_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

     "single_word": false
   },
   "eos_token": {
+    "content": "<|end|>",
     "lstrip": false,
     "normalized": false,
+    "rstrip": true,
     "single_word": false
   },
   "pad_token": {
+    "content": "<｜PAD▁TOKEN｜>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
+    "content": "ï¿½",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:382cc235b56c725945e149cc25f191da667c836655efd0857b004320e90e91ea
-size 15524095

 version https://git-lfs.github.com/spec/v1
+oid sha256:37b10016a39382ff2d24acc20a291ed83243a26c4549ab01f6240e72c6291d56
+size 15524472

tokenizer_config.json CHANGED Viewed

@@ -3,6 +3,14 @@
   "add_eos_token": false,
   "add_prefix_space": false,
   "added_tokens_decoder": {
     "199999": {
       "content": "<|endoftext|>",
       "lstrip": false,
@@ -98,14 +106,23 @@
       "rstrip": true,
       "single_word": false,
       "special": true
     }
   },
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": false,
-  "eos_token": "<|endoftext|>",
   "extra_special_tokens": {},
   "model_max_length": 131072,
-  "pad_token": "<|endoftext|>",
   "tokenizer_class": "GPT2Tokenizer",
-  "unk_token": "<|endoftext|>"
 }

   "add_eos_token": false,
   "add_prefix_space": false,
   "added_tokens_decoder": {
+    "3251": {
+      "content": "ï¿½",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
     "199999": {
       "content": "<|endoftext|>",
       "lstrip": false,
       "rstrip": true,
       "single_word": false,
       "special": true
+    },
+    "200029": {
+      "content": "<｜PAD▁TOKEN｜>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": false,
+  "eos_token": "<|end|>",
   "extra_special_tokens": {},
   "model_max_length": 131072,
+  "pad_token": "<｜PAD▁TOKEN｜>",
+  "padding_side": "left",
   "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "ï¿½"
 }