Upload tokenizer

Files changed (3) hide show

chat_template.jinja CHANGED Viewed

@@ -1,4 +1,4 @@
-{{ '<s>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ '<|start_header_id|>system<|end_header_id|>
 ' + system_message + '<|eot_id|>' }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<|start_header_id|>user<|end_header_id|>


1	+ {{ '<\|begin_of_text\|>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ '<\|start_header_id\|>system<\|end_header_id\|>
2
3	' + system_message + '<\|eot_id\|>' }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<\|start_header_id\|>user<\|end_header_id\|>
4

special_tokens_map.json CHANGED Viewed

@@ -1,4 +1,7 @@
 {
   "bos_token": {
     "content": "<|begin_of_text|>",
     "lstrip": false,
@@ -7,14 +10,14 @@
     "single_word": false
   },
   "eos_token": {
-    "content": "<|end_of_text|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
-    "content": "<|end_of_text|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

 {
+  "additional_special_tokens": [
+    "<|eom_id|>"
+  ],
   "bos_token": {
     "content": "<|begin_of_text|>",
     "lstrip": false,
     "single_word": false
   },
   "eos_token": {
+    "content": "<|eot_id|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
+    "content": "<|eot_id|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer_config.json CHANGED Viewed

@@ -2049,16 +2049,19 @@
       "special": true
     }
   },
   "bos_token": "<|begin_of_text|>",
   "clean_up_tokenization_spaces": true,
-  "eos_token": "<|end_of_text|>",
   "extra_special_tokens": {},
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 8192,
-  "pad_token": "<|end_of_text|>",
   "padding_side": "right",
   "split_special_tokens": false,
   "tokenizer_class": "PreTrainedTokenizerFast"

       "special": true
     }
   },
+  "additional_special_tokens": [
+    "<|eom_id|>"
+  ],
   "bos_token": "<|begin_of_text|>",
   "clean_up_tokenization_spaces": true,
+  "eos_token": "<|eot_id|>",
   "extra_special_tokens": {},
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 8192,
+  "pad_token": "<|eot_id|>",
   "padding_side": "right",
   "split_special_tokens": false,
   "tokenizer_class": "PreTrainedTokenizerFast"