Upload tokenizer

Files changed (4) hide show

added_tokens.json ADDED Viewed

+{
+  "<nexa_end>": 256001,
+  "<nexa_split>": 256000
+}

special_tokens_map.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "additional_special_tokens": [
-    "<start_of_turn>",
-    "<end_of_turn>"
   ],
   "bos_token": {
     "content": "<bos>",
@@ -18,7 +18,7 @@
     "single_word": false
   },
   "pad_token": {
-    "content": "<eos>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

 {
   "additional_special_tokens": [
+    "<nexa_split>",
+    "<nexa_end>"
   ],
   "bos_token": {
     "content": "<bos>",
     "single_word": false
   },
   "pad_token": {
+    "content": "<pad>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c15eb04bc5ad609fb26533e8525302c5640a945e5f67f65b7c849900acda7d99
-size 17518497

 version https://git-lfs.github.com/spec/v1
+oid sha256:45bee2a7b619bb4a94d4f9efe65a19dd6f7e298349dc0a9a6f5bcff8de097bc9
+size 17518873

tokenizer_config.json CHANGED Viewed

@@ -1737,18 +1737,34 @@
       "rstrip": false,
       "single_word": false,
       "special": false
     }
   },
   "additional_special_tokens": [
-    "<start_of_turn>",
-    "<end_of_turn>"
   ],
   "bos_token": "<bos>",
   "chat_template": "{{ bos_token }}{% if messages[0]['role'] == 'system' %}{{ raise_exception('System role not supported') }}{% endif %}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if (message['role'] == 'assistant') %}{% set role = 'model' %}{% else %}{% set role = message['role'] %}{% endif %}{{ '<start_of_turn>' + role + '\n' + message['content'] | trim + '<end_of_turn>\n' }}{% endfor %}{% if add_generation_prompt %}{{'<start_of_turn>model\n'}}{% endif %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<eos>",
-  "model_max_length": 2048,
-  "pad_token": "<eos>",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
   "tokenizer_class": "GemmaTokenizer",

       "rstrip": false,
       "single_word": false,
       "special": false
+    },
+    "256000": {
+      "content": "<nexa_split>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "256001": {
+      "content": "<nexa_end>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
   "additional_special_tokens": [
+    "<nexa_split>",
+    "<nexa_end>"
   ],
   "bos_token": "<bos>",
   "chat_template": "{{ bos_token }}{% if messages[0]['role'] == 'system' %}{{ raise_exception('System role not supported') }}{% endif %}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if (message['role'] == 'assistant') %}{% set role = 'model' %}{% else %}{% set role = message['role'] %}{% endif %}{{ '<start_of_turn>' + role + '\n' + message['content'] | trim + '<end_of_turn>\n' }}{% endfor %}{% if add_generation_prompt %}{{'<start_of_turn>model\n'}}{% endif %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<eos>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
   "tokenizer_class": "GemmaTokenizer",