Switch to fast tokenizer format (tokenizer.json)

- Replace vocab.json + merges.txt with tokenizer.json
- Update tokenizer_config.json
- Compatible with swift-transformers and Python transformers

Files changed (5) hide show

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.json ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e3855f008ece7e02f09bad5c0aa492cd1594529a796b80193f4ef640200e58b
+size 10523354

tokenizer_config.json CHANGED Viewed

@@ -26,12 +26,15 @@
       "special": true
     }
   },
-  "additional_special_tokens": ["<|im_start|>", "<|im_end|>"],
   "bos_token": null,
-  "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<|im_end|>",
   "errors": "replace",
   "model_max_length": 32768,
   "pad_token": "<|endoftext|>",
   "split_special_tokens": false,

       "special": true
     }
   },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
   "bos_token": null,
   "clean_up_tokenization_spaces": false,
   "eos_token": "<|im_end|>",
   "errors": "replace",
+  "extra_special_tokens": {},
   "model_max_length": 32768,
   "pad_token": "<|endoftext|>",
   "split_special_tokens": false,

vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff