Llama-Baseline-V4-Instruct-Test / tokenizer_config.json

(Trained with Unsloth)

7b32e4e verified 8 months ago

1.76 kB

	{
	"add_prefix_space": false,
	"added_tokens_decoder": {
	"0": {
	"content": "<pad>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"1": {
	"content": "<bos>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"2": {
	"content": "<eos>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"4": {
	"content": "<unk>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"8": {
	"content": "<classification>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	}
	},
	"additional_special_tokens": [],
	"bos_token": "<bos>",
	"chat_template": "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'assistant') %}{% set role = 'model' %}{% else %}{% set role = message['role'] %}{% endif %}{{ '<start_of_turn>' + role + '\n' + message['content'] \| trim + '<end_of_turn>\n' }}{% endfor %}{% if add_generation_prompt %}{{'<start_of_turn>model\n'}}{% endif %}",
	"clean_up_tokenization_spaces": false,
	"cls_token": "<classification>",
	"eos_token": "<eos>",
	"extra_special_tokens": {},
	"mask_token": null,
	"model_input_names": [
	"input_ids",
	"attention_mask"
	],
	"model_max_length": 8192,
	"pad_token": "<pad>",
	"padding_side": "left",
	"sep_token": null,
	"split_special_tokens": false,
	"tokenizer_class": "GPT2Tokenizer",
	"truncation_side": "right",
	"unk_token": "<unk>"
	}