modified_smollm / special_tokens_map.json

Add modified SmolLM2 with Bangla tokenizer support

8b61e91 verified 7 months ago

2.97 kB

	{
	"additional_special_tokens": [
	{
	"content": "<filename>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<reponame>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<empty_output>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<issue_comment>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<issue_closed>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<jupyter_text>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<\|im_start\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<jupyter_script>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<issue_start>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<jupyter_start>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<repo_name>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<\|im_end\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<\|endoftext\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<gh_stars>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<file_sep>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<jupyter_code>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	{
	"content": "<jupyter_output>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	}
	],
	"bos_token": {
	"content": "<\|begin_of_text\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	"eos_token": {
	"content": "<\|eot_id\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	},
	"pad_token": {
	"content": "<\|eot_id\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false
	}
	}