ocr_tokenizer_14k / tokenizer_config.json

Upload tokenizer

3e71b01 verified over 1 year ago

5.55 kB

	{
	"added_tokens_decoder": {
	"0": {
	"content": "<s>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"1": {
	"content": "<pad>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"2": {
	"content": "</s>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"3": {
	"content": "<unk>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"4": {
	"content": "<mask>",
	"lstrip": true,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"5": {
	"content": "<sep/>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"6": {
	"content": "</s_class>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"7": {
	"content": "<advertisement/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"8": {
	"content": "<budget/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"9": {
	"content": "<email/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"10": {
	"content": "<file_folder/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"11": {
	"content": "<form/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"12": {
	"content": "<handwritten/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"13": {
	"content": "<invoice/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"14": {
	"content": "<letter/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"15": {
	"content": "<memo/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"16": {
	"content": "<news_article/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"17": {
	"content": "<presentation/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"18": {
	"content": "<questionnaire/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"19": {
	"content": "<resume/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"20": {
	"content": "<s_class>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"21": {
	"content": "<s_iitcdip>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"22": {
	"content": "<s_rvlcdip>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"23": {
	"content": "<s_synthdog>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"24": {
	"content": "<scientific_publication/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"25": {
	"content": "<scientific_report/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"26": {
	"content": "<specification/>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	}
	},
	"additional_special_tokens": [
	"</s_class>",
	"<advertisement/>",
	"<budget/>",
	"<email/>",
	"<file_folder/>",
	"<form/>",
	"<handwritten/>",
	"<invoice/>",
	"<letter/>",
	"<memo/>",
	"<news_article/>",
	"<presentation/>",
	"<questionnaire/>",
	"<resume/>",
	"<s_class>",
	"<s_iitcdip>",
	"<s_rvlcdip>",
	"<s_synthdog>",
	"<scientific_publication/>",
	"<scientific_report/>",
	"<specification/>"
	],
	"bos_token": "<s>",
	"clean_up_tokenization_spaces": true,
	"cls_token": "<s>",
	"eos_token": "</s>",
	"mask_token": "<mask>",
	"model_max_length": 1000000000000000019884624838656,
	"pad_token": "<pad>",
	"processor_class": "DonutProcessor",
	"sep_token": "</s>",
	"sp_model_kwargs": {},
	"tokenizer_class": "XLMRobertaTokenizer",
	"unk_token": "<unk>"
	}