byGPT2-s / tokenizer.json
ijktech-jk's picture
Upload tokenizer
b6eb1b5 verified
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 256,
"content": "<pad>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 257,
"content": "</s>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 258,
"content": "<unk>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": null,
"pre_tokenizer": {
"type": "ByteLevel",
"add_prefix_space": false,
"trim_offsets": true,
"use_regex": true
},
"post_processor": {
"type": "ByteLevel",
"add_prefix_space": true,
"trim_offsets": false,
"use_regex": true
},
"decoder": null,
"model": {
"type": "Unigram",
"unk_id": 258,
"vocab": [
[
"\u0000",
1.0
],
[
"\u0001",
1.0
],
[
"\u0002",
1.0
],
[
"\u0003",
1.0
],
[
"\u0004",
1.0
],
[
"\u0005",
1.0
],
[
"\u0006",
1.0
],
[
"\u0007",
1.0
],
[
"\b",
1.0
],
[
"\t",
1.0
],
[
"\n",
1.0
],
[
"\u000b",
1.0
],
[
"\f",
1.0
],
[
"\r",
1.0
],
[
"\u000e",
1.0
],
[
"\u000f",
1.0
],
[
"\u0010",
1.0
],
[
"\u0011",
1.0
],
[
"\u0012",
1.0
],
[
"\u0013",
1.0
],
[
"\u0014",
1.0
],
[
"\u0015",
1.0
],
[
"\u0016",
1.0
],
[
"\u0017",
1.0
],
[
"\u0018",
1.0
],
[
"\u0019",
1.0
],
[
"\u001a",
1.0
],
[
"\u001b",
1.0
],
[
"\u001c",
1.0
],
[
"\u001d",
1.0
],
[
"\u001e",
1.0
],
[
"\u001f",
1.0
],
[
" ",
1.0
],
[
"!",
1.0
],
[
"\"",
1.0
],
[
"#",
1.0
],
[
"$",
1.0
],
[
"%",
1.0
],
[
"&",
1.0
],
[
"'",
1.0
],
[
"(",
1.0
],
[
")",
1.0
],
[
"*",
1.0
],
[
"+",
1.0
],
[
",",
1.0
],
[
"-",
1.0
],
[
".",
1.0
],
[
"/",
1.0
],
[
"0",
1.0
],
[
"1",
1.0
],
[
"2",
1.0
],
[
"3",
1.0
],
[
"4",
1.0
],
[
"5",
1.0
],
[
"6",
1.0
],
[
"7",
1.0
],
[
"8",
1.0
],
[
"9",
1.0
],
[
":",
1.0
],
[
";",
1.0
],
[
"<",
1.0
],
[
"=",
1.0
],
[
">",
1.0
],
[
"?",
1.0
],
[
"@",
1.0
],
[
"A",
1.0
],
[
"B",
1.0
],
[
"C",
1.0
],
[
"D",
1.0
],
[
"E",
1.0
],
[
"F",
1.0
],
[
"G",
1.0
],
[
"H",
1.0
],
[
"I",
1.0
],
[
"J",
1.0
],
[
"K",
1.0
],
[
"L",
1.0
],
[
"M",
1.0
],
[
"N",
1.0
],
[
"O",
1.0
],
[
"P",
1.0
],
[
"Q",
1.0
],
[
"R",
1.0
],
[
"S",
1.0
],
[
"T",
1.0
],
[
"U",
1.0
],
[
"V",
1.0
],
[
"W",
1.0
],
[
"X",
1.0
],
[
"Y",
1.0
],
[
"Z",
1.0
],
[
"[",
1.0
],
[
"\\",
1.0
],
[
"]",
1.0
],
[
"^",
1.0
],
[
"_",
1.0
],
[
"`",
1.0
],
[
"a",
1.0
],
[
"b",
1.0
],
[
"c",
1.0
],
[
"d",
1.0
],
[
"e",
1.0
],
[
"f",
1.0
],
[
"g",
1.0
],
[
"h",
1.0
],
[
"i",
1.0
],
[
"j",
1.0
],
[
"k",
1.0
],
[
"l",
1.0
],
[
"m",
1.0
],
[
"n",
1.0
],
[
"o",
1.0
],
[
"p",
1.0
],
[
"q",
1.0
],
[
"r",
1.0
],
[
"s",
1.0
],
[
"t",
1.0
],
[
"u",
1.0
],
[
"v",
1.0
],
[
"w",
1.0
],
[
"x",
1.0
],
[
"y",
1.0
],
[
"z",
1.0
],
[
"{",
1.0
],
[
"|",
1.0
],
[
"}",
1.0
],
[
"~",
1.0
],
[
"",
1.0
],
[
"€",
1.0
],
[
"",
1.0
],
[
"‚",
1.0
],
[
"ƒ",
1.0
],
[
"„",
1.0
],
[
"…",
1.0
],
[
"†",
1.0
],
[
"‡",
1.0
],
[
"ˆ",
1.0
],
[
"‰",
1.0
],
[
"Š",
1.0
],
[
"‹",
1.0
],
[
"Œ",
1.0
],
[
"",
1.0
],
[
"Ž",
1.0
],
[
"",
1.0
],
[
"",
1.0
],
[
"‘",
1.0
],
[
"’",
1.0
],
[
"“",
1.0
],
[
"”",
1.0
],
[
"•",
1.0
],
[
"–",
1.0
],
[
"—",
1.0
],
[
"˜",
1.0
],
[
"™",
1.0
],
[
"š",
1.0
],
[
"›",
1.0
],
[
"œ",
1.0
],
[
"",
1.0
],
[
"ž",
1.0
],
[
"Ÿ",
1.0
],
[
" ",
1.0
],
[
"¡",
1.0
],
[
"¢",
1.0
],
[
"£",
1.0
],
[
"¤",
1.0
],
[
"¥",
1.0
],
[
"¦",
1.0
],
[
"§",
1.0
],
[
"¨",
1.0
],
[
"©",
1.0
],
[
"ª",
1.0
],
[
"«",
1.0
],
[
"¬",
1.0
],
[
"­",
1.0
],
[
"®",
1.0
],
[
"¯",
1.0
],
[
"°",
1.0
],
[
"±",
1.0
],
[
"²",
1.0
],
[
"³",
1.0
],
[
"´",
1.0
],
[
"µ",
1.0
],
[
"¶",
1.0
],
[
"·",
1.0
],
[
"¸",
1.0
],
[
"¹",
1.0
],
[
"º",
1.0
],
[
"»",
1.0
],
[
"¼",
1.0
],
[
"½",
1.0
],
[
"¾",
1.0
],
[
"¿",
1.0
],
[
"À",
1.0
],
[
"Á",
1.0
],
[
"Â",
1.0
],
[
"Ã",
1.0
],
[
"Ä",
1.0
],
[
"Å",
1.0
],
[
"Æ",
1.0
],
[
"Ç",
1.0
],
[
"È",
1.0
],
[
"É",
1.0
],
[
"Ê",
1.0
],
[
"Ë",
1.0
],
[
"Ì",
1.0
],
[
"Í",
1.0
],
[
"Î",
1.0
],
[
"Ï",
1.0
],
[
"Ð",
1.0
],
[
"Ñ",
1.0
],
[
"Ò",
1.0
],
[
"Ó",
1.0
],
[
"Ô",
1.0
],
[
"Õ",
1.0
],
[
"Ö",
1.0
],
[
"×",
1.0
],
[
"Ø",
1.0
],
[
"Ù",
1.0
],
[
"Ú",
1.0
],
[
"Û",
1.0
],
[
"Ü",
1.0
],
[
"Ý",
1.0
],
[
"Þ",
1.0
],
[
"ß",
1.0
],
[
"à",
1.0
],
[
"á",
1.0
],
[
"â",
1.0
],
[
"ã",
1.0
],
[
"ä",
1.0
],
[
"å",
1.0
],
[
"æ",
1.0
],
[
"ç",
1.0
],
[
"è",
1.0
],
[
"é",
1.0
],
[
"ê",
1.0
],
[
"ë",
1.0
],
[
"ì",
1.0
],
[
"í",
1.0
],
[
"î",
1.0
],
[
"ï",
1.0
],
[
"ð",
1.0
],
[
"ñ",
1.0
],
[
"ò",
1.0
],
[
"ó",
1.0
],
[
"ô",
1.0
],
[
"õ",
1.0
],
[
"ö",
1.0
],
[
"÷",
1.0
],
[
"ø",
1.0
],
[
"ù",
1.0
],
[
"ú",
1.0
],
[
"û",
1.0
],
[
"ü",
1.0
],
[
"ý",
1.0
],
[
"þ",
1.0
],
[
"ÿ",
1.0
],
[
"<pad>",
1.0
],
[
"</s>",
1.0
],
[
"<unk>",
1.0
]
],
"byte_fallback": false
}
}