hf_tokenizer / tokenizer.json
Endezyar's picture
Upload tokenizer
cabaf76 verified
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "[UNK]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": null,
"pre_tokenizer": {
"type": "Whitespace"
},
"post_processor": null,
"decoder": null,
"model": {
"type": "BPE",
"dropout": null,
"unk_token": null,
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"ignore_merges": false,
"vocab": {
"[UNK]": 0,
"\"": 1,
"'": 2,
"(": 3,
")": 4,
",": 5,
"-": 6,
".": 7,
"/": 8,
"0": 9,
"1": 10,
"2": 11,
"3": 12,
"4": 13,
"5": 14,
"6": 15,
"7": 16,
"8": 17,
"9": 18,
":": 19,
";": 20,
"A": 21,
"B": 22,
"C": 23,
"D": 24,
"E": 25,
"F": 26,
"G": 27,
"H": 28,
"I": 29,
"J": 30,
"K": 31,
"L": 32,
"M": 33,
"N": 34,
"O": 35,
"P": 36,
"Q": 37,
"R": 38,
"S": 39,
"T": 40,
"U": 41,
"V": 42,
"X": 43,
"Y": 44,
"Z": 45,
"[": 46,
"]": 47,
"a": 48,
"b": 49,
"c": 50,
"d": 51,
"e": 52,
"f": 53,
"g": 54,
"h": 55,
"i": 56,
"j": 57,
"k": 58,
"l": 59,
"m": 60,
"n": 61,
"o": 62,
"p": 63,
"q": 64,
"r": 65,
"s": 66,
"t": 67,
"u": 68,
"v": 69,
"w": 70,
"x": 71,
"y": 72,
"z": 73,
"Ç": 74,
"Î": 75,
"â": 76,
"ç": 77,
"ê": 78,
"ë": 79,
"î": 80,
"ö": 81,
"û": 82,
"ü": 83,
"ı": 84,
"Ş": 85,
"ş": 86,
"‘": 87,
"’": 88,
"…": 89,
"an": 90,
"er": 91,
"ku": 92,
"in": 93,
"ên": 94,
"rd": 95,
"man": 96,
"ar": 97,
"ir": 98,
"ek": 99,
"li": 100,
"bi": 101,
"iy": 102,
"kurd": 103,
"de": 104,
"iman": 105,
"în": 106,
"di": 107,
"ziman": 108,
"av": 109,
"st": 110,
"we": 111,
"he": 112,
"ay": 113,
"at": 114,
"ji": 115,
"jî": 116,
"xwe": 117,
"el": 118,
"kurdî": 119,
"tê": 120,
"ne": 121,
"Ku": 122,
"or": 123,
"ist": 124,
"ye": 125,
"zimanê": 126,
"ey": 127,
"ber": 128,
"ro": 129,
"ser": 130,
"tin": 131,
"kir": 132,
"gel": 133,
"Kurd": 134,
"lê": 135,
"pê": 136,
"istan": 137,
"kî": 138,
"bû": 139,
"manc": 140,
"iya": 141,
"en": 142,
"ekî": 143,
"ax": 144,
"na": 145,
"ba": 146,
"din": 147,
"arav": 148,
"ra": 149,
"hat": 150,
"ko": 151,
"kur": 152,
"sa": 153,
"vî": 154,
"zarav": 155,
"anî": 156,
"kirin": 157,
"dî": 158,
"nav": 159,
"ya": 160,
"ih": 161,
"Kurdistan": 162,
"ew": 163,
"her": 164,
"mî": 165,
"iye": 166,
"ma": 167,
"tî": 168,
"zaravay": 169,
"da": 170,
"eb": 171,
"ni": 172,
"Ji": 173,
"ftin": 174,
"me": 175,
"mancî": 176,
"axa": 177,
"Kurdistanê": 178,
"em": 179,
"is": 180,
"be": 181,
"lat": 182,
"ve": 183,
"axaftin": 184,
"iş": 185,
"kar": 186,
"yê": 187,
"irk": 188,
"Li": 189,
"andin": 190,
"bo": 191,
"ev": 192,
"wek": 193,
"yên": 194,
"anîn": 195,
"re": 196,
"roj": 197,
"vîs": 198,
"nivîs": 199,
"al": 200,
"van": 201,
"yek": 202,
"arê": 203,
"hem": 204,
"oranî": 205,
"du": 206,
"nî": 207,
"wan": 208,
"êr": 209,
"ûr": 210,
"kurdan": 211,
"et": 212,
"hin": 213,
"vê": 214,
"eyên": 215,
"gelek": 216,
"pêş": 217,
"nas": 218,
"hatiye": 219,
"saz": 220,
"ebî": 221,
"ali": 222,
"hi": 223,
"lîn": 224,
"ok": 225,
"ine": 226,
"iyê": 227,
"dev": 228,
"dik": 229,
"ayê": 230,
"lêko": 231,
"bûna": 232,
"bakur": 233,
"kurmancî": 234,
"iha": 235,
"lêkolîn": 236,
"aw": 237,
"eh": 238,
"far": 239,
"go": 240,
"lî": 241,
"mi": 242,
"wê": 243,
"zê": 244,
"îr": 245,
"erebî": 246,
"iyên": 247,
"îna": 248,
"Kur": 249,
"aliyê": 250,
"hilat": 251,
"faris": 252,
"Tirk": 253,
"as": 254,
"az": 255
},
"merges": [
[
"a",
"n"
],
[
"e",
"r"
],
[
"k",
"u"
],
[
"i",
"n"
],
[
"ê",
"n"
],
[
"r",
"d"
],
[
"m",
"an"
],
[
"a",
"r"
],
[
"i",
"r"
],
[
"e",
"k"
],
[
"l",
"i"
],
[
"b",
"i"
],
[
"i",
"y"
],
[
"ku",
"rd"
],
[
"d",
"e"
],
[
"i",
"man"
],
[
"î",
"n"
],
[
"d",
"i"
],
[
"z",
"iman"
],
[
"a",
"v"
],
[
"s",
"t"
],
[
"w",
"e"
],
[
"h",
"e"
],
[
"a",
"y"
],
[
"a",
"t"
],
[
"j",
"i"
],
[
"j",
"î"
],
[
"x",
"we"
],
[
"e",
"l"
],
[
"kurd",
"î"
],
[
"t",
"ê"
],
[
"n",
"e"
],
[
"K",
"u"
],
[
"o",
"r"
],
[
"i",
"st"
],
[
"y",
"e"
],
[
"ziman",
"ê"
],
[
"e",
"y"
],
[
"b",
"er"
],
[
"r",
"o"
],
[
"s",
"er"
],
[
"t",
"in"
],
[
"k",
"ir"
],
[
"g",
"el"
],
[
"Ku",
"rd"
],
[
"l",
"ê"
],
[
"p",
"ê"
],
[
"ist",
"an"
],
[
"k",
"î"
],
[
"b",
"û"
],
[
"man",
"c"
],
[
"iy",
"a"
],
[
"e",
"n"
],
[
"ek",
"î"
],
[
"a",
"x"
],
[
"n",
"a"
],
[
"b",
"a"
],
[
"d",
"in"
],
[
"ar",
"av"
],
[
"r",
"a"
],
[
"h",
"at"
],
[
"k",
"o"
],
[
"ku",
"r"
],
[
"s",
"a"
],
[
"v",
"î"
],
[
"z",
"arav"
],
[
"an",
"î"
],
[
"kir",
"in"
],
[
"d",
"î"
],
[
"n",
"av"
],
[
"y",
"a"
],
[
"i",
"h"
],
[
"Kurd",
"istan"
],
[
"e",
"w"
],
[
"h",
"er"
],
[
"m",
"î"
],
[
"iy",
"e"
],
[
"m",
"a"
],
[
"t",
"î"
],
[
"zarav",
"ay"
],
[
"d",
"a"
],
[
"e",
"b"
],
[
"n",
"i"
],
[
"J",
"i"
],
[
"f",
"tin"
],
[
"m",
"e"
],
[
"manc",
"î"
],
[
"ax",
"a"
],
[
"Kurdistan",
"ê"
],
[
"e",
"m"
],
[
"i",
"s"
],
[
"b",
"e"
],
[
"l",
"at"
],
[
"v",
"e"
],
[
"axa",
"ftin"
],
[
"i",
"ş"
],
[
"k",
"ar"
],
[
"y",
"ê"
],
[
"ir",
"k"
],
[
"L",
"i"
],
[
"an",
"din"
],
[
"b",
"o"
],
[
"e",
"v"
],
[
"w",
"ek"
],
[
"y",
"ên"
],
[
"an",
"în"
],
[
"r",
"e"
],
[
"ro",
"j"
],
[
"vî",
"s"
],
[
"ni",
"vîs"
],
[
"a",
"l"
],
[
"v",
"an"
],
[
"y",
"ek"
],
[
"ar",
"ê"
],
[
"he",
"m"
],
[
"or",
"anî"
],
[
"d",
"u"
],
[
"n",
"î"
],
[
"w",
"an"
],
[
"ê",
"r"
],
[
"û",
"r"
],
[
"kurd",
"an"
],
[
"e",
"t"
],
[
"h",
"in"
],
[
"v",
"ê"
],
[
"ey",
"ên"
],
[
"gel",
"ek"
],
[
"pê",
"ş"
],
[
"na",
"s"
],
[
"hat",
"iye"
],
[
"sa",
"z"
],
[
"eb",
"î"
],
[
"a",
"li"
],
[
"h",
"i"
],
[
"l",
"în"
],
[
"o",
"k"
],
[
"in",
"e"
],
[
"iy",
"ê"
],
[
"de",
"v"
],
[
"di",
"k"
],
[
"ay",
"ê"
],
[
"lê",
"ko"
],
[
"bû",
"na"
],
[
"ba",
"kur"
],
[
"kur",
"mancî"
],
[
"ih",
"a"
],
[
"lêko",
"lîn"
],
[
"a",
"w"
],
[
"e",
"h"
],
[
"f",
"ar"
],
[
"g",
"o"
],
[
"l",
"î"
],
[
"m",
"i"
],
[
"w",
"ê"
],
[
"z",
"ê"
],
[
"î",
"r"
],
[
"er",
"ebî"
],
[
"iy",
"ên"
],
[
"în",
"a"
],
[
"Ku",
"r"
],
[
"ali",
"yê"
],
[
"hi",
"lat"
],
[
"far",
"is"
],
[
"T",
"irk"
],
[
"a",
"s"
],
[
"a",
"z"
]
]
}
}