iszoke's picture
Upload tokenizer
3a61d62 verified
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "<s>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 1,
"content": "</s>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 2,
"content": "<unk>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 3,
"content": "<pad>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 4,
"content": "<mask>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": null,
"pre_tokenizer": {
"type": "ByteLevel",
"add_prefix_space": true,
"trim_offsets": true,
"use_regex": true
},
"post_processor": {
"type": "TemplateProcessing",
"single": [
{
"Sequence": {
"id": "A",
"type_id": 0
}
},
{
"SpecialToken": {
"id": "</s>",
"type_id": 0
}
}
],
"pair": [
{
"Sequence": {
"id": "A",
"type_id": 0
}
},
{
"SpecialToken": {
"id": "</s>",
"type_id": 0
}
},
{
"Sequence": {
"id": "B",
"type_id": 1
}
},
{
"SpecialToken": {
"id": "</s>",
"type_id": 1
}
}
],
"special_tokens": {
"</s>": {
"id": "</s>",
"ids": [
1
],
"tokens": [
"</s>"
]
},
"<s>": {
"id": "<s>",
"ids": [
0
],
"tokens": [
"<s>"
]
}
}
},
"decoder": {
"type": "ByteLevel",
"add_prefix_space": true,
"trim_offsets": true,
"use_regex": true
},
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "<unk>",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"vocab": {
"<s>": 0,
"</s>": 1,
"<unk>": 2,
"<pad>": 3,
"<mask>": 4,
"!": 5,
"%": 6,
"'": 7,
"(": 8,
")": 9,
"+": 10,
",": 11,
"-": 12,
".": 13,
"/": 14,
"0": 15,
"1": 16,
"2": 17,
"3": 18,
"4": 19,
"5": 20,
"6": 21,
"7": 22,
"8": 23,
"9": 24,
":": 25,
"<": 26,
">": 27,
"?": 28,
"A": 29,
"B": 30,
"C": 31,
"D": 32,
"E": 33,
"F": 34,
"G": 35,
"H": 36,
"I": 37,
"J": 38,
"K": 39,
"L": 40,
"M": 41,
"N": 42,
"O": 43,
"P": 44,
"Q": 45,
"R": 46,
"S": 47,
"T": 48,
"U": 49,
"V": 50,
"W": 51,
"X": 52,
"Y": 53,
"Z": 54,
"a": 55,
"b": 56,
"c": 57,
"d": 58,
"e": 59,
"f": 60,
"g": 61,
"h": 62,
"i": 63,
"j": 64,
"k": 65,
"l": 66,
"m": 67,
"n": 68,
"o": 69,
"p": 70,
"q": 71,
"r": 72,
"s": 73,
"t": 74,
"u": 75,
"v": 76,
"w": 77,
"x": 78,
"y": 79,
"z": 80,
"¡": 81,
"£": 82,
"¤": 83,
"¥": 84,
"§": 85,
"¨": 86,
"©": 87,
"ª": 88,
"«": 89,
"°": 90,
"±": 91,
"²": 92,
"³": 93,
"´": 94,
"µ": 95,
"¶": 96,
"º": 97,
"¼": 98,
"½": 99,
"¾": 100,
"Â": 101,
"Ã": 102,
"Ä": 103,
"Å": 104,
"È": 105,
"Ġ": 106,
"ģ": 107,
"Ĥ": 108,
"Ħ": 109,
"ħ": 110,
"ĩ": 111,
"į": 112,
"ķ": 113,
"ĸ": 114,
"Ļ": 115,
"Ľ": 116,
"ľ": 117,
"Ł": 118,
"ł": 119,
"Ń": 120,
"se": 121,
"Ġk": 122,
"Ġ.": 123,
"Ġ,": 124,
"st": 125,
"le": 126,
"Ġt": 127,
"Ġm": 128,
"ä": 129,
"Ġo": 130,
"õ": 131,
"Ġe": 132,
"id": 133,
"Ġp": 134,
"in": 135,
"Ġv": 136,
"ja": 137,
"Ġs": 138,
"da": 139,
"ma": 140,
"me": 141,
"Ġse": 142,
"ik": 143,
"it": 144,
"Ġn": 145,
"oo": 146,
"Ġa": 147,
"is": 148,
"ü": 149,
"Ġon": 150,
"Ġme": 151,
"ga": 152,
"Ġja": 153,
"ra": 154,
"ud": 155,
"al": 156,
"Ġte": 157,
"us": 158,
"ks": 159,
"ta": 160,
"te": 161,
"ur": 162,
"Ġka": 163,
"Ġet": 164,
"li": 165,
"va": 166,
"en": 167,
"un": 168,
"Ġko": 169,
"lle": 170,
"si": 171,
"la": 172,
"es": 173,
"ust": 174,
"Ġva": 175,
"õi": 176,
"an": 177,
"ö": 178,
"ri": 179,
"mi": 180,
"ge": 181,
"use": 182,
"Ġj": 183,
"ee": 184,
"Ġh": 185,
"gi": 186,
"ul": 187,
"pa": 188,
"il": 189,
"ea": 190,
"na": 191,
"Ġsa": 192,
"Ġselle": 193,
"ĠE": 194,
"de": 195,
"Ġku": 196,
"Ġü": 197,
"uroo": 198,
"Ġl": 199,
"unk": 200,
"Ġole": 201,
"ĠEuroo": 202,
"Ġ<": 203,
"ĠEuroopa": 204,
"ut": 205,
"Ġvä": 206,
"Ġsee": 207,
"Ġr": 208,
"ii": 209,
"Ġta": 210,
"el": 211,
"Ġei": 212,
"ine": 213,
"ida": 214,
"är": 215,
"Ġpea": 216,
"ne": 217,
"ko": 218,
"Ġma": 219,
"gu": 220,
"ie": 221,
"sta": 222,
"vad": 223,
"Ġtä": 224,
"Ġsi": 225,
"Ġsu": 226,
"ha": 227,
"at": 228,
"est": 229,
"öö": 230,
"lik": 231,
"ime": 232,
"nd": 233,
"Ġsaa": 234,
"lt": 235,
"mise": 236,
"Ġtu": 237,
"uta": 238,
"ää": 239,
"ht": 240,
"ar": 241,
"Ġmeie": 242,
"Ġol": 243,
"ing": 244,
"Ġkõ": 245,
"ide": 246,
"Ġvõi": 247,
"Ġkui": 248,
"Ġin": 249,
"Ġra": 250,
"ĠL": 251,
"Ġpr": 252,
"Ġmis": 253,
"as": 254,
"or": 255,
"Ġvõ": 256,
"ad": 257,
"he": 258,
"Ġli": 259,
"ku": 260,
"Ġseda": 261,
"ol": 262,
"ist": 263,
"ita": 264,
"er": 265,
"sed": 266,
"Ġar": 267,
"Ġsuur": 268,
"kt": 269,
"ni": 270,
"üü": 271,
"Ġtule": 272,
"Ġsõ": 273,
"Ġto": 274,
"Ġning": 275,
"et": 276,
"mis": 277,
"sioo": 278,
"Ġmeil": 279,
"ĠLi": 280,
"Ġju": 281,
"hen": 282,
"Ġnä": 283,
"Ġoma": 284,
"nud": 285,
"stu": 286,
"Ġkõik": 287,
"Ġpal": 288,
"õig": 289,
"Ġkes": 290,
"val": 291,
"di": 292,
"Ġtege": 293,
"Ġsiis": 294,
"Ġväga": 295,
"ka": 296,
"Ġaga": 297,
"äh": 298,
"ult": 299,
"Ġpro": 300,
"Ġkas": 301,
"ite": 302,
"Ġpeame": 303,
"ba": 304,
"mist": 305,
"ise": 306,
"eg": 307,
"üüd": 308,
"Ġait": 309,
"lise": 310,
"ke": 311,
"Ġaitäh": 312,
"im": 313,
"ĠP": 314,
"tud": 315,
"Ġtõ": 316,
"Ġnüüd": 317,
"on": 318,
"uste": 319,
"Ġmin": 320,
"ära": 321,
"usi": 322,
"Ġüle": 323,
"kse": 324,
"Ġtöö": 325,
"Ġtaga": 326,
"nna": 327,
"ema": 328,
"Ġmõ": 329,
"Ġla": 330,
"riik": 331,
"ju": 332,
"nda": 333,
"Ġnii": 334,
"ste": 335,
"Ġna": 336,
"Ġvastu": 337,
"mine": 338,
"bi": 339,
"Ġmu": 340,
"ĠLiid": 341,
"ki": 342,
"Ġmida": 343,
"Ġliik": 344,
"ent": 345,
"Ġval": 346,
"Ġsel": 347,
"Ġvaja": 348,
"ti": 349,
"Ġsiin": 350,
"Ġne": 351,
"rd": 352,
"Ġjär": 353,
"Ġkü": 354,
"mm": 355,
"nik": 356,
"Ġõig": 357,
"Ġinime": 358,
"Ġnen": 359,
"Ġkolle": 360,
"uko": 361,
"Ġväl": 362,
"Ġlä": 363,
"Ġsõna": 364,
"used": 365,
"Ġvõima": 366,
"PK": 367,
"SPK": 368,
"Ġ(": 369,
"Ġpõ": 370,
"Ġmit": 371,
"eed": 372,
"Ġnende": 373,
"ua": 374,
"ts": 375,
"Ġrää": 376,
"Ġal": 377,
"kra": 378,
"Ġaa": 379,
"sa": 380,
"Ġkõi": 381,
"Ġkon": 382,
"Ġpu": 383,
"Ġpar": 384,
"Ġliikme": 385,
"Ġ2": 386,
"Ġkolleeg": 387,
"Ġu": 388,
"Ġloo": 389,
"pe": 390,
"oli": 391,
"iga": 392,
"re": 393,
"Ġpa": 394,
"iks": 395,
"Ġtaha": 396,
"Ġoleme": 397,
"Ġneed": 398,
"Ġselleks": 399,
"Ġsoo": 400,
"Ġtän": 401,
"misj": 402,
"and": 403,
"ĠK": 404,
"usta": 405,
"rii": 406,
"lame": 407,
"Ġkoo": 408,
"ile": 409,
"Ġpra": 410,
"ĠLiidu": 411,
"oliit": 412,
"Ġlu": 413,
"tu": 414,
"esid": 415,
"por": 416,
"sioon": 417,
"Ġjärg": 418,
"enda": 419,
"Ġkoda": 420,
"Ġette": 421,
"Ġkoh": 422,
"Ġvälja": 423,
"Ġliikmes": 424,
"ika": 425,
"Ġhea": 426,
"mas": 427,
"uda": 428,
"Ġkodanik": 429,
"Ġ1": 430,
"ĠS": 431,
"Ġüh": 432,
"tse": 433,
"Ġtuleb": 434,
"Ġde": 435,
"lu": 436,
"ia": 437,
"Ġpoo": 438,
"tle": 439,
"Ġaasta": 440,
"Ġsoov": 441,
"rv": 442,
"ĠV": 443,
"Ġkait": 444,
"Ġlõ": 445,
"ub": 446,
"Ġeest": 447,
"Ġneid": 448,
"takse": 449,
"eel": 450,
"ane": 451,
"sim": 452,
"Ġjä": 453,
"Ġmitte": 454,
"võ": 455,
"atud": 456,
"esident": 457,
"sti": 458,
"ina": 459,
"Ġpalun": 460,
"ute": 461,
"Ġf": 462,
"sime": 463,
"ärast": 464,
"Ġtäna": 465,
"Ġkä": 466,
"Ġnad": 467,
"alt": 468,
"Ġes": 469,
"Ġpõh": 470,
"jand": 471,
"Ġtänu": 472,
"Ġle": 473,
"Ġsaab": 474,
"siooni": 475,
"Ġoleks": 476,
"ot": 477,
"Ġkasuta": 478,
"Ġkuida": 479,
"Ġro": 480,
"Ġpii": 481,
"Ġkõige": 482,
"em": 483,
"Ġküsim": 484,
"Ġpeaks": 485,
"uline": 486,
"henda": 487,
"konna": 488,
"Ġnime": 489,
"rra": 490,
"hend": 491,
"Ġmi": 492,
"uma": 493,
"Ġhär": 494,
"Ġhärra": 495,
"mo": 496,
"Ġrah": 497,
"ru": 498,
"selt": 499
},
"merges": [
"s e",
"Ġ k",
"Ġ .",
"Ġ ,",
"s t",
"l e",
"Ġ t",
"Ġ m",
"Ã ¤",
"Ġ o",
"Ã µ",
"Ġ e",
"i d",
"Ġ p",
"i n",
"Ġ v",
"j a",
"Ġ s",
"d a",
"m a",
"m e",
"Ġ se",
"i k",
"i t",
"Ġ n",
"o o",
"Ġ a",
"i s",
"Ã ¼",
"Ġo n",
"Ġm e",
"g a",
"Ġ ja",
"r a",
"u d",
"a l",
"Ġt e",
"u s",
"k s",
"t a",
"t e",
"u r",
"Ġk a",
"Ġe t",
"l i",
"v a",
"e n",
"u n",
"Ġk o",
"l le",
"s i",
"l a",
"e s",
"u st",
"Ġv a",
"õ i",
"a n",
"Ã ¶",
"r i",
"m i",
"g e",
"u se",
"Ġ j",
"e e",
"Ġ h",
"g i",
"u l",
"p a",
"i l",
"e a",
"n a",
"Ġs a",
"Ġse lle",
"Ġ E",
"d e",
"Ġk u",
"Ġ ü",
"ur oo",
"Ġ l",
"un k",
"Ġo le",
"ĠE uroo",
"Ġ <",
"ĠEuroo pa",
"u t",
"Ġv ä",
"Ġse e",
"Ġ r",
"i i",
"Ġt a",
"e l",
"Ġe i",
"in e",
"id a",
"ä r",
"Ġp ea",
"n e",
"k o",
"Ġm a",
"g u",
"i e",
"st a",
"va d",
"Ġt ä",
"Ġs i",
"Ġs u",
"h a",
"a t",
"e st",
"ö ö",
"l ik",
"i me",
"n d",
"Ġsa a",
"l t",
"mi se",
"Ġt u",
"u ta",
"ä ä",
"h t",
"a r",
"Ġme ie",
"Ġo l",
"in g",
"Ġk õ",
"id e",
"Ġv õi",
"Ġku i",
"Ġ in",
"Ġ ra",
"Ġ L",
"Ġp r",
"Ġm is",
"a s",
"o r",
"Ġv õ",
"a d",
"h e",
"Ġ li",
"k u",
"Ġse da",
"o l",
"i st",
"it a",
"e r",
"se d",
"Ġa r",
"Ġsu ur",
"k t",
"n i",
"ü ü",
"Ġtu le",
"Ġs õ",
"Ġt o",
"Ġn ing",
"e t",
"m is",
"si oo",
"Ġme il",
"ĠL i",
"Ġj u",
"h en",
"Ġn ä",
"Ġo ma",
"n ud",
"st u",
"Ġkõ ik",
"Ġp al",
"õi g",
"Ġk es",
"v al",
"d i",
"Ġte ge",
"Ġsi is",
"Ġvä ga",
"k a",
"Ġa ga",
"ä h",
"ul t",
"Ġpr o",
"Ġka s",
"it e",
"Ġpea me",
"b a",
"mi st",
"i se",
"e g",
"üü d",
"Ġa it",
"li se",
"k e",
"Ġait äh",
"i m",
"Ġ P",
"t ud",
"Ġt õ",
"Ġn üüd",
"o n",
"ust e",
"Ġm in",
"ä ra",
"us i",
"Ġü le",
"k se",
"Ġt öö",
"Ġta ga",
"n na",
"e ma",
"Ġm õ",
"Ġ la",
"ri ik",
"j u",
"n da",
"Ġn ii",
"st e",
"Ġn a",
"Ġva stu",
"m ine",
"b i",
"Ġm u",
"ĠLi id",
"k i",
"Ġm ida",
"Ġli ik",
"en t",
"Ġv al",
"Ġse l",
"Ġva ja",
"t i",
"Ġsi in",
"Ġn e",
"r d",
"Ġj är",
"Ġk ü",
"m m",
"n ik",
"Ġ õig",
"Ġin ime",
"Ġn en",
"Ġko lle",
"u ko",
"Ġvä l",
"Ġl ä",
"Ġsõ na",
"use d",
"Ġvõi ma",
"P K",
"S PK",
"Ġ (",
"Ġp õ",
"Ġm it",
"ee d",
"Ġnen de",
"u a",
"t s",
"Ġr ää",
"Ġa l",
"k ra",
"Ġa a",
"s a",
"Ġk õi",
"Ġko n",
"Ġp u",
"Ġp ar",
"Ġliik me",
"Ġ 2",
"Ġkolle eg",
"Ġ u",
"Ġl oo",
"p e",
"o li",
"i ga",
"r e",
"Ġp a",
"ik s",
"Ġta ha",
"Ġole me",
"Ġn eed",
"Ġselle ks",
"Ġs oo",
"Ġtä n",
"mis j",
"an d",
"Ġ K",
"ust a",
"ri i",
"la me",
"Ġk oo",
"i le",
"Ġp ra",
"ĠLiid u",
"oli it",
"Ġl u",
"t u",
"es id",
"p or",
"sioo n",
"Ġjär g",
"en da",
"Ġko da",
"Ġet te",
"Ġko h",
"Ġväl ja",
"Ġliikme s",
"ik a",
"Ġh ea",
"ma s",
"u da",
"Ġkoda nik",
"Ġ 1",
"Ġ S",
"Ġü h",
"t se",
"Ġtule b",
"Ġ de",
"l u",
"i a",
"Ġp oo",
"t le",
"Ġaa sta",
"Ġsoo v",
"r v",
"Ġ V",
"Ġka it",
"Ġl õ",
"u b",
"Ġe est",
"Ġne id",
"ta kse",
"ee l",
"an e",
"si m",
"Ġj ä",
"Ġmit te",
"v õ",
"at ud",
"esid ent",
"st i",
"in a",
"Ġpal un",
"u te",
"Ġ f",
"si me",
"ära st",
"Ġtä na",
"Ġk ä",
"Ġn ad",
"al t",
"Ġe s",
"Ġpõ h",
"ja nd",
"Ġtän u",
"Ġ le",
"Ġsaa b",
"sioo ni",
"Ġole ks",
"o t",
"Ġkas uta",
"Ġku ida",
"Ġr o",
"Ġp ii",
"Ġkõi ge",
"e m",
"Ġkü sim",
"Ġpea ks",
"ul ine",
"hen da",
"ko nna",
"Ġn ime",
"r ra",
"hen d",
"Ġm i",
"u ma",
"Ġh är",
"Ġhär ra",
"m o",
"Ġra h",
"r u",
"se lt"
]
}
}