et_ec_bpe500 / tokenizer.json
iszoke's picture
Upload tokenizer
13cca20 verified
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "([bos])",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 1,
"content": "([eos])",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 2,
"content": "([unk])",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 3,
"content": "([pad])",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 4,
"content": "([mask])",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 497,
"content": "(LNG)",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": true,
"special": false
},
{
"id": 498,
"content": "(UNK)",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": true,
"special": false
},
{
"id": 499,
"content": "(SPN)",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": true,
"special": false
}
],
"normalizer": null,
"pre_tokenizer": {
"type": "ByteLevel",
"add_prefix_space": true,
"trim_offsets": true,
"use_regex": true
},
"post_processor": {
"type": "TemplateProcessing",
"single": [
{
"Sequence": {
"id": "A",
"type_id": 0
}
},
{
"SpecialToken": {
"id": "([eos])",
"type_id": 0
}
}
],
"pair": [
{
"Sequence": {
"id": "A",
"type_id": 0
}
},
{
"SpecialToken": {
"id": "([eos])",
"type_id": 0
}
},
{
"Sequence": {
"id": "B",
"type_id": 1
}
},
{
"SpecialToken": {
"id": "([eos])",
"type_id": 1
}
}
],
"special_tokens": {
"([bos])": {
"id": "([bos])",
"ids": [
0
],
"tokens": [
"([bos])"
]
},
"([eos])": {
"id": "([eos])",
"ids": [
1
],
"tokens": [
"([eos])"
]
}
}
},
"decoder": {
"type": "ByteLevel",
"add_prefix_space": true,
"trim_offsets": true,
"use_regex": true
},
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "([unk])",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"vocab": {
"([bos])": 0,
"([eos])": 1,
"([unk])": 2,
"([pad])": 3,
"([mask])": 4,
"!": 5,
"%": 6,
"'": 7,
"(": 8,
")": 9,
"*": 10,
"+": 11,
",": 12,
"-": 13,
".": 14,
"/": 15,
"0": 16,
"1": 17,
"2": 18,
"3": 19,
"4": 20,
"5": 21,
"6": 22,
"7": 23,
"8": 24,
"9": 25,
":": 26,
";": 27,
"?": 28,
"A": 29,
"B": 30,
"C": 31,
"D": 32,
"E": 33,
"F": 34,
"G": 35,
"H": 36,
"I": 37,
"J": 38,
"K": 39,
"L": 40,
"M": 41,
"N": 42,
"O": 43,
"P": 44,
"Q": 45,
"R": 46,
"S": 47,
"T": 48,
"U": 49,
"V": 50,
"W": 51,
"X": 52,
"Y": 53,
"Z": 54,
"a": 55,
"b": 56,
"c": 57,
"d": 58,
"e": 59,
"f": 60,
"g": 61,
"h": 62,
"i": 63,
"j": 64,
"k": 65,
"l": 66,
"m": 67,
"n": 68,
"o": 69,
"p": 70,
"q": 71,
"r": 72,
"s": 73,
"t": 74,
"u": 75,
"v": 76,
"w": 77,
"x": 78,
"y": 79,
"z": 80,
"¡": 81,
"¢": 82,
"£": 83,
"¤": 84,
"¥": 85,
"§": 86,
"¨": 87,
"©": 88,
"ª": 89,
"«": 90,
"¬": 91,
"®": 92,
"¯": 93,
"°": 94,
"±": 95,
"²": 96,
"³": 97,
"´": 98,
"µ": 99,
"¶": 100,
"·": 101,
"¸": 102,
"º": 103,
"¼": 104,
"½": 105,
"¾": 106,
"Â": 107,
"Ã": 108,
"Ä": 109,
"Å": 110,
"È": 111,
"â": 112,
"Ġ": 113,
"Ģ": 114,
"ģ": 115,
"Ĥ": 116,
"ĥ": 117,
"Ħ": 118,
"ħ": 119,
"ĩ": 120,
"ī": 121,
"Į": 122,
"į": 123,
"İ": 124,
"IJ": 125,
"ķ": 126,
"ĸ": 127,
"Ĺ": 128,
"ĺ": 129,
"Ļ": 130,
"Ľ": 131,
"ľ": 132,
"Ł": 133,
"ł": 134,
"Ń": 135,
"se": 136,
"Ġk": 137,
"Ġ,": 138,
"st": 139,
"Ġ.": 140,
"le": 141,
"ä": 142,
"Ġt": 143,
"Ġm": 144,
"Ġo": 145,
"õ": 146,
"Ġe": 147,
"id": 148,
"in": 149,
"Ġp": 150,
"Ġv": 151,
"ja": 152,
"Ġs": 153,
"da": 154,
"li": 155,
"Ġse": 156,
"ma": 157,
"me": 158,
"Ġa": 159,
"Ġn": 160,
"oo": 161,
"it": 162,
"ü": 163,
"is": 164,
"Ġon": 165,
"ga": 166,
"ud": 167,
"Ġja": 168,
"ra": 169,
"ks": 170,
"Ġme": 171,
"us": 172,
"te": 173,
"va": 174,
"ta": 175,
"ik": 176,
"Ġte": 177,
"ur": 178,
"Ġka": 179,
"en": 180,
"Ġet": 181,
"Ġva": 182,
"la": 183,
"Ġko": 184,
"si": 185,
"lle": 186,
"es": 187,
"aa": 188,
"ust": 189,
"lt": 190,
"na": 191,
"õi": 192,
"mi": 193,
"ri": 194,
"use": 195,
"Ġh": 196,
"Ġj": 197,
"pa": 198,
"ö": 199,
"ge": 200,
"gi": 201,
"ne": 202,
"Ġku": 203,
"ee": 204,
"Ġ(": 205,
"lu": 206,
"ea": 207,
"il": 208,
"Ġselle": 209,
"Ġpa": 210,
"Ġü": 211,
"de": 212,
"ĠE": 213,
"gu": 214,
"Ġole": 215,
"Ġr": 216,
"Ġsee": 217,
"Ġvä": 218,
"uroo": 219,
"sta": 220,
"nd": 221,
"ine": 222,
"ku": 223,
"Ġta": 224,
"uroopa": 225,
"ti": 226,
"Ġei": 227,
"ĠEuroopa": 228,
"är": 229,
"ida": 230,
"ko": 231,
"ha": 232,
"Ġl": 233,
"el": 234,
"ii": 235,
"Ġpea": 236,
"Ġtu": 237,
"ni": 238,
"vad": 239,
"tud": 240,
"Ġsu": 241,
"Ġsaa": 242,
"Ġtä": 243,
"est": 244,
"Ġsi": 245,
"Ġma": 246,
"nud": 247,
"ää": 248,
"mise": 249,
"sa": 250,
"ie": 251,
"ime": 252,
"uta": 253,
"ro": 254,
"ide": 255,
"Ġvõi": 256,
"öö": 257,
"tsi": 258,
"Ġra": 259,
"Ġin": 260,
"Ġmis": 261,
"Ġli": 262,
"Ġkui": 263,
"tu": 264,
"ka": 265,
"stu": 266,
"Ġvõ": 267,
"NG": 268,
"LNG": 269,
"or": 270,
"he": 271,
"ing": 272,
"lik": 273,
"ĠL": 274,
"lise": 275,
"Ġkõ": 276,
"ba": 277,
"ita": 278,
"ste": 279,
"Ġju": 280,
"Ġseda": 281,
"Ġmeie": 282,
"Ġar": 283,
"Ġsõ": 284,
"Ġna": 285,
"Ġto": 286,
"Ġsuur": 287,
"er": 288,
"mis": 289,
"üü": 290,
"äh": 291,
"Ġsa": 292,
"di": 293,
"Ġkes": 294,
"Ġtule": 295,
"Ġning": 296,
"Ġsiis": 297,
"ts": 298,
"Ġvastu": 299,
"tse": 300,
"uu": 301,
"Ġoma": 302,
"Ġnä": 303,
"nda": 304,
"Ġkas": 305,
"Ġmeil": 306,
"ul": 307,
"Ġaga": 308,
"ĠLi": 309,
"õig": 310,
"hen": 311,
"Ġpro": 312,
"Ġväga": 313,
"nna": 314,
"ke": 315,
"re": 316,
"ol": 317,
"Ġolu": 318,
"ise": 319,
"tsioo": 320,
"eg": 321,
"ju": 322,
"Ġtege": 323,
"üüd": 324,
"Ġkõik": 325,
"al": 326,
"ite": 327,
"usta": 328,
"Ġmin": 329,
"ki": 330,
"itäh": 331,
"Ġaitäh": 332,
"Ġnüüd": 333,
"mine": 334,
"Ġtõ": 335,
"Ġla": 336,
"mist": 337,
"Ġtaga": 338,
"bi": 339,
"Ġtöö": 340,
"uste": 341,
"im": 342,
"UN": 343,
"UNK": 344,
"kse": 345,
"ära": 346,
"SP": 347,
"SPK": 348,
"usi": 349,
"Ġmida": 350,
"et": 351,
"Ġpeame": 352,
"ĠP": 353,
"liku": 354,
"on": 355,
"Ġüle": 356,
"Ġmõ": 357,
"idu": 358,
"Ġnii": 359,
"Ġne": 360,
"Ġjär": 361,
"Ġkü": 362,
"riik": 363,
"nu": 364,
"Ġsel": 365,
"ht": 366,
"rd": 367,
"line": 368,
"Ġsiin": 369,
"nik": 370,
"ut": 371,
"Ġ?": 372,
"Ġsõna": 373,
"Ġosa": 374,
"Ġkolle": 375,
"Ġliik": 376,
"asta": 377,
"Ġvaja": 378,
"Ġ2": 379,
"Ġal": 380,
"Ġaasta": 381,
"used": 382,
"Ġnen": 383,
"Ġõig": 384,
"kra": 385,
"ema": 386,
"ua": 387,
"Ġpu": 388,
"Ġinime": 389,
"Ġpõ": 390,
"Ġvõima": 391,
"Ġmit": 392,
"sed": 393,
"ina": 394,
"ika": 395,
"res": 396,
"Ġkolleeg": 397,
"ar": 398,
"õige": 399,
"Ġkon": 400,
"ist": 401,
"Ġol": 402,
"Ġnende": 403,
"Ġ1": 404,
"Ġrää": 405,
"Ġette": 406,
"eed": 407,
"oli": 408,
"misj": 409,
"Ġlu": 410,
"Ġlä": 411,
"aal": 412,
"Ġväl": 413,
"Ġüh": 414,
"eta": 415,
"Ġtea": 416,
"Ġpoo": 417,
"Ġpal": 418,
"iden": 419,
"Ġjärg": 420,
"ĠS": 421,
"mas": 422,
"Ġtaha": 423,
"õp": 424,
"Ġliikme": 425,
"Ġsoo": 426,
"Ġloo": 427,
"Ġtäna": 428,
"Ġkoo": 429,
"ĠK": 430,
"Ġneed": 431,
"rii": 432,
"iga": 433,
"por": 434,
"mu": 435,
"Ġoleme": 436,
"tte": 437,
"Ġkoh": 438,
"ĠLiidu": 439,
"enda": 440,
"Ġselleks": 441,
"Ġpra": 442,
"tus": 443,
"lame": 444,
"Ġf": 445,
"Ġvälja": 446,
"ile": 447,
"ĠV": 448,
"Ġmi": 449,
"rv": 450,
"Ġnime": 451,
"kt": 452,
"Ġpalu": 453,
"residen": 454,
"Ġhea": 455,
"Ġhää": 456,
"oliit": 457,
"võ": 458,
"Ġmuu": 459,
"Ġle": 460,
"ĠA": 461,
"Ġkoda": 462,
"sim": 463,
"likult": 464,
"Ġeest": 465,
"gia": 466,
"Ġjä": 467,
"val": 468,
"Ġsaab": 469,
"Ġkä": 470,
"Ġtuleb": 471,
"tle": 472,
"Ġhääle": 473,
"esti": 474,
"Ġkodanik": 475,
"dus": 476,
"Ġliikmes": 477,
"Ġpalun": 478,
"Ġu": 479,
"Ġnad": 480,
"Ġde": 481,
"Ġmitte": 482,
"Ġtänu": 483,
"takse": 484,
"Ġneid": 485,
"vi": 486,
"resident": 487,
"ndi": 488,
"pane": 489,
"Ġvee": 490,
"Ġnõ": 491,
"Ġro": 492,
"tsioon": 493,
"Ġoleks": 494,
"tuse": 495,
"hi": 496
},
"merges": [
"s e",
"Ġ k",
"Ġ ,",
"s t",
"Ġ .",
"l e",
"Ã ¤",
"Ġ t",
"Ġ m",
"Ġ o",
"Ã µ",
"Ġ e",
"i d",
"i n",
"Ġ p",
"Ġ v",
"j a",
"Ġ s",
"d a",
"l i",
"Ġ se",
"m a",
"m e",
"Ġ a",
"Ġ n",
"o o",
"i t",
"Ã ¼",
"i s",
"Ġo n",
"g a",
"u d",
"Ġ ja",
"r a",
"k s",
"Ġm e",
"u s",
"t e",
"v a",
"t a",
"i k",
"Ġt e",
"u r",
"Ġk a",
"e n",
"Ġe t",
"Ġv a",
"l a",
"Ġk o",
"s i",
"l le",
"e s",
"a a",
"u st",
"l t",
"n a",
"õ i",
"m i",
"r i",
"u se",
"Ġ h",
"Ġ j",
"p a",
"Ã ¶",
"g e",
"g i",
"n e",
"Ġk u",
"e e",
"Ġ (",
"l u",
"e a",
"i l",
"Ġse lle",
"Ġp a",
"Ġ ü",
"d e",
"Ġ E",
"g u",
"Ġo le",
"Ġ r",
"Ġse e",
"Ġv ä",
"ur oo",
"st a",
"n d",
"in e",
"k u",
"Ġt a",
"uroo pa",
"t i",
"Ġe i",
"ĠE uroopa",
"ä r",
"id a",
"k o",
"h a",
"Ġ l",
"e l",
"i i",
"Ġp ea",
"Ġt u",
"n i",
"va d",
"t ud",
"Ġs u",
"Ġs aa",
"Ġt ä",
"e st",
"Ġs i",
"Ġm a",
"n ud",
"ä ä",
"mi se",
"s a",
"i e",
"i me",
"u ta",
"r o",
"id e",
"Ġv õi",
"ö ö",
"t si",
"Ġ ra",
"Ġ in",
"Ġm is",
"Ġ li",
"Ġku i",
"t u",
"k a",
"st u",
"Ġv õ",
"N G",
"L NG",
"o r",
"h e",
"in g",
"li k",
"Ġ L",
"li se",
"Ġk õ",
"b a",
"it a",
"st e",
"Ġj u",
"Ġse da",
"Ġme ie",
"Ġa r",
"Ġs õ",
"Ġn a",
"Ġt o",
"Ġsu ur",
"e r",
"m is",
"ü ü",
"ä h",
"Ġs a",
"d i",
"Ġk es",
"Ġtu le",
"Ġn ing",
"Ġsi is",
"t s",
"Ġva stu",
"t se",
"u u",
"Ġo ma",
"Ġn ä",
"n da",
"Ġka s",
"Ġme il",
"u l",
"Ġa ga",
"ĠL i",
"õi g",
"h en",
"Ġp ro",
"Ġvä ga",
"n na",
"k e",
"r e",
"o l",
"Ġo lu",
"i se",
"tsi oo",
"e g",
"j u",
"Ġte ge",
"üü d",
"Ġkõ ik",
"a l",
"it e",
"ust a",
"Ġm in",
"k i",
"it äh",
"Ġa itäh",
"Ġn üüd",
"m ine",
"Ġt õ",
"Ġ la",
"mi st",
"Ġta ga",
"b i",
"Ġt öö",
"ust e",
"i m",
"U N",
"UN K",
"k se",
"ä ra",
"S P",
"SP K",
"us i",
"Ġm ida",
"e t",
"Ġpea me",
"Ġ P",
"li ku",
"o n",
"Ġü le",
"Ġm õ",
"id u",
"Ġn ii",
"Ġn e",
"Ġj är",
"Ġk ü",
"ri ik",
"n u",
"Ġse l",
"h t",
"r d",
"l ine",
"Ġsi in",
"n ik",
"u t",
"Ġ ?",
"Ġsõ na",
"Ġo sa",
"Ġko lle",
"Ġli ik",
"a sta",
"Ġva ja",
"Ġ 2",
"Ġa l",
"Ġa asta",
"use d",
"Ġn en",
"Ġ õig",
"k ra",
"e ma",
"u a",
"Ġp u",
"Ġin ime",
"Ġp õ",
"Ġvõi ma",
"Ġm it",
"se d",
"in a",
"ik a",
"r es",
"Ġkolle eg",
"a r",
"õi ge",
"Ġko n",
"i st",
"Ġo l",
"Ġnen de",
"Ġ 1",
"Ġr ää",
"Ġet te",
"ee d",
"o li",
"mis j",
"Ġ lu",
"Ġl ä",
"aa l",
"Ġvä l",
"Ġü h",
"e ta",
"Ġte a",
"Ġp oo",
"Ġpa l",
"id en",
"Ġjär g",
"Ġ S",
"ma s",
"Ġta ha",
"õ p",
"Ġliik me",
"Ġs oo",
"Ġl oo",
"Ġtä na",
"Ġk oo",
"Ġ K",
"Ġn eed",
"ri i",
"i ga",
"p or",
"m u",
"Ġole me",
"t te",
"Ġko h",
"ĠLi idu",
"en da",
"Ġselle ks",
"Ġp ra",
"t us",
"la me",
"Ġ f",
"Ġväl ja",
"i le",
"Ġ V",
"Ġm i",
"r v",
"Ġn ime",
"k t",
"Ġpa lu",
"res iden",
"Ġh ea",
"Ġh ää",
"oli it",
"v õ",
"Ġm uu",
"Ġ le",
"Ġ A",
"Ġko da",
"si m",
"liku lt",
"Ġe est",
"gi a",
"Ġj ä",
"va l",
"Ġsaa b",
"Ġk ä",
"Ġtule b",
"t le",
"Ġhää le",
"est i",
"Ġkoda nik",
"d us",
"Ġliikme s",
"Ġpalu n",
"Ġ u",
"Ġna d",
"Ġ de",
"Ġmit te",
"Ġtä nu",
"ta kse",
"Ġne id",
"v i",
"residen t",
"nd i",
"pa ne",
"Ġv ee",
"Ġn õ",
"Ġr o",
"tsioo n",
"Ġole ks",
"t use",
"h i"
]
}
}