et_ec_bpe500 / tokenizer.json

Upload tokenizer

13cca20 verified 11 months ago

17.6 kB

	{
	"version": "1.0",
	"truncation": null,
	"padding": null,
	"added_tokens": [
	{
	"id": 0,
	"content": "([bos])",
	"single_word": false,
	"lstrip": false,
	"rstrip": false,
	"normalized": false,
	"special": true
	},
	{
	"id": 1,
	"content": "([eos])",
	"single_word": false,
	"lstrip": false,
	"rstrip": false,
	"normalized": false,
	"special": true
	},
	{
	"id": 2,
	"content": "([unk])",
	"single_word": false,
	"lstrip": false,
	"rstrip": false,
	"normalized": false,
	"special": true
	},
	{
	"id": 3,
	"content": "([pad])",
	"single_word": false,
	"lstrip": false,
	"rstrip": false,
	"normalized": false,
	"special": true
	},
	{
	"id": 4,
	"content": "([mask])",
	"single_word": false,
	"lstrip": false,
	"rstrip": false,
	"normalized": false,
	"special": true
	},
	{
	"id": 497,
	"content": "(LNG)",
	"single_word": false,
	"lstrip": false,
	"rstrip": false,
	"normalized": true,
	"special": false
	},
	{
	"id": 498,
	"content": "(UNK)",
	"single_word": false,
	"lstrip": false,
	"rstrip": false,
	"normalized": true,
	"special": false
	},
	{
	"id": 499,
	"content": "(SPN)",
	"single_word": false,
	"lstrip": false,
	"rstrip": false,
	"normalized": true,
	"special": false
	}
	],
	"normalizer": null,
	"pre_tokenizer": {
	"type": "ByteLevel",
	"add_prefix_space": true,
	"trim_offsets": true,
	"use_regex": true
	},
	"post_processor": {
	"type": "TemplateProcessing",
	"single": [
	{
	"Sequence": {
	"id": "A",
	"type_id": 0
	}
	},
	{
	"SpecialToken": {
	"id": "([eos])",
	"type_id": 0
	}
	}
	],
	"pair": [
	{
	"Sequence": {
	"id": "A",
	"type_id": 0
	}
	},
	{
	"SpecialToken": {
	"id": "([eos])",
	"type_id": 0
	}
	},
	{
	"Sequence": {
	"id": "B",
	"type_id": 1
	}
	},
	{
	"SpecialToken": {
	"id": "([eos])",
	"type_id": 1
	}
	}
	],
	"special_tokens": {
	"([bos])": {
	"id": "([bos])",
	"ids": [
	0
	],
	"tokens": [
	"([bos])"
	]
	},
	"([eos])": {
	"id": "([eos])",
	"ids": [
	1
	],
	"tokens": [
	"([eos])"
	]
	}
	}
	},
	"decoder": {
	"type": "ByteLevel",
	"add_prefix_space": true,
	"trim_offsets": true,
	"use_regex": true
	},
	"model": {
	"type": "BPE",
	"dropout": null,
	"unk_token": "([unk])",
	"continuing_subword_prefix": null,
	"end_of_word_suffix": null,
	"fuse_unk": false,
	"byte_fallback": false,
	"vocab": {
	"([bos])": 0,
	"([eos])": 1,
	"([unk])": 2,
	"([pad])": 3,
	"([mask])": 4,
	"!": 5,
	"%": 6,
	"'": 7,
	"(": 8,
	")": 9,
	"*": 10,
	"+": 11,
	",": 12,
	"-": 13,
	".": 14,
	"/": 15,
	"0": 16,
	"1": 17,
	"2": 18,
	"3": 19,
	"4": 20,
	"5": 21,
	"6": 22,
	"7": 23,
	"8": 24,
	"9": 25,
	":": 26,
	";": 27,
	"?": 28,
	"A": 29,
	"B": 30,
	"C": 31,
	"D": 32,
	"E": 33,
	"F": 34,
	"G": 35,
	"H": 36,
	"I": 37,
	"J": 38,
	"K": 39,
	"L": 40,
	"M": 41,
	"N": 42,
	"O": 43,
	"P": 44,
	"Q": 45,
	"R": 46,
	"S": 47,
	"T": 48,
	"U": 49,
	"V": 50,
	"W": 51,
	"X": 52,
	"Y": 53,
	"Z": 54,
	"a": 55,
	"b": 56,
	"c": 57,
	"d": 58,
	"e": 59,
	"f": 60,
	"g": 61,
	"h": 62,
	"i": 63,
	"j": 64,
	"k": 65,
	"l": 66,
	"m": 67,
	"n": 68,
	"o": 69,
	"p": 70,
	"q": 71,
	"r": 72,
	"s": 73,
	"t": 74,
	"u": 75,
	"v": 76,
	"w": 77,
	"x": 78,
	"y": 79,
	"z": 80,
	"¡": 81,
	"¢": 82,
	"£": 83,
	"¤": 84,
	"¥": 85,
	"§": 86,
	"¨": 87,
	"©": 88,
	"ª": 89,
	"«": 90,
	"¬": 91,
	"®": 92,
	"¯": 93,
	"°": 94,
	"±": 95,
	"²": 96,
	"³": 97,
	"´": 98,
	"µ": 99,
	"¶": 100,
	"·": 101,
	"¸": 102,
	"º": 103,
	"¼": 104,
	"½": 105,
	"¾": 106,
	"Â": 107,
	"Ã": 108,
	"Ä": 109,
	"Å": 110,
	"È": 111,
	"â": 112,
	"Ġ": 113,
	"Ģ": 114,
	"ģ": 115,
	"Ĥ": 116,
	"ĥ": 117,
	"Ħ": 118,
	"ħ": 119,
	"ĩ": 120,
	"ī": 121,
	"Į": 122,
	"į": 123,
	"İ": 124,
	"Ĳ": 125,
	"ķ": 126,
	"ĸ": 127,
	"Ĺ": 128,
	"ĺ": 129,
	"Ļ": 130,
	"Ľ": 131,
	"ľ": 132,
	"Ł": 133,
	"ł": 134,
	"Ń": 135,
	"se": 136,
	"Ġk": 137,
	"Ġ,": 138,
	"st": 139,
	"Ġ.": 140,
	"le": 141,
	"Ã¤": 142,
	"Ġt": 143,
	"Ġm": 144,
	"Ġo": 145,
	"Ãµ": 146,
	"Ġe": 147,
	"id": 148,
	"in": 149,
	"Ġp": 150,
	"Ġv": 151,
	"ja": 152,
	"Ġs": 153,
	"da": 154,
	"li": 155,
	"Ġse": 156,
	"ma": 157,
	"me": 158,
	"Ġa": 159,
	"Ġn": 160,
	"oo": 161,
	"it": 162,
	"Ã¼": 163,
	"is": 164,
	"Ġon": 165,
	"ga": 166,
	"ud": 167,
	"Ġja": 168,
	"ra": 169,
	"ks": 170,
	"Ġme": 171,
	"us": 172,
	"te": 173,
	"va": 174,
	"ta": 175,
	"ik": 176,
	"Ġte": 177,
	"ur": 178,
	"Ġka": 179,
	"en": 180,
	"Ġet": 181,
	"Ġva": 182,
	"la": 183,
	"Ġko": 184,
	"si": 185,
	"lle": 186,
	"es": 187,
	"aa": 188,
	"ust": 189,
	"lt": 190,
	"na": 191,
	"Ãµi": 192,
	"mi": 193,
	"ri": 194,
	"use": 195,
	"Ġh": 196,
	"Ġj": 197,
	"pa": 198,
	"Ã¶": 199,
	"ge": 200,
	"gi": 201,
	"ne": 202,
	"Ġku": 203,
	"ee": 204,
	"Ġ(": 205,
	"lu": 206,
	"ea": 207,
	"il": 208,
	"Ġselle": 209,
	"Ġpa": 210,
	"ĠÃ¼": 211,
	"de": 212,
	"ĠE": 213,
	"gu": 214,
	"Ġole": 215,
	"Ġr": 216,
	"Ġsee": 217,
	"ĠvÃ¤": 218,
	"uroo": 219,
	"sta": 220,
	"nd": 221,
	"ine": 222,
	"ku": 223,
	"Ġta": 224,
	"uroopa": 225,
	"ti": 226,
	"Ġei": 227,
	"ĠEuroopa": 228,
	"Ã¤r": 229,
	"ida": 230,
	"ko": 231,
	"ha": 232,
	"Ġl": 233,
	"el": 234,
	"ii": 235,
	"Ġpea": 236,
	"Ġtu": 237,
	"ni": 238,
	"vad": 239,
	"tud": 240,
	"Ġsu": 241,
	"Ġsaa": 242,
	"ĠtÃ¤": 243,
	"est": 244,
	"Ġsi": 245,
	"Ġma": 246,
	"nud": 247,
	"Ã¤Ã¤": 248,
	"mise": 249,
	"sa": 250,
	"ie": 251,
	"ime": 252,
	"uta": 253,
	"ro": 254,
	"ide": 255,
	"ĠvÃµi": 256,
	"Ã¶Ã¶": 257,
	"tsi": 258,
	"Ġra": 259,
	"Ġin": 260,
	"Ġmis": 261,
	"Ġli": 262,
	"Ġkui": 263,
	"tu": 264,
	"ka": 265,
	"stu": 266,
	"ĠvÃµ": 267,
	"NG": 268,
	"LNG": 269,
	"or": 270,
	"he": 271,
	"ing": 272,
	"lik": 273,
	"ĠL": 274,
	"lise": 275,
	"ĠkÃµ": 276,
	"ba": 277,
	"ita": 278,
	"ste": 279,
	"Ġju": 280,
	"Ġseda": 281,
	"Ġmeie": 282,
	"Ġar": 283,
	"ĠsÃµ": 284,
	"Ġna": 285,
	"Ġto": 286,
	"Ġsuur": 287,
	"er": 288,
	"mis": 289,
	"Ã¼Ã¼": 290,
	"Ã¤h": 291,
	"Ġsa": 292,
	"di": 293,
	"Ġkes": 294,
	"Ġtule": 295,
	"Ġning": 296,
	"Ġsiis": 297,
	"ts": 298,
	"Ġvastu": 299,
	"tse": 300,
	"uu": 301,
	"Ġoma": 302,
	"ĠnÃ¤": 303,
	"nda": 304,
	"Ġkas": 305,
	"Ġmeil": 306,
	"ul": 307,
	"Ġaga": 308,
	"ĠLi": 309,
	"Ãµig": 310,
	"hen": 311,
	"Ġpro": 312,
	"ĠvÃ¤ga": 313,
	"nna": 314,
	"ke": 315,
	"re": 316,
	"ol": 317,
	"Ġolu": 318,
	"ise": 319,
	"tsioo": 320,
	"eg": 321,
	"ju": 322,
	"Ġtege": 323,
	"Ã¼Ã¼d": 324,
	"ĠkÃµik": 325,
	"al": 326,
	"ite": 327,
	"usta": 328,
	"Ġmin": 329,
	"ki": 330,
	"itÃ¤h": 331,
	"ĠaitÃ¤h": 332,
	"ĠnÃ¼Ã¼d": 333,
	"mine": 334,
	"ĠtÃµ": 335,
	"Ġla": 336,
	"mist": 337,
	"Ġtaga": 338,
	"bi": 339,
	"ĠtÃ¶Ã¶": 340,
	"uste": 341,
	"im": 342,
	"UN": 343,
	"UNK": 344,
	"kse": 345,
	"Ã¤ra": 346,
	"SP": 347,
	"SPK": 348,
	"usi": 349,
	"Ġmida": 350,
	"et": 351,
	"Ġpeame": 352,
	"ĠP": 353,
	"liku": 354,
	"on": 355,
	"ĠÃ¼le": 356,
	"ĠmÃµ": 357,
	"idu": 358,
	"Ġnii": 359,
	"Ġne": 360,
	"ĠjÃ¤r": 361,
	"ĠkÃ¼": 362,
	"riik": 363,
	"nu": 364,
	"Ġsel": 365,
	"ht": 366,
	"rd": 367,
	"line": 368,
	"Ġsiin": 369,
	"nik": 370,
	"ut": 371,
	"Ġ?": 372,
	"ĠsÃµna": 373,
	"Ġosa": 374,
	"Ġkolle": 375,
	"Ġliik": 376,
	"asta": 377,
	"Ġvaja": 378,
	"Ġ2": 379,
	"Ġal": 380,
	"Ġaasta": 381,
	"used": 382,
	"Ġnen": 383,
	"ĠÃµig": 384,
	"kra": 385,
	"ema": 386,
	"ua": 387,
	"Ġpu": 388,
	"Ġinime": 389,
	"ĠpÃµ": 390,
	"ĠvÃµima": 391,
	"Ġmit": 392,
	"sed": 393,
	"ina": 394,
	"ika": 395,
	"res": 396,
	"Ġkolleeg": 397,
	"ar": 398,
	"Ãµige": 399,
	"Ġkon": 400,
	"ist": 401,
	"Ġol": 402,
	"Ġnende": 403,
	"Ġ1": 404,
	"ĠrÃ¤Ã¤": 405,
	"Ġette": 406,
	"eed": 407,
	"oli": 408,
	"misj": 409,
	"Ġlu": 410,
	"ĠlÃ¤": 411,
	"aal": 412,
	"ĠvÃ¤l": 413,
	"ĠÃ¼h": 414,
	"eta": 415,
	"Ġtea": 416,
	"Ġpoo": 417,
	"Ġpal": 418,
	"iden": 419,
	"ĠjÃ¤rg": 420,
	"ĠS": 421,
	"mas": 422,
	"Ġtaha": 423,
	"Ãµp": 424,
	"Ġliikme": 425,
	"Ġsoo": 426,
	"Ġloo": 427,
	"ĠtÃ¤na": 428,
	"Ġkoo": 429,
	"ĠK": 430,
	"Ġneed": 431,
	"rii": 432,
	"iga": 433,
	"por": 434,
	"mu": 435,
	"Ġoleme": 436,
	"tte": 437,
	"Ġkoh": 438,
	"ĠLiidu": 439,
	"enda": 440,
	"Ġselleks": 441,
	"Ġpra": 442,
	"tus": 443,
	"lame": 444,
	"Ġf": 445,
	"ĠvÃ¤lja": 446,
	"ile": 447,
	"ĠV": 448,
	"Ġmi": 449,
	"rv": 450,
	"Ġnime": 451,
	"kt": 452,
	"Ġpalu": 453,
	"residen": 454,
	"Ġhea": 455,
	"ĠhÃ¤Ã¤": 456,
	"oliit": 457,
	"vÃµ": 458,
	"Ġmuu": 459,
	"Ġle": 460,
	"ĠA": 461,
	"Ġkoda": 462,
	"sim": 463,
	"likult": 464,
	"Ġeest": 465,
	"gia": 466,
	"ĠjÃ¤": 467,
	"val": 468,
	"Ġsaab": 469,
	"ĠkÃ¤": 470,
	"Ġtuleb": 471,
	"tle": 472,
	"ĠhÃ¤Ã¤le": 473,
	"esti": 474,
	"Ġkodanik": 475,
	"dus": 476,
	"Ġliikmes": 477,
	"Ġpalun": 478,
	"Ġu": 479,
	"Ġnad": 480,
	"Ġde": 481,
	"Ġmitte": 482,
	"ĠtÃ¤nu": 483,
	"takse": 484,
	"Ġneid": 485,
	"vi": 486,
	"resident": 487,
	"ndi": 488,
	"pane": 489,
	"Ġvee": 490,
	"ĠnÃµ": 491,
	"Ġro": 492,
	"tsioon": 493,
	"Ġoleks": 494,
	"tuse": 495,
	"hi": 496
	},
	"merges": [
	"s e",
	"Ġ k",
	"Ġ ,",
	"s t",
	"Ġ .",
	"l e",
	"Ã ¤",
	"Ġ t",
	"Ġ m",
	"Ġ o",
	"Ã µ",
	"Ġ e",
	"i d",
	"i n",
	"Ġ p",
	"Ġ v",
	"j a",
	"Ġ s",
	"d a",
	"l i",
	"Ġ se",
	"m a",
	"m e",
	"Ġ a",
	"Ġ n",
	"o o",
	"i t",
	"Ã ¼",
	"i s",
	"Ġo n",
	"g a",
	"u d",
	"Ġ ja",
	"r a",
	"k s",
	"Ġm e",
	"u s",
	"t e",
	"v a",
	"t a",
	"i k",
	"Ġt e",
	"u r",
	"Ġk a",
	"e n",
	"Ġe t",
	"Ġv a",
	"l a",
	"Ġk o",
	"s i",
	"l le",
	"e s",
	"a a",
	"u st",
	"l t",
	"n a",
	"Ãµ i",
	"m i",
	"r i",
	"u se",
	"Ġ h",
	"Ġ j",
	"p a",
	"Ã ¶",
	"g e",
	"g i",
	"n e",
	"Ġk u",
	"e e",
	"Ġ (",
	"l u",
	"e a",
	"i l",
	"Ġse lle",
	"Ġp a",
	"Ġ Ã¼",
	"d e",
	"Ġ E",
	"g u",
	"Ġo le",
	"Ġ r",
	"Ġse e",
	"Ġv Ã¤",
	"ur oo",
	"st a",
	"n d",
	"in e",
	"k u",
	"Ġt a",
	"uroo pa",
	"t i",
	"Ġe i",
	"ĠE uroopa",
	"Ã¤ r",
	"id a",
	"k o",
	"h a",
	"Ġ l",
	"e l",
	"i i",
	"Ġp ea",
	"Ġt u",
	"n i",
	"va d",
	"t ud",
	"Ġs u",
	"Ġs aa",
	"Ġt Ã¤",
	"e st",
	"Ġs i",
	"Ġm a",
	"n ud",
	"Ã¤ Ã¤",
	"mi se",
	"s a",
	"i e",
	"i me",
	"u ta",
	"r o",
	"id e",
	"Ġv Ãµi",
	"Ã¶ Ã¶",
	"t si",
	"Ġ ra",
	"Ġ in",
	"Ġm is",
	"Ġ li",
	"Ġku i",
	"t u",
	"k a",
	"st u",
	"Ġv Ãµ",
	"N G",
	"L NG",
	"o r",
	"h e",
	"in g",
	"li k",
	"Ġ L",
	"li se",
	"Ġk Ãµ",
	"b a",
	"it a",
	"st e",
	"Ġj u",
	"Ġse da",
	"Ġme ie",
	"Ġa r",
	"Ġs Ãµ",
	"Ġn a",
	"Ġt o",
	"Ġsu ur",
	"e r",
	"m is",
	"Ã¼ Ã¼",
	"Ã¤ h",
	"Ġs a",
	"d i",
	"Ġk es",
	"Ġtu le",
	"Ġn ing",
	"Ġsi is",
	"t s",
	"Ġva stu",
	"t se",
	"u u",
	"Ġo ma",
	"Ġn Ã¤",
	"n da",
	"Ġka s",
	"Ġme il",
	"u l",
	"Ġa ga",
	"ĠL i",
	"Ãµi g",
	"h en",
	"Ġp ro",
	"ĠvÃ¤ ga",
	"n na",
	"k e",
	"r e",
	"o l",
	"Ġo lu",
	"i se",
	"tsi oo",
	"e g",
	"j u",
	"Ġte ge",
	"Ã¼Ã¼ d",
	"ĠkÃµ ik",
	"a l",
	"it e",
	"ust a",
	"Ġm in",
	"k i",
	"it Ã¤h",
	"Ġa itÃ¤h",
	"Ġn Ã¼Ã¼d",
	"m ine",
	"Ġt Ãµ",
	"Ġ la",
	"mi st",
	"Ġta ga",
	"b i",
	"Ġt Ã¶Ã¶",
	"ust e",
	"i m",
	"U N",
	"UN K",
	"k se",
	"Ã¤ ra",
	"S P",
	"SP K",
	"us i",
	"Ġm ida",
	"e t",
	"Ġpea me",
	"Ġ P",
	"li ku",
	"o n",
	"ĠÃ¼ le",
	"Ġm Ãµ",
	"id u",
	"Ġn ii",
	"Ġn e",
	"Ġj Ã¤r",
	"Ġk Ã¼",
	"ri ik",
	"n u",
	"Ġse l",
	"h t",
	"r d",
	"l ine",
	"Ġsi in",
	"n ik",
	"u t",
	"Ġ ?",
	"ĠsÃµ na",
	"Ġo sa",
	"Ġko lle",
	"Ġli ik",
	"a sta",
	"Ġva ja",
	"Ġ 2",
	"Ġa l",
	"Ġa asta",
	"use d",
	"Ġn en",
	"Ġ Ãµig",
	"k ra",
	"e ma",
	"u a",
	"Ġp u",
	"Ġin ime",
	"Ġp Ãµ",
	"ĠvÃµi ma",
	"Ġm it",
	"se d",
	"in a",
	"ik a",
	"r es",
	"Ġkolle eg",
	"a r",
	"Ãµi ge",
	"Ġko n",
	"i st",
	"Ġo l",
	"Ġnen de",
	"Ġ 1",
	"Ġr Ã¤Ã¤",
	"Ġet te",
	"ee d",
	"o li",
	"mis j",
	"Ġ lu",
	"Ġl Ã¤",
	"aa l",
	"ĠvÃ¤ l",
	"ĠÃ¼ h",
	"e ta",
	"Ġte a",
	"Ġp oo",
	"Ġpa l",
	"id en",
	"ĠjÃ¤r g",
	"Ġ S",
	"ma s",
	"Ġta ha",
	"Ãµ p",
	"Ġliik me",
	"Ġs oo",
	"Ġl oo",
	"ĠtÃ¤ na",
	"Ġk oo",
	"Ġ K",
	"Ġn eed",
	"ri i",
	"i ga",
	"p or",
	"m u",
	"Ġole me",
	"t te",
	"Ġko h",
	"ĠLi idu",
	"en da",
	"Ġselle ks",
	"Ġp ra",
	"t us",
	"la me",
	"Ġ f",
	"ĠvÃ¤l ja",
	"i le",
	"Ġ V",
	"Ġm i",
	"r v",
	"Ġn ime",
	"k t",
	"Ġpa lu",
	"res iden",
	"Ġh ea",
	"Ġh Ã¤Ã¤",
	"oli it",
	"v Ãµ",
	"Ġm uu",
	"Ġ le",
	"Ġ A",
	"Ġko da",
	"si m",
	"liku lt",
	"Ġe est",
	"gi a",
	"Ġj Ã¤",
	"va l",
	"Ġsaa b",
	"Ġk Ã¤",
	"Ġtule b",
	"t le",
	"ĠhÃ¤Ã¤ le",
	"est i",
	"Ġkoda nik",
	"d us",
	"Ġliikme s",
	"Ġpalu n",
	"Ġ u",
	"Ġna d",
	"Ġ de",
	"Ġmit te",
	"ĠtÃ¤ nu",
	"ta kse",
	"Ġne id",
	"v i",
	"residen t",
	"nd i",
	"pa ne",
	"Ġv ee",
	"Ġn Ãµ",
	"Ġr o",
	"tsioo n",
	"Ġole ks",
	"t use",
	"h i"
	]
	}
	}