epo_lstm / version_1 /tokenizer.json
timcryt's picture
Moved files
7ddcc0c
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "[UNK]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 1,
"content": "[PAD]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 2,
"content": ">",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 3,
"content": "\n",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 4,
"content": "[BOS]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": null,
"pre_tokenizer": {
"type": "Sequence",
"pretokenizers": [
{
"type": "Split",
"pattern": {
"Regex": "(>|\\n)"
},
"behavior": "Isolated",
"invert": false
},
{
"type": "Split",
"pattern": {
"Regex": "(.)"
},
"behavior": "Contiguous",
"invert": false
}
]
},
"post_processor": null,
"decoder": null,
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "[UNK]",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"ignore_merges": false,
"vocab": {
"[UNK]": 0,
"[PAD]": 1,
">": 2,
"\n": 3,
"[BOS]": 4,
" ": 5,
"!": 6,
"\"": 7,
",": 8,
"-": 9,
".": 10,
"0": 11,
"1": 12,
"2": 13,
"3": 14,
"4": 15,
"5": 16,
"6": 17,
"7": 18,
"8": 19,
"9": 20,
":": 21,
"?": 22,
"a": 23,
"b": 24,
"c": 25,
"d": 26,
"e": 27,
"f": 28,
"g": 29,
"h": 30,
"i": 31,
"j": 32,
"k": 33,
"l": 34,
"m": 35,
"n": 36,
"o": 37,
"p": 38,
"q": 39,
"r": 40,
"s": 41,
"t": 42,
"u": 43,
"v": 44,
"w": 45,
"x": 46,
"y": 47,
"z": 48,
"ĉ": 49,
"ĝ": 50,
"ĥ": 51,
"ĵ": 52,
"ŝ": 53,
"ŭ": 54,
"а": 55,
"б": 56,
"в": 57,
"г": 58,
"д": 59,
"е": 60,
"ж": 61,
"з": 62,
"и": 63,
"к": 64,
"л": 65,
"м": 66,
"н": 67,
"о": 68,
"п": 69,
"р": 70,
"с": 71,
"т": 72,
"у": 73,
"ф": 74,
"х": 75,
"ц": 76,
"ч": 77,
"ш": 78,
"щ": 79,
"ъ": 80,
"ы": 81,
"ь": 82,
"э": 83,
"ю": 84,
"я": 85,
"і": 86,
"ў": 87,
"s ": 88,
"i ": 89,
"e ": 90,
"a ": 91,
"as ": 92,
"o ": 93,
"n ": 94,
"st": 95,
"j ": 96,
"on": 97,
", ": 98,
"an": 99,
"er": 100,
"est": 101,
"al": 102,
"ti": 103,
"en": 104,
"la ": 105,
"aj ": 106,
"or": 107,
"u ": 108,
"in": 109,
"estas ": 110,
"mi ": 111,
"ar": 112,
"ki": 113,
"pr": 114,
"ne ": 115,
"oj": 116,
". ": 117,
"el": 118,
"aŭ": 119,
"is ": 120,
"am": 121,
"oj ": 122,
"es": 123,
"om": 124,
"on ": 125,
"kaj ": 126,
"de ": 127,
"ek": 128,
"vi": 129,
"ol": 130,
"as": 131,
"en ": 132,
"il": 133,
"at": 134,
"vi ": 135,
"ed": 136,
"pl": 137,
"aŭ ": 138,
"ul": 139,
"em": 140,
"ci": 141,
"tr": 142,
"di": 143,
"aj": 144,
"mal": 145,
"per": 146,
"po": 147,
"o, ": 148,
"ant": 149,
"ke ": 150,
"al ": 151,
"ur": 152,
"an ": 153,
"si": 154,
"vas ": 155,
"un": 156,
"el ": 157,
"sed": 158,
"por": 159,
"sed ": 160,
"bl": 161,
"mi": 162,
"ĉu ": 163,
"kon": 164,
"ri": 165,
"o estas ": 166,
"o de ": 167,
"ru": 168,
"de": 169,
"por ": 170,
"ig": 171,
"is": 172,
"ad": 173,
"pri ": 174,
"it": 175,
"re": 176,
"un ": 177,
"ha": 178,
"am ": 179,
"ĝi ": 180,
"ĉi": 181,
"par": 182,
"ak": 183,
"ok": 184,
"ne": 185,
"..": 186,
"ra": 187,
"ank": 188,
"ver": 189,
"su": 190,
"bon": 191,
"us ": 192,
"esper": 193,
"te ": 194,
"kom": 195,
"ojn ": 196,
"ist": 197,
"and": 198,
"os ": 199,
"kiel ": 200,
"ter": 201,
"li ": 202,
"oni ": 203,
"o. ": 204,
"ent": 205,
"eg": 206,
"ag": 207,
"ajn ": 208,
"pro": 209,
"o.": 210,
"pli ": 211,
"ojn": 212,
"\" ": 213,
"uj ": 214,
"mi ne ": 215,
"ebl": 216,
"for": 217,
"ur ": 218,
"e, ": 219,
"se ": 220,
"li": 221,
"hom": 222,
"ali": 223,
"ing": 224,
"et": 225,
"? ": 226,
"uz": 227,
"vol": 228,
"ik": 229,
"tio ": 230,
"esperant": 231,
"pen": 232,
"ult": 233,
"um": 234,
"sci": 235,
"ili ": 236,
"nur ": 237,
"povas ": 238,
"ec": 239,
"ov": 240,
"as, ": 241,
"ab": 242,
"eni": 243,
"do ": 244,
"estis ": 245,
"dir": 246,
"ni ": 247,
"havas ": 248,
"oj, ": 249,
"ĉi ": 250,
"ar ": 251,
"az": 252,
": ": 253,
"kiu ": 254,
"far": 255,
"sen": 256,
"ej": 257,
"iĝ": 258,
"en la ": 259,
"lo": 260,
"as ke ": 261,
"on, ": 262,
"ez": 263,
"ort": 264,
"parol": 265,
"ut": 266,
"da ": 267,
"tiu ": 268,
"inter": 269,
"pren": 270,
"o kaj ": 271,
"neni": 272,
"kun ": 273,
"ling": 274,
"aĵ": 275,
"in ": 276,
"ac": 277,
"fi": 278,
"sk": 279,
"o?": 280,
"ĉar ": 281,
"mon": 282,
"fer": 283,
"ne estas ": 284,
"ekz": 285,
"uj": 286,
"aĝ": 287,
"ĉu vi ": 288,
"ro": 289,
"uk": 290,
"son": 291,
"lingv": 292,
"tem": 293,
"gr": 294,
"ankaŭ ": 295,
"a, ": 296,
"pens": 297,
"ekt": 298,
"ven": 299,
"jes": 300,
"sam": 301,
"ĉ ": 302,
"ot": 303,
"ni": 304,
"pon": 305,
"dr": 306,
"kr": 307,
"eĉ ": 308,
"mia ": 309,
"im": 310,
"mem": 311,
"rus": 312,
"eble ": 313,
"sek": 314,
"ati": 315,
"ang": 316,
"of": 317,
"vid": 318,
"ap": 319,
"io ": 320,
"ism": 321,
"don": 322,
"vir": 323,
"ta ": 324,
"kompren": 325,
"om ": 326,
"sim": 327,
"vort": 328,
"- ": 329,
"man": 330,
"mult": 331,
"as la ": 332,
"ir": 333,
"aci": 334,
"as pri ": 335,
"mdr": 336,
"on de ": 337,
"esti ": 338,
"sp": 339,
"enc": 340,
"nom": 341,
"mes": 342,
"pro ": 343,
"kial ": 344,
"...": 345,
"ol ": 346,
"fr": 347,
"post": 348,
"min": 349,
"gru": 350,
"ler": 351,
"kri": 352,
"uti": 353,
"kontr": 354,
"os": 355,
"per ": 356,
"kiam ": 357,
"ple": 358,
"la": 359,
"tu": 360,
"du": 361,
"res": 362,
"ajn": 363,
"jes, ": 364,
"tre ": 365,
"tio estas ": 366,
"oj de ": 367,
"land": 368,
"o de la ": 369,
"ud": 370,
"oj. ": 371,
"kiuj ": 372,
"es ": 373,
"fin": 374,
"ŝat": 375,
"men": 376,
"! ": 377,
"vus ": 378,
"th": 379,
"to ": 380,
"oj estas ": 381,
"volas ": 382,
"cer": 383,
"gra": 384,
"ob": 385,
"plej ": 386,
"jam ": 387,
"ĉiuj ": 388,
"str": 389,
"u, ": 390,
"lib": 391,
"ĝi estas ": 392,
"ekzist": 393,
"via ": 394,
"ĉi ti": 395,
"unu ": 396,
"nov": 397,
"ia ": 398,
"so": 399,
"kion ": 400,
"jar": 401,
"on. ": 402,
"ja ": 403,
"o \"": 404,
"e. ": 405,
"anti": 406,
"kl": 407,
"okaz": 408,
"ser": 409,
"homoj ": 410,
"laŭ ": 411,
"o ne ": 412,
"mil": 413,
"dem": 414,
"pan": 415,
"ce": 416,
"as ti": 417,
"nun ": 418,
"pol": 419,
"oj.": 420,
"on.": 421,
"i la ": 422,
"y ": 423,
"0 ": 424,
"sig": 425,
"tis ": 426,
"iu ": 427,
"sub": 428,
"viv": 429,
"ita ": 430,
"devas ": 431,
"op": 432,
"afer": 433,
"ĝis ": 434,
"o por ": 435,
"mor": 436,
"ust": 437,
"mi estas ": 438,
"reg": 439,
"... ": 440,
"pre": 441,
"mesaĝ": 442,
"fil": 443,
"ek ": 444,
"ĝin ": 445,
"rusi": 446,
"ŝi ": 447,
"as. ": 448,
"oj kaj ": 449,
"to": 450,
"as al ": 451,
"dum": 452,
"kv": 453,
"ojn, ": 454,
"leg": 455,
"kio ": 456,
"ĝin": 457,
"unu": 458,
"vo": 459,
"a. ": 460,
"kel": 461,
"mi pens": 462,
"grup": 463,
"ata ": 464,
"ĉe ": 465,
"tel": 466,
"ne, ": 467,
"ini": 468,
"a.": 469,
"estus ": 470,
"vis ": 471,
"ukra": 472,
"fak": 473,
"uson": 474,
"end": 475,
"la k": 476,
"tam": 477,
"mar": 478,
"as.": 479,
"us": 480,
"ple ": 481,
"tig": 482,
"o en ": 483,
"tik": 484,
"id": 485,
"virin": 486,
"mo": 487,
"bot": 488,
"on kaj ": 489,
"anc": 490,
"av": 491,
"ces": 492,
"mul": 493,
"signi": 494,
"dum ": 495,
"fl": 496,
"signif": 497,
"br": 498,
"vere ": 499,
"io": 500,
"a k": 501,
"tion ": 502,
"temp": 503,
"ef": 504,
"as, ke ": 505,
"multaj ": 506,
"cel": 507,
"is ke ": 508,
"e.": 509,
"tro ": 510,
"iz": 511
},
"merges": [
[
"s",
" "
],
[
"i",
" "
],
[
"e",
" "
],
[
"a",
" "
],
[
"a",
"s "
],
[
"o",
" "
],
[
"n",
" "
],
[
"s",
"t"
],
[
"j",
" "
],
[
"o",
"n"
],
[
",",
" "
],
[
"a",
"n"
],
[
"e",
"r"
],
[
"e",
"st"
],
[
"a",
"l"
],
[
"t",
"i"
],
[
"e",
"n"
],
[
"l",
"a "
],
[
"a",
"j "
],
[
"o",
"r"
],
[
"u",
" "
],
[
"i",
"n"
],
[
"est",
"as "
],
[
"m",
"i "
],
[
"a",
"r"
],
[
"k",
"i"
],
[
"p",
"r"
],
[
"n",
"e "
],
[
"o",
"j"
],
[
".",
" "
],
[
"e",
"l"
],
[
"a",
"ŭ"
],
[
"i",
"s "
],
[
"a",
"m"
],
[
"o",
"j "
],
[
"e",
"s"
],
[
"o",
"m"
],
[
"o",
"n "
],
[
"k",
"aj "
],
[
"d",
"e "
],
[
"e",
"k"
],
[
"v",
"i"
],
[
"o",
"l"
],
[
"a",
"s"
],
[
"e",
"n "
],
[
"i",
"l"
],
[
"a",
"t"
],
[
"v",
"i "
],
[
"e",
"d"
],
[
"p",
"l"
],
[
"aŭ",
" "
],
[
"u",
"l"
],
[
"e",
"m"
],
[
"c",
"i"
],
[
"t",
"r"
],
[
"d",
"i"
],
[
"a",
"j"
],
[
"m",
"al"
],
[
"p",
"er"
],
[
"p",
"o"
],
[
"o",
", "
],
[
"an",
"t"
],
[
"k",
"e "
],
[
"al",
" "
],
[
"u",
"r"
],
[
"a",
"n "
],
[
"s",
"i"
],
[
"v",
"as "
],
[
"u",
"n"
],
[
"el",
" "
],
[
"s",
"ed"
],
[
"p",
"or"
],
[
"sed",
" "
],
[
"b",
"l"
],
[
"m",
"i"
],
[
"ĉ",
"u "
],
[
"k",
"on"
],
[
"r",
"i"
],
[
"o ",
"estas "
],
[
"o ",
"de "
],
[
"r",
"u"
],
[
"d",
"e"
],
[
"por",
" "
],
[
"i",
"g"
],
[
"i",
"s"
],
[
"a",
"d"
],
[
"pr",
"i "
],
[
"i",
"t"
],
[
"r",
"e"
],
[
"u",
"n "
],
[
"h",
"a"
],
[
"am",
" "
],
[
"ĝ",
"i "
],
[
"ĉ",
"i"
],
[
"p",
"ar"
],
[
"a",
"k"
],
[
"o",
"k"
],
[
"n",
"e"
],
[
".",
"."
],
[
"r",
"a"
],
[
"an",
"k"
],
[
"v",
"er"
],
[
"s",
"u"
],
[
"b",
"on"
],
[
"u",
"s "
],
[
"es",
"per"
],
[
"t",
"e "
],
[
"k",
"om"
],
[
"oj",
"n "
],
[
"i",
"st"
],
[
"an",
"d"
],
[
"o",
"s "
],
[
"ki",
"el "
],
[
"t",
"er"
],
[
"l",
"i "
],
[
"on",
"i "
],
[
"o",
". "
],
[
"en",
"t"
],
[
"e",
"g"
],
[
"a",
"g"
],
[
"aj",
"n "
],
[
"pr",
"o"
],
[
"o",
"."
],
[
"pl",
"i "
],
[
"oj",
"n"
],
[
"\"",
" "
],
[
"u",
"j "
],
[
"mi ",
"ne "
],
[
"e",
"bl"
],
[
"f",
"or"
],
[
"ur",
" "
],
[
"e",
", "
],
[
"s",
"e "
],
[
"l",
"i"
],
[
"h",
"om"
],
[
"al",
"i"
],
[
"in",
"g"
],
[
"e",
"t"
],
[
"?",
" "
],
[
"u",
"z"
],
[
"v",
"ol"
],
[
"i",
"k"
],
[
"ti",
"o "
],
[
"esper",
"ant"
],
[
"p",
"en"
],
[
"ul",
"t"
],
[
"u",
"m"
],
[
"s",
"ci"
],
[
"il",
"i "
],
[
"n",
"ur "
],
[
"po",
"vas "
],
[
"e",
"c"
],
[
"o",
"v"
],
[
"as",
", "
],
[
"a",
"b"
],
[
"en",
"i"
],
[
"d",
"o "
],
[
"est",
"is "
],
[
"di",
"r"
],
[
"n",
"i "
],
[
"ha",
"vas "
],
[
"oj",
", "
],
[
"ĉ",
"i "
],
[
"ar",
" "
],
[
"a",
"z"
],
[
":",
" "
],
[
"ki",
"u "
],
[
"f",
"ar"
],
[
"s",
"en"
],
[
"e",
"j"
],
[
"i",
"ĝ"
],
[
"en ",
"la "
],
[
"l",
"o"
],
[
"as ",
"ke "
],
[
"on",
", "
],
[
"e",
"z"
],
[
"or",
"t"
],
[
"par",
"ol"
],
[
"u",
"t"
],
[
"d",
"a "
],
[
"ti",
"u "
],
[
"in",
"ter"
],
[
"pr",
"en"
],
[
"o ",
"kaj "
],
[
"n",
"eni"
],
[
"k",
"un "
],
[
"l",
"ing"
],
[
"a",
"ĵ"
],
[
"i",
"n "
],
[
"a",
"c"
],
[
"f",
"i"
],
[
"s",
"k"
],
[
"o",
"?"
],
[
"ĉ",
"ar "
],
[
"m",
"on"
],
[
"f",
"er"
],
[
"ne ",
"estas "
],
[
"ek",
"z"
],
[
"u",
"j"
],
[
"a",
"ĝ"
],
[
"ĉu ",
"vi "
],
[
"r",
"o"
],
[
"u",
"k"
],
[
"s",
"on"
],
[
"ling",
"v"
],
[
"t",
"em"
],
[
"g",
"r"
],
[
"ank",
"aŭ "
],
[
"a",
", "
],
[
"pen",
"s"
],
[
"ek",
"t"
],
[
"v",
"en"
],
[
"j",
"es"
],
[
"s",
"am"
],
[
"ĉ",
" "
],
[
"o",
"t"
],
[
"n",
"i"
],
[
"p",
"on"
],
[
"d",
"r"
],
[
"k",
"r"
],
[
"e",
"ĉ "
],
[
"mi",
"a "
],
[
"i",
"m"
],
[
"m",
"em"
],
[
"ru",
"s"
],
[
"ebl",
"e "
],
[
"s",
"ek"
],
[
"a",
"ti"
],
[
"an",
"g"
],
[
"o",
"f"
],
[
"vi",
"d"
],
[
"a",
"p"
],
[
"i",
"o "
],
[
"is",
"m"
],
[
"d",
"on"
],
[
"vi",
"r"
],
[
"t",
"a "
],
[
"kom",
"pren"
],
[
"om",
" "
],
[
"si",
"m"
],
[
"v",
"ort"
],
[
"-",
" "
],
[
"m",
"an"
],
[
"m",
"ult"
],
[
"as ",
"la "
],
[
"i",
"r"
],
[
"a",
"ci"
],
[
"as ",
"pri "
],
[
"m",
"dr"
],
[
"on ",
"de "
],
[
"est",
"i "
],
[
"s",
"p"
],
[
"en",
"c"
],
[
"n",
"om"
],
[
"m",
"es"
],
[
"pr",
"o "
],
[
"ki",
"al "
],
[
"..",
"."
],
[
"ol",
" "
],
[
"f",
"r"
],
[
"po",
"st"
],
[
"m",
"in"
],
[
"g",
"ru"
],
[
"l",
"er"
],
[
"k",
"ri"
],
[
"u",
"ti"
],
[
"kon",
"tr"
],
[
"o",
"s"
],
[
"per",
" "
],
[
"ki",
"am "
],
[
"pl",
"e"
],
[
"l",
"a"
],
[
"t",
"u"
],
[
"d",
"u"
],
[
"r",
"es"
],
[
"aj",
"n"
],
[
"jes",
", "
],
[
"tr",
"e "
],
[
"ti",
"o estas "
],
[
"oj ",
"de "
],
[
"l",
"and"
],
[
"o de ",
"la "
],
[
"u",
"d"
],
[
"oj",
". "
],
[
"ki",
"uj "
],
[
"e",
"s "
],
[
"f",
"in"
],
[
"ŝ",
"at"
],
[
"m",
"en"
],
[
"!",
" "
],
[
"v",
"us "
],
[
"t",
"h"
],
[
"t",
"o "
],
[
"oj ",
"estas "
],
[
"vol",
"as "
],
[
"c",
"er"
],
[
"g",
"ra"
],
[
"o",
"b"
],
[
"ple",
"j "
],
[
"j",
"am "
],
[
"ĉi",
"uj "
],
[
"st",
"r"
],
[
"u",
", "
],
[
"li",
"b"
],
[
"ĝi ",
"estas "
],
[
"ekz",
"ist"
],
[
"vi",
"a "
],
[
"ĉi ",
"ti"
],
[
"un",
"u "
],
[
"n",
"ov"
],
[
"i",
"a "
],
[
"s",
"o"
],
[
"ki",
"on "
],
[
"j",
"ar"
],
[
"on",
". "
],
[
"j",
"a "
],
[
"o ",
"\""
],
[
"e",
". "
],
[
"an",
"ti"
],
[
"k",
"l"
],
[
"ok",
"az"
],
[
"s",
"er"
],
[
"hom",
"oj "
],
[
"l",
"aŭ "
],
[
"o ",
"ne "
],
[
"m",
"il"
],
[
"d",
"em"
],
[
"p",
"an"
],
[
"c",
"e"
],
[
"as ",
"ti"
],
[
"n",
"un "
],
[
"p",
"ol"
],
[
"oj",
"."
],
[
"on",
"."
],
[
"i ",
"la "
],
[
"y",
" "
],
[
"0",
" "
],
[
"si",
"g"
],
[
"ti",
"s "
],
[
"i",
"u "
],
[
"su",
"b"
],
[
"vi",
"v"
],
[
"it",
"a "
],
[
"de",
"vas "
],
[
"o",
"p"
],
[
"a",
"fer"
],
[
"ĝ",
"is "
],
[
"o ",
"por "
],
[
"m",
"or"
],
[
"u",
"st"
],
[
"mi ",
"estas "
],
[
"re",
"g"
],
[
"..",
". "
],
[
"pr",
"e"
],
[
"mes",
"aĝ"
],
[
"f",
"il"
],
[
"ek",
" "
],
[
"ĝ",
"in "
],
[
"ru",
"si"
],
[
"ŝ",
"i "
],
[
"as",
". "
],
[
"oj ",
"kaj "
],
[
"t",
"o"
],
[
"as ",
"al "
],
[
"d",
"um"
],
[
"k",
"v"
],
[
"ojn",
", "
],
[
"l",
"eg"
],
[
"ki",
"o "
],
[
"ĝ",
"in"
],
[
"un",
"u"
],
[
"v",
"o"
],
[
"a",
". "
],
[
"k",
"el"
],
[
"mi ",
"pens"
],
[
"gru",
"p"
],
[
"at",
"a "
],
[
"ĉ",
"e "
],
[
"t",
"el"
],
[
"ne",
", "
],
[
"in",
"i"
],
[
"a",
"."
],
[
"est",
"us "
],
[
"v",
"is "
],
[
"uk",
"ra"
],
[
"f",
"ak"
],
[
"u",
"son"
],
[
"en",
"d"
],
[
"la ",
"k"
],
[
"t",
"am"
],
[
"m",
"ar"
],
[
"as",
"."
],
[
"u",
"s"
],
[
"pl",
"e "
],
[
"ti",
"g"
],
[
"o ",
"en "
],
[
"ti",
"k"
],
[
"i",
"d"
],
[
"vir",
"in"
],
[
"m",
"o"
],
[
"b",
"ot"
],
[
"on ",
"kaj "
],
[
"an",
"c"
],
[
"a",
"v"
],
[
"c",
"es"
],
[
"m",
"ul"
],
[
"sig",
"ni"
],
[
"dum",
" "
],
[
"f",
"l"
],
[
"signi",
"f"
],
[
"b",
"r"
],
[
"ver",
"e "
],
[
"i",
"o"
],
[
"a ",
"k"
],
[
"ti",
"on "
],
[
"tem",
"p"
],
[
"e",
"f"
],
[
"as, ",
"ke "
],
[
"mult",
"aj "
],
[
"c",
"el"
],
[
"is ",
"ke "
],
[
"e",
"."
],
[
"tr",
"o "
],
[
"i",
"z"
]
]
}
}