{ "version": "1.0", "truncation": null, "padding": null, "added_tokens": [ { "id": 0, "content": "[UNK]", "single_word": false, "lstrip": false, "rstrip": false, "normalized": false, "special": true }, { "id": 1, "content": "[PAD]", "single_word": false, "lstrip": false, "rstrip": false, "normalized": false, "special": true }, { "id": 2, "content": ">", "single_word": false, "lstrip": false, "rstrip": false, "normalized": false, "special": true }, { "id": 3, "content": "\n", "single_word": false, "lstrip": false, "rstrip": false, "normalized": false, "special": true }, { "id": 4, "content": "[BOS]", "single_word": false, "lstrip": false, "rstrip": false, "normalized": false, "special": true } ], "normalizer": null, "pre_tokenizer": { "type": "Sequence", "pretokenizers": [ { "type": "Split", "pattern": { "Regex": "(>|\\n)" }, "behavior": "Isolated", "invert": false }, { "type": "Split", "pattern": { "Regex": "(.)" }, "behavior": "Contiguous", "invert": false } ] }, "post_processor": null, "decoder": null, "model": { "type": "BPE", "dropout": null, "unk_token": "[UNK]", "continuing_subword_prefix": null, "end_of_word_suffix": null, "fuse_unk": false, "byte_fallback": false, "ignore_merges": false, "vocab": { "[UNK]": 0, "[PAD]": 1, ">": 2, "\n": 3, "[BOS]": 4, " ": 5, "!": 6, "\"": 7, ",": 8, "-": 9, ".": 10, "0": 11, "1": 12, "2": 13, "3": 14, "4": 15, "5": 16, "6": 17, "7": 18, "8": 19, "9": 20, ":": 21, "?": 22, "a": 23, "b": 24, "c": 25, "d": 26, "e": 27, "f": 28, "g": 29, "h": 30, "i": 31, "j": 32, "k": 33, "l": 34, "m": 35, "n": 36, "o": 37, "p": 38, "q": 39, "r": 40, "s": 41, "t": 42, "u": 43, "v": 44, "w": 45, "x": 46, "y": 47, "z": 48, "ĉ": 49, "ĝ": 50, "ĥ": 51, "ĵ": 52, "ŝ": 53, "ŭ": 54, "а": 55, "б": 56, "в": 57, "г": 58, "д": 59, "е": 60, "ж": 61, "з": 62, "и": 63, "к": 64, "л": 65, "м": 66, "н": 67, "о": 68, "п": 69, "р": 70, "с": 71, "т": 72, "у": 73, "ф": 74, "х": 75, "ц": 76, "ч": 77, "ш": 78, "щ": 79, "ъ": 80, "ы": 81, "ь": 82, "э": 83, "ю": 84, "я": 85, "і": 86, "ў": 87, "s ": 88, "i ": 89, "e ": 90, "a ": 91, "as ": 92, "o ": 93, "n ": 94, "st": 95, "j ": 96, "on": 97, ", ": 98, "an": 99, "er": 100, "est": 101, "al": 102, "ti": 103, "en": 104, "la ": 105, "aj ": 106, "or": 107, "u ": 108, "in": 109, "estas ": 110, "mi ": 111, "ar": 112, "ki": 113, "pr": 114, "ne ": 115, "oj": 116, ". ": 117, "el": 118, "aŭ": 119, "is ": 120, "am": 121, "oj ": 122, "es": 123, "om": 124, "on ": 125, "kaj ": 126, "de ": 127, "ek": 128, "vi": 129, "ol": 130, "as": 131, "en ": 132, "il": 133, "at": 134, "vi ": 135, "ed": 136, "pl": 137, "aŭ ": 138, "ul": 139, "em": 140, "ci": 141, "tr": 142, "di": 143, "aj": 144, "mal": 145, "per": 146, "po": 147, "o, ": 148, "ant": 149, "ke ": 150, "al ": 151, "ur": 152, "an ": 153, "si": 154, "vas ": 155, "un": 156, "el ": 157, "sed": 158, "por": 159, "sed ": 160, "bl": 161, "mi": 162, "ĉu ": 163, "kon": 164, "ri": 165, "o estas ": 166, "o de ": 167, "ru": 168, "de": 169, "por ": 170, "ig": 171, "is": 172, "ad": 173, "pri ": 174, "it": 175, "re": 176, "un ": 177, "ha": 178, "am ": 179, "ĝi ": 180, "ĉi": 181, "par": 182, "ak": 183, "ok": 184, "ne": 185, "..": 186, "ra": 187, "ank": 188, "ver": 189, "su": 190, "bon": 191, "us ": 192, "esper": 193, "te ": 194, "kom": 195, "ojn ": 196, "ist": 197, "and": 198, "os ": 199, "kiel ": 200, "ter": 201, "li ": 202, "oni ": 203, "o. ": 204, "ent": 205, "eg": 206, "ag": 207, "ajn ": 208, "pro": 209, "o.": 210, "pli ": 211, "ojn": 212, "\" ": 213, "uj ": 214, "mi ne ": 215, "ebl": 216, "for": 217, "ur ": 218, "e, ": 219, "se ": 220, "li": 221, "hom": 222, "ali": 223, "ing": 224, "et": 225, "? ": 226, "uz": 227, "vol": 228, "ik": 229, "tio ": 230, "esperant": 231, "pen": 232, "ult": 233, "um": 234, "sci": 235, "ili ": 236, "nur ": 237, "povas ": 238, "ec": 239, "ov": 240, "as, ": 241, "ab": 242, "eni": 243, "do ": 244, "estis ": 245, "dir": 246, "ni ": 247, "havas ": 248, "oj, ": 249, "ĉi ": 250, "ar ": 251, "az": 252, ": ": 253, "kiu ": 254, "far": 255, "sen": 256, "ej": 257, "iĝ": 258, "en la ": 259, "lo": 260, "as ke ": 261, "on, ": 262, "ez": 263, "ort": 264, "parol": 265, "ut": 266, "da ": 267, "tiu ": 268, "inter": 269, "pren": 270, "o kaj ": 271, "neni": 272, "kun ": 273, "ling": 274, "aĵ": 275, "in ": 276, "ac": 277, "fi": 278, "sk": 279, "o?": 280, "ĉar ": 281, "mon": 282, "fer": 283, "ne estas ": 284, "ekz": 285, "uj": 286, "aĝ": 287, "ĉu vi ": 288, "ro": 289, "uk": 290, "son": 291, "lingv": 292, "tem": 293, "gr": 294, "ankaŭ ": 295, "a, ": 296, "pens": 297, "ekt": 298, "ven": 299, "jes": 300, "sam": 301, "ĉ ": 302, "ot": 303, "ni": 304, "pon": 305, "dr": 306, "kr": 307, "eĉ ": 308, "mia ": 309, "im": 310, "mem": 311, "rus": 312, "eble ": 313, "sek": 314, "ati": 315, "ang": 316, "of": 317, "vid": 318, "ap": 319, "io ": 320, "ism": 321, "don": 322, "vir": 323, "ta ": 324, "kompren": 325, "om ": 326, "sim": 327, "vort": 328, "- ": 329, "man": 330, "mult": 331, "as la ": 332, "ir": 333, "aci": 334, "as pri ": 335, "mdr": 336, "on de ": 337, "esti ": 338, "sp": 339, "enc": 340, "nom": 341, "mes": 342, "pro ": 343, "kial ": 344, "...": 345, "ol ": 346, "fr": 347, "post": 348, "min": 349, "gru": 350, "ler": 351, "kri": 352, "uti": 353, "kontr": 354, "os": 355, "per ": 356, "kiam ": 357, "ple": 358, "la": 359, "tu": 360, "du": 361, "res": 362, "ajn": 363, "jes, ": 364, "tre ": 365, "tio estas ": 366, "oj de ": 367, "land": 368, "o de la ": 369, "ud": 370, "oj. ": 371, "kiuj ": 372, "es ": 373, "fin": 374, "ŝat": 375, "men": 376, "! ": 377, "vus ": 378, "th": 379, "to ": 380, "oj estas ": 381, "volas ": 382, "cer": 383, "gra": 384, "ob": 385, "plej ": 386, "jam ": 387, "ĉiuj ": 388, "str": 389, "u, ": 390, "lib": 391, "ĝi estas ": 392, "ekzist": 393, "via ": 394, "ĉi ti": 395, "unu ": 396, "nov": 397, "ia ": 398, "so": 399, "kion ": 400, "jar": 401, "on. ": 402, "ja ": 403, "o \"": 404, "e. ": 405, "anti": 406, "kl": 407, "okaz": 408, "ser": 409, "homoj ": 410, "laŭ ": 411, "o ne ": 412, "mil": 413, "dem": 414, "pan": 415, "ce": 416, "as ti": 417, "nun ": 418, "pol": 419, "oj.": 420, "on.": 421, "i la ": 422, "y ": 423, "0 ": 424, "sig": 425, "tis ": 426, "iu ": 427, "sub": 428, "viv": 429, "ita ": 430, "devas ": 431, "op": 432, "afer": 433, "ĝis ": 434, "o por ": 435, "mor": 436, "ust": 437, "mi estas ": 438, "reg": 439, "... ": 440, "pre": 441, "mesaĝ": 442, "fil": 443, "ek ": 444, "ĝin ": 445, "rusi": 446, "ŝi ": 447, "as. ": 448, "oj kaj ": 449, "to": 450, "as al ": 451, "dum": 452, "kv": 453, "ojn, ": 454, "leg": 455, "kio ": 456, "ĝin": 457, "unu": 458, "vo": 459, "a. ": 460, "kel": 461, "mi pens": 462, "grup": 463, "ata ": 464, "ĉe ": 465, "tel": 466, "ne, ": 467, "ini": 468, "a.": 469, "estus ": 470, "vis ": 471, "ukra": 472, "fak": 473, "uson": 474, "end": 475, "la k": 476, "tam": 477, "mar": 478, "as.": 479, "us": 480, "ple ": 481, "tig": 482, "o en ": 483, "tik": 484, "id": 485, "virin": 486, "mo": 487, "bot": 488, "on kaj ": 489, "anc": 490, "av": 491, "ces": 492, "mul": 493, "signi": 494, "dum ": 495, "fl": 496, "signif": 497, "br": 498, "vere ": 499, "io": 500, "a k": 501, "tion ": 502, "temp": 503, "ef": 504, "as, ke ": 505, "multaj ": 506, "cel": 507, "is ke ": 508, "e.": 509, "tro ": 510, "iz": 511 }, "merges": [ [ "s", " " ], [ "i", " " ], [ "e", " " ], [ "a", " " ], [ "a", "s " ], [ "o", " " ], [ "n", " " ], [ "s", "t" ], [ "j", " " ], [ "o", "n" ], [ ",", " " ], [ "a", "n" ], [ "e", "r" ], [ "e", "st" ], [ "a", "l" ], [ "t", "i" ], [ "e", "n" ], [ "l", "a " ], [ "a", "j " ], [ "o", "r" ], [ "u", " " ], [ "i", "n" ], [ "est", "as " ], [ "m", "i " ], [ "a", "r" ], [ "k", "i" ], [ "p", "r" ], [ "n", "e " ], [ "o", "j" ], [ ".", " " ], [ "e", "l" ], [ "a", "ŭ" ], [ "i", "s " ], [ "a", "m" ], [ "o", "j " ], [ "e", "s" ], [ "o", "m" ], [ "o", "n " ], [ "k", "aj " ], [ "d", "e " ], [ "e", "k" ], [ "v", "i" ], [ "o", "l" ], [ "a", "s" ], [ "e", "n " ], [ "i", "l" ], [ "a", "t" ], [ "v", "i " ], [ "e", "d" ], [ "p", "l" ], [ "aŭ", " " ], [ "u", "l" ], [ "e", "m" ], [ "c", "i" ], [ "t", "r" ], [ "d", "i" ], [ "a", "j" ], [ "m", "al" ], [ "p", "er" ], [ "p", "o" ], [ "o", ", " ], [ "an", "t" ], [ "k", "e " ], [ "al", " " ], [ "u", "r" ], [ "a", "n " ], [ "s", "i" ], [ "v", "as " ], [ "u", "n" ], [ "el", " " ], [ "s", "ed" ], [ "p", "or" ], [ "sed", " " ], [ "b", "l" ], [ "m", "i" ], [ "ĉ", "u " ], [ "k", "on" ], [ "r", "i" ], [ "o ", "estas " ], [ "o ", "de " ], [ "r", "u" ], [ "d", "e" ], [ "por", " " ], [ "i", "g" ], [ "i", "s" ], [ "a", "d" ], [ "pr", "i " ], [ "i", "t" ], [ "r", "e" ], [ "u", "n " ], [ "h", "a" ], [ "am", " " ], [ "ĝ", "i " ], [ "ĉ", "i" ], [ "p", "ar" ], [ "a", "k" ], [ "o", "k" ], [ "n", "e" ], [ ".", "." ], [ "r", "a" ], [ "an", "k" ], [ "v", "er" ], [ "s", "u" ], [ "b", "on" ], [ "u", "s " ], [ "es", "per" ], [ "t", "e " ], [ "k", "om" ], [ "oj", "n " ], [ "i", "st" ], [ "an", "d" ], [ "o", "s " ], [ "ki", "el " ], [ "t", "er" ], [ "l", "i " ], [ "on", "i " ], [ "o", ". " ], [ "en", "t" ], [ "e", "g" ], [ "a", "g" ], [ "aj", "n " ], [ "pr", "o" ], [ "o", "." ], [ "pl", "i " ], [ "oj", "n" ], [ "\"", " " ], [ "u", "j " ], [ "mi ", "ne " ], [ "e", "bl" ], [ "f", "or" ], [ "ur", " " ], [ "e", ", " ], [ "s", "e " ], [ "l", "i" ], [ "h", "om" ], [ "al", "i" ], [ "in", "g" ], [ "e", "t" ], [ "?", " " ], [ "u", "z" ], [ "v", "ol" ], [ "i", "k" ], [ "ti", "o " ], [ "esper", "ant" ], [ "p", "en" ], [ "ul", "t" ], [ "u", "m" ], [ "s", "ci" ], [ "il", "i " ], [ "n", "ur " ], [ "po", "vas " ], [ "e", "c" ], [ "o", "v" ], [ "as", ", " ], [ "a", "b" ], [ "en", "i" ], [ "d", "o " ], [ "est", "is " ], [ "di", "r" ], [ "n", "i " ], [ "ha", "vas " ], [ "oj", ", " ], [ "ĉ", "i " ], [ "ar", " " ], [ "a", "z" ], [ ":", " " ], [ "ki", "u " ], [ "f", "ar" ], [ "s", "en" ], [ "e", "j" ], [ "i", "ĝ" ], [ "en ", "la " ], [ "l", "o" ], [ "as ", "ke " ], [ "on", ", " ], [ "e", "z" ], [ "or", "t" ], [ "par", "ol" ], [ "u", "t" ], [ "d", "a " ], [ "ti", "u " ], [ "in", "ter" ], [ "pr", "en" ], [ "o ", "kaj " ], [ "n", "eni" ], [ "k", "un " ], [ "l", "ing" ], [ "a", "ĵ" ], [ "i", "n " ], [ "a", "c" ], [ "f", "i" ], [ "s", "k" ], [ "o", "?" ], [ "ĉ", "ar " ], [ "m", "on" ], [ "f", "er" ], [ "ne ", "estas " ], [ "ek", "z" ], [ "u", "j" ], [ "a", "ĝ" ], [ "ĉu ", "vi " ], [ "r", "o" ], [ "u", "k" ], [ "s", "on" ], [ "ling", "v" ], [ "t", "em" ], [ "g", "r" ], [ "ank", "aŭ " ], [ "a", ", " ], [ "pen", "s" ], [ "ek", "t" ], [ "v", "en" ], [ "j", "es" ], [ "s", "am" ], [ "ĉ", " " ], [ "o", "t" ], [ "n", "i" ], [ "p", "on" ], [ "d", "r" ], [ "k", "r" ], [ "e", "ĉ " ], [ "mi", "a " ], [ "i", "m" ], [ "m", "em" ], [ "ru", "s" ], [ "ebl", "e " ], [ "s", "ek" ], [ "a", "ti" ], [ "an", "g" ], [ "o", "f" ], [ "vi", "d" ], [ "a", "p" ], [ "i", "o " ], [ "is", "m" ], [ "d", "on" ], [ "vi", "r" ], [ "t", "a " ], [ "kom", "pren" ], [ "om", " " ], [ "si", "m" ], [ "v", "ort" ], [ "-", " " ], [ "m", "an" ], [ "m", "ult" ], [ "as ", "la " ], [ "i", "r" ], [ "a", "ci" ], [ "as ", "pri " ], [ "m", "dr" ], [ "on ", "de " ], [ "est", "i " ], [ "s", "p" ], [ "en", "c" ], [ "n", "om" ], [ "m", "es" ], [ "pr", "o " ], [ "ki", "al " ], [ "..", "." ], [ "ol", " " ], [ "f", "r" ], [ "po", "st" ], [ "m", "in" ], [ "g", "ru" ], [ "l", "er" ], [ "k", "ri" ], [ "u", "ti" ], [ "kon", "tr" ], [ "o", "s" ], [ "per", " " ], [ "ki", "am " ], [ "pl", "e" ], [ "l", "a" ], [ "t", "u" ], [ "d", "u" ], [ "r", "es" ], [ "aj", "n" ], [ "jes", ", " ], [ "tr", "e " ], [ "ti", "o estas " ], [ "oj ", "de " ], [ "l", "and" ], [ "o de ", "la " ], [ "u", "d" ], [ "oj", ". " ], [ "ki", "uj " ], [ "e", "s " ], [ "f", "in" ], [ "ŝ", "at" ], [ "m", "en" ], [ "!", " " ], [ "v", "us " ], [ "t", "h" ], [ "t", "o " ], [ "oj ", "estas " ], [ "vol", "as " ], [ "c", "er" ], [ "g", "ra" ], [ "o", "b" ], [ "ple", "j " ], [ "j", "am " ], [ "ĉi", "uj " ], [ "st", "r" ], [ "u", ", " ], [ "li", "b" ], [ "ĝi ", "estas " ], [ "ekz", "ist" ], [ "vi", "a " ], [ "ĉi ", "ti" ], [ "un", "u " ], [ "n", "ov" ], [ "i", "a " ], [ "s", "o" ], [ "ki", "on " ], [ "j", "ar" ], [ "on", ". " ], [ "j", "a " ], [ "o ", "\"" ], [ "e", ". " ], [ "an", "ti" ], [ "k", "l" ], [ "ok", "az" ], [ "s", "er" ], [ "hom", "oj " ], [ "l", "aŭ " ], [ "o ", "ne " ], [ "m", "il" ], [ "d", "em" ], [ "p", "an" ], [ "c", "e" ], [ "as ", "ti" ], [ "n", "un " ], [ "p", "ol" ], [ "oj", "." ], [ "on", "." ], [ "i ", "la " ], [ "y", " " ], [ "0", " " ], [ "si", "g" ], [ "ti", "s " ], [ "i", "u " ], [ "su", "b" ], [ "vi", "v" ], [ "it", "a " ], [ "de", "vas " ], [ "o", "p" ], [ "a", "fer" ], [ "ĝ", "is " ], [ "o ", "por " ], [ "m", "or" ], [ "u", "st" ], [ "mi ", "estas " ], [ "re", "g" ], [ "..", ". " ], [ "pr", "e" ], [ "mes", "aĝ" ], [ "f", "il" ], [ "ek", " " ], [ "ĝ", "in " ], [ "ru", "si" ], [ "ŝ", "i " ], [ "as", ". " ], [ "oj ", "kaj " ], [ "t", "o" ], [ "as ", "al " ], [ "d", "um" ], [ "k", "v" ], [ "ojn", ", " ], [ "l", "eg" ], [ "ki", "o " ], [ "ĝ", "in" ], [ "un", "u" ], [ "v", "o" ], [ "a", ". " ], [ "k", "el" ], [ "mi ", "pens" ], [ "gru", "p" ], [ "at", "a " ], [ "ĉ", "e " ], [ "t", "el" ], [ "ne", ", " ], [ "in", "i" ], [ "a", "." ], [ "est", "us " ], [ "v", "is " ], [ "uk", "ra" ], [ "f", "ak" ], [ "u", "son" ], [ "en", "d" ], [ "la ", "k" ], [ "t", "am" ], [ "m", "ar" ], [ "as", "." ], [ "u", "s" ], [ "pl", "e " ], [ "ti", "g" ], [ "o ", "en " ], [ "ti", "k" ], [ "i", "d" ], [ "vir", "in" ], [ "m", "o" ], [ "b", "ot" ], [ "on ", "kaj " ], [ "an", "c" ], [ "a", "v" ], [ "c", "es" ], [ "m", "ul" ], [ "sig", "ni" ], [ "dum", " " ], [ "f", "l" ], [ "signi", "f" ], [ "b", "r" ], [ "ver", "e " ], [ "i", "o" ], [ "a ", "k" ], [ "ti", "on " ], [ "tem", "p" ], [ "e", "f" ], [ "as, ", "ke " ], [ "mult", "aj " ], [ "c", "el" ], [ "is ", "ke " ], [ "e", "." ], [ "tr", "o " ], [ "i", "z" ] ] } }