{ "version": "1.0", "truncation": null, "padding": null, "added_tokens": [ { "id": 0, "content": "[PAD]", "single_word": false, "lstrip": false, "rstrip": false, "normalized": false, "special": true }, { "id": 1, "content": "[UNK]", "single_word": false, "lstrip": false, "rstrip": false, "normalized": false, "special": true }, { "id": 2, "content": "[BOS]", "single_word": false, "lstrip": false, "rstrip": false, "normalized": false, "special": true }, { "id": 3, "content": "[EOS]", "single_word": false, "lstrip": false, "rstrip": false, "normalized": false, "special": true } ], "normalizer": { "type": "Sequence", "normalizers": [ { "type": "Lowercase" }, { "type": "NFKC" } ] }, "pre_tokenizer": { "type": "Whitespace" }, "post_processor": null, "decoder": null, "model": { "type": "BPE", "dropout": null, "unk_token": "[UNK]", "continuing_subword_prefix": null, "end_of_word_suffix": null, "fuse_unk": false, "byte_fallback": false, "ignore_merges": false, "vocab": { "[PAD]": 0, "[UNK]": 1, "[BOS]": 2, "[EOS]": 3, "(": 4, ")": 5, ",": 6, ".": 7, "a": 8, "b": 9, "c": 10, "d": 11, "e": 12, "f": 13, "g": 14, "h": 15, "i": 16, "j": 17, "k": 18, "l": 19, "m": 20, "n": 21, "o": 22, "p": 23, "r": 24, "s": 25, "t": 26, "u": 27, "v": 28, "y": 29, "z": 30, "ç": 31, "ö": 32, "ü": 33, "ğ": 34, "ı": 35, "ş": 36, "in": 37, "la": 38, "er": 39, "el": 40, "il": 41, "ir": 42, "ma": 43, "me": 44, "ır": 45, "ka": 46, "bir": 47, "dil": 48, "ar": 49, "en": 50, "or": 51, "tü": 52, "ve": 53, "ya": 54, "lar": 55, "da": 56, "im": 57, "it": 58, "mo": 59, "mod": 60, "em": 61, "et": 62, "eğ": 63, "ha": 64, "si": 65, "yor": 66, "ün": 67, "lama": 68, "eri": 69, "model": 70, "ay": 71, "dır": 72, "eka": 73, "kç": 74, "ok": 75, "ol": 76, "pay": 77, "zeka": 78, "ın": 79, "lan": 80, "tür": 81, "yapay": 82, "imi": 83, "eğit": 84, "al": 85, "alan": 86, "bu": 87, "de": 88, "ek": 89, "gün": 90, "iz": 91, "iç": 92, "kt": 93, "li": 94, "oj": 95, "va": 96, "ön": 97, "ük": 98, "ğr": 99, "ğı": 100, "şt": 101, "erin": 102, "eli": 103, "kçe": 104, "türkçe": 105, "için": 106, "an": 107, "ba": 108, "bil": 109, "di": 110, "do": 111, "ec": 112, "fa": 113, "gu": 114, "ku": 115, "kü": 116, "kin": 117, "le": 118, "lı": 119, "pr": 120, "sı": 121, "uy": 122, "veri": 123, "çok": 124, "öğr": 125, "ür": 126, "malar": 127, "emli": 128, "modelin": 129, "önemli": 130, "gulama": 131, "uygulama": 132, "öğren": 133, "ah": 134, "bü": 135, "ca": 136, "du": 137, "dı": 138, "dir": 139, "dün": 140, "eç": 141, "esi": 142, "edi": 143, "gin": 144, "ip": 145, "isi": 146, "keli": 147, "lem": 148, "leri": 149, "nu": 150, "nol": 151, "onu": 152, "par": 153, "pha": 154, "ra": 155, "tu": 156, "tok": 157, "tek": 158, "yi": 159, "yük": 160, "zla": 161, "zel": 162, "ğal": 163, "inin": 164, "elerin": 165, "ile": 166, "ilme": 167, "makin": 168, "met": 169, "eni": 170, "eniz": 171, "tüpha": 172, "ları": 173, "etimi": 174, "oldu": 175, "eğitim": 176, "ktır": 177, "ğım": 178, "ştir": 179, "doğal": 180, "kütüpha": 181, "proj": 182, "öğrenimi": 183, "büyük": 184, "dünya": 185, "ediyor": 186, "kelime": 187, "noloj": 188, "tokeniz": 189, "teknoloj": 190, "makine": 191, "kütüphan": 192, "tokenizer": 193 }, "merges": [ [ "i", "n" ], [ "l", "a" ], [ "e", "r" ], [ "e", "l" ], [ "i", "l" ], [ "i", "r" ], [ "m", "a" ], [ "m", "e" ], [ "ı", "r" ], [ "k", "a" ], [ "b", "ir" ], [ "d", "il" ], [ "a", "r" ], [ "e", "n" ], [ "o", "r" ], [ "t", "ü" ], [ "v", "e" ], [ "y", "a" ], [ "la", "r" ], [ "d", "a" ], [ "i", "m" ], [ "i", "t" ], [ "m", "o" ], [ "mo", "d" ], [ "e", "m" ], [ "e", "t" ], [ "e", "ğ" ], [ "h", "a" ], [ "s", "i" ], [ "y", "or" ], [ "ü", "n" ], [ "la", "ma" ], [ "er", "i" ], [ "mod", "el" ], [ "a", "y" ], [ "d", "ır" ], [ "e", "ka" ], [ "k", "ç" ], [ "o", "k" ], [ "o", "l" ], [ "p", "ay" ], [ "z", "eka" ], [ "ı", "n" ], [ "la", "n" ], [ "tü", "r" ], [ "ya", "pay" ], [ "im", "i" ], [ "eğ", "it" ], [ "a", "l" ], [ "a", "lan" ], [ "b", "u" ], [ "d", "e" ], [ "e", "k" ], [ "g", "ün" ], [ "i", "z" ], [ "i", "ç" ], [ "k", "t" ], [ "l", "i" ], [ "o", "j" ], [ "v", "a" ], [ "ö", "n" ], [ "ü", "k" ], [ "ğ", "r" ], [ "ğ", "ı" ], [ "ş", "t" ], [ "er", "in" ], [ "el", "i" ], [ "kç", "e" ], [ "tür", "kçe" ], [ "iç", "in" ], [ "a", "n" ], [ "b", "a" ], [ "b", "il" ], [ "d", "i" ], [ "d", "o" ], [ "e", "c" ], [ "f", "a" ], [ "g", "u" ], [ "k", "u" ], [ "k", "ü" ], [ "k", "in" ], [ "l", "e" ], [ "l", "ı" ], [ "p", "r" ], [ "s", "ı" ], [ "u", "y" ], [ "v", "eri" ], [ "ç", "ok" ], [ "ö", "ğr" ], [ "ü", "r" ], [ "ma", "lar" ], [ "em", "li" ], [ "model", "in" ], [ "ön", "emli" ], [ "gu", "lama" ], [ "uy", "gulama" ], [ "öğr", "en" ], [ "a", "h" ], [ "b", "ü" ], [ "c", "a" ], [ "d", "u" ], [ "d", "ı" ], [ "d", "ir" ], [ "d", "ün" ], [ "e", "ç" ], [ "e", "si" ], [ "e", "di" ], [ "g", "in" ], [ "i", "p" ], [ "i", "si" ], [ "k", "eli" ], [ "l", "em" ], [ "l", "eri" ], [ "n", "u" ], [ "n", "ol" ], [ "o", "nu" ], [ "p", "ar" ], [ "p", "ha" ], [ "r", "a" ], [ "t", "u" ], [ "t", "ok" ], [ "t", "ek" ], [ "y", "i" ], [ "y", "ük" ], [ "z", "la" ], [ "z", "el" ], [ "ğ", "al" ], [ "in", "in" ], [ "el", "erin" ], [ "il", "e" ], [ "il", "me" ], [ "ma", "kin" ], [ "me", "t" ], [ "en", "i" ], [ "en", "iz" ], [ "tü", "pha" ], [ "lar", "ı" ], [ "et", "imi" ], [ "ol", "du" ], [ "eğit", "im" ], [ "kt", "ır" ], [ "ğı", "m" ], [ "şt", "ir" ], [ "do", "ğal" ], [ "kü", "tüpha" ], [ "pr", "oj" ], [ "öğren", "imi" ], [ "bü", "yük" ], [ "dün", "ya" ], [ "edi", "yor" ], [ "keli", "me" ], [ "nol", "oj" ], [ "tok", "eniz" ], [ "tek", "noloj" ], [ "makin", "e" ], [ "kütüpha", "n" ], [ "tokeniz", "er" ] ] } }