SykoLLM-0.1B / tokenizer.json
burak
Upload folder using huggingface_hub
04ea0cc verified
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "[PAD]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 1,
"content": "[UNK]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 2,
"content": "[BOS]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 3,
"content": "[EOS]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": {
"type": "Sequence",
"normalizers": [
{
"type": "Lowercase"
},
{
"type": "NFKC"
}
]
},
"pre_tokenizer": {
"type": "Whitespace"
},
"post_processor": null,
"decoder": null,
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "[UNK]",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"ignore_merges": false,
"vocab": {
"[PAD]": 0,
"[UNK]": 1,
"[BOS]": 2,
"[EOS]": 3,
"(": 4,
")": 5,
",": 6,
".": 7,
"a": 8,
"b": 9,
"c": 10,
"d": 11,
"e": 12,
"f": 13,
"g": 14,
"h": 15,
"i": 16,
"j": 17,
"k": 18,
"l": 19,
"m": 20,
"n": 21,
"o": 22,
"p": 23,
"r": 24,
"s": 25,
"t": 26,
"u": 27,
"v": 28,
"y": 29,
"z": 30,
"ç": 31,
"ö": 32,
"ü": 33,
"ğ": 34,
"ı": 35,
"ş": 36,
"in": 37,
"la": 38,
"er": 39,
"el": 40,
"il": 41,
"ir": 42,
"ma": 43,
"me": 44,
"ır": 45,
"ka": 46,
"bir": 47,
"dil": 48,
"ar": 49,
"en": 50,
"or": 51,
"tü": 52,
"ve": 53,
"ya": 54,
"lar": 55,
"da": 56,
"im": 57,
"it": 58,
"mo": 59,
"mod": 60,
"em": 61,
"et": 62,
"eğ": 63,
"ha": 64,
"si": 65,
"yor": 66,
"ün": 67,
"lama": 68,
"eri": 69,
"model": 70,
"ay": 71,
"dır": 72,
"eka": 73,
"kç": 74,
"ok": 75,
"ol": 76,
"pay": 77,
"zeka": 78,
"ın": 79,
"lan": 80,
"tür": 81,
"yapay": 82,
"imi": 83,
"eğit": 84,
"al": 85,
"alan": 86,
"bu": 87,
"de": 88,
"ek": 89,
"gün": 90,
"iz": 91,
"iç": 92,
"kt": 93,
"li": 94,
"oj": 95,
"va": 96,
"ön": 97,
"ük": 98,
"ğr": 99,
"ğı": 100,
"şt": 101,
"erin": 102,
"eli": 103,
"kçe": 104,
"türkçe": 105,
"için": 106,
"an": 107,
"ba": 108,
"bil": 109,
"di": 110,
"do": 111,
"ec": 112,
"fa": 113,
"gu": 114,
"ku": 115,
"kü": 116,
"kin": 117,
"le": 118,
"lı": 119,
"pr": 120,
"sı": 121,
"uy": 122,
"veri": 123,
"çok": 124,
"öğr": 125,
"ür": 126,
"malar": 127,
"emli": 128,
"modelin": 129,
"önemli": 130,
"gulama": 131,
"uygulama": 132,
"öğren": 133,
"ah": 134,
"bü": 135,
"ca": 136,
"du": 137,
"dı": 138,
"dir": 139,
"dün": 140,
"eç": 141,
"esi": 142,
"edi": 143,
"gin": 144,
"ip": 145,
"isi": 146,
"keli": 147,
"lem": 148,
"leri": 149,
"nu": 150,
"nol": 151,
"onu": 152,
"par": 153,
"pha": 154,
"ra": 155,
"tu": 156,
"tok": 157,
"tek": 158,
"yi": 159,
"yük": 160,
"zla": 161,
"zel": 162,
"ğal": 163,
"inin": 164,
"elerin": 165,
"ile": 166,
"ilme": 167,
"makin": 168,
"met": 169,
"eni": 170,
"eniz": 171,
"tüpha": 172,
"ları": 173,
"etimi": 174,
"oldu": 175,
"eğitim": 176,
"ktır": 177,
"ğım": 178,
"ştir": 179,
"doğal": 180,
"kütüpha": 181,
"proj": 182,
"öğrenimi": 183,
"büyük": 184,
"dünya": 185,
"ediyor": 186,
"kelime": 187,
"noloj": 188,
"tokeniz": 189,
"teknoloj": 190,
"makine": 191,
"kütüphan": 192,
"tokenizer": 193
},
"merges": [
[
"i",
"n"
],
[
"l",
"a"
],
[
"e",
"r"
],
[
"e",
"l"
],
[
"i",
"l"
],
[
"i",
"r"
],
[
"m",
"a"
],
[
"m",
"e"
],
[
"ı",
"r"
],
[
"k",
"a"
],
[
"b",
"ir"
],
[
"d",
"il"
],
[
"a",
"r"
],
[
"e",
"n"
],
[
"o",
"r"
],
[
"t",
"ü"
],
[
"v",
"e"
],
[
"y",
"a"
],
[
"la",
"r"
],
[
"d",
"a"
],
[
"i",
"m"
],
[
"i",
"t"
],
[
"m",
"o"
],
[
"mo",
"d"
],
[
"e",
"m"
],
[
"e",
"t"
],
[
"e",
"ğ"
],
[
"h",
"a"
],
[
"s",
"i"
],
[
"y",
"or"
],
[
"ü",
"n"
],
[
"la",
"ma"
],
[
"er",
"i"
],
[
"mod",
"el"
],
[
"a",
"y"
],
[
"d",
"ır"
],
[
"e",
"ka"
],
[
"k",
"ç"
],
[
"o",
"k"
],
[
"o",
"l"
],
[
"p",
"ay"
],
[
"z",
"eka"
],
[
"ı",
"n"
],
[
"la",
"n"
],
[
"tü",
"r"
],
[
"ya",
"pay"
],
[
"im",
"i"
],
[
"eğ",
"it"
],
[
"a",
"l"
],
[
"a",
"lan"
],
[
"b",
"u"
],
[
"d",
"e"
],
[
"e",
"k"
],
[
"g",
"ün"
],
[
"i",
"z"
],
[
"i",
"ç"
],
[
"k",
"t"
],
[
"l",
"i"
],
[
"o",
"j"
],
[
"v",
"a"
],
[
"ö",
"n"
],
[
"ü",
"k"
],
[
"ğ",
"r"
],
[
"ğ",
"ı"
],
[
"ş",
"t"
],
[
"er",
"in"
],
[
"el",
"i"
],
[
"kç",
"e"
],
[
"tür",
"kçe"
],
[
"iç",
"in"
],
[
"a",
"n"
],
[
"b",
"a"
],
[
"b",
"il"
],
[
"d",
"i"
],
[
"d",
"o"
],
[
"e",
"c"
],
[
"f",
"a"
],
[
"g",
"u"
],
[
"k",
"u"
],
[
"k",
"ü"
],
[
"k",
"in"
],
[
"l",
"e"
],
[
"l",
"ı"
],
[
"p",
"r"
],
[
"s",
"ı"
],
[
"u",
"y"
],
[
"v",
"eri"
],
[
"ç",
"ok"
],
[
"ö",
"ğr"
],
[
"ü",
"r"
],
[
"ma",
"lar"
],
[
"em",
"li"
],
[
"model",
"in"
],
[
"ön",
"emli"
],
[
"gu",
"lama"
],
[
"uy",
"gulama"
],
[
"öğr",
"en"
],
[
"a",
"h"
],
[
"b",
"ü"
],
[
"c",
"a"
],
[
"d",
"u"
],
[
"d",
"ı"
],
[
"d",
"ir"
],
[
"d",
"ün"
],
[
"e",
"ç"
],
[
"e",
"si"
],
[
"e",
"di"
],
[
"g",
"in"
],
[
"i",
"p"
],
[
"i",
"si"
],
[
"k",
"eli"
],
[
"l",
"em"
],
[
"l",
"eri"
],
[
"n",
"u"
],
[
"n",
"ol"
],
[
"o",
"nu"
],
[
"p",
"ar"
],
[
"p",
"ha"
],
[
"r",
"a"
],
[
"t",
"u"
],
[
"t",
"ok"
],
[
"t",
"ek"
],
[
"y",
"i"
],
[
"y",
"ük"
],
[
"z",
"la"
],
[
"z",
"el"
],
[
"ğ",
"al"
],
[
"in",
"in"
],
[
"el",
"erin"
],
[
"il",
"e"
],
[
"il",
"me"
],
[
"ma",
"kin"
],
[
"me",
"t"
],
[
"en",
"i"
],
[
"en",
"iz"
],
[
"tü",
"pha"
],
[
"lar",
"ı"
],
[
"et",
"imi"
],
[
"ol",
"du"
],
[
"eğit",
"im"
],
[
"kt",
"ır"
],
[
"ğı",
"m"
],
[
"şt",
"ir"
],
[
"do",
"ğal"
],
[
"kü",
"tüpha"
],
[
"pr",
"oj"
],
[
"öğren",
"imi"
],
[
"bü",
"yük"
],
[
"dün",
"ya"
],
[
"edi",
"yor"
],
[
"keli",
"me"
],
[
"nol",
"oj"
],
[
"tok",
"eniz"
],
[
"tek",
"noloj"
],
[
"makin",
"e"
],
[
"kütüpha",
"n"
],
[
"tokeniz",
"er"
]
]
}
}