tortoise-id / indonesia_tokenizer_v1.json
Saripudin's picture
Upload indonesia_tokenizer_v1.json with huggingface_hub
9ebf9a0 verified
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "[STOP]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 1,
"content": "[UNK]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 2,
"content": "[SPACE]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": null,
"pre_tokenizer": {
"type": "Whitespace"
},
"post_processor": null,
"decoder": null,
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "[UNK]",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"vocab": {
"[STOP]": 0,
"[UNK]": 1,
"[SPACE]": 2,
"!": 3,
"'": 4,
",": 5,
"-": 6,
".": 7,
"?": 8,
"a": 9,
"b": 10,
"c": 11,
"d": 12,
"e": 13,
"f": 14,
"g": 15,
"h": 16,
"i": 17,
"j": 18,
"k": 19,
"l": 20,
"m": 21,
"n": 22,
"o": 23,
"p": 24,
"q": 25,
"r": 26,
"s": 27,
"t": 28,
"u": 29,
"v": 30,
"w": 31,
"x": 32,
"y": 33,
"z": 34,
"an": 35,
"en": 36,
"er": 37,
"in": 38,
"ang": 39,
"at": 40,
"ar": 41,
"am": 42,
"as": 43,
"ak": 44,
"ah": 45,
"di": 46,
"em": 47,
"al": 48,
"un": 49,
"ik": 50,
"uk": 51,
"men": 52,
"se": 53,
"ke": 54,
"ap": 55,
"ber": 56,
"si": 57,
"yang": 58,
"eng": 59,
"mem": 60,
"it": 61,
"ya": 62,
"da": 63,
"dan": 64,
"bi": 65,
"el": 66,
"ini": 67,
"asi": 68,
"ter": 69,
"per": 70,
"ti": 71,
"on": 72,
"ba": 73,
"kam": 74,
"kan": 75,
"tuk": 76,
"bu": 77,
"ing": 78,
"ai": 79,
"akan": 80,
"untuk": 81,
"or": 82,
"ikan": 83,
"et": 84,
"sa": 85,
"us": 86,
"ung": 87,
"au": 88,
"tu": 89,
"deng": 90,
"pr": 91,
"ja": 92,
"dengan": 93,
"ek": 94,
"gi": 95,
"es": 96,
"ga": 97,
"alam": 98,
"ol": 99,
"il": 100,
"ari": 101,
"pen": 102,
"kami": 103,
"ih": 104,
"ur": 105,
"ta": 106,
"anan": 107,
"lu": 108,
"meng": 109,
"is": 110,
"anda": 111,
"ada": 112,
"pro": 113,
"ad": 114,
"man": 115,
"ara": 116,
"bang": 117,
"ita": 118,
"berikan": 119,
"ok": 120,
"la": 121,
"peng": 122,
"kita": 123,
"memberikan": 124,
"uh": 125,
"ma": 126,
"mu": 127,
"bar": 128,
"nya": 129,
"angan": 130,
"tem": 131,
"ban": 132,
"tr": 133,
"tan": 134,
"wa": 135,
"su": 136,
"le": 137,
"pem": 138,
"atan": 139,
"apa": 140,
"ama": 141,
"ku": 142,
"kamu": 143,
"bisa": 144,
"dalam": 145,
"atau": 146,
"dap": 147,
"ten": 148,
"ati": 149,
"bel": 150,
"ju": 151,
"pat": 152,
"asa": 153,
"sel": 154,
"ser": 155,
"ko": 156,
"dapat": 157,
"ahan": 158,
"gu": 159,
"pan": 160,
"jadi": 161,
"akah": 162,
"kon": 163,
"ir": 164,
"banget": 165,
"de": 166,
"pel": 167,
"buat": 168,
"tang": 169,
"mo": 170,
"han": 171,
"wah": 172,
"um": 173,
"bag": 174,
"kah": 175,
"cara": 176,
"kal": 177,
"har": 178,
"aman": 179,
"duk": 180,
"aan": 181,
"sem": 182,
"mana": 183,
"ker": 184,
"ram": 185,
"ken": 186,
"alah": 187,
"gan": 188,
"itas": 189,
"dah": 190,
"aran": 191,
"lebi": 192,
"meny": 193,
"sen": 194,
"lebih": 195,
"he": 196,
"gak": 197,
"hi": 198,
"pas": 199,
"ka": 200,
"asan": 201,
"pa": 202,
"ul": 203,
"ot": 204,
"ukan": 205,
"kap": 206,
"baru": 207,
"masi": 208,
"jal": 209,
"kar": 210,
"mer": 211,
"re": 212,
"luar": 213,
"ben": 214,
"dari": 215,
"du": 216,
"pe": 217,
"sini": 218,
"uka": 219,
"bik": 220,
"main": 221,
"eh": 222,
"bikin": 223,
"yanan": 224,
"ian": 225,
"for": 226,
"bat": 227,
"ut": 228,
"lan": 229,
"tentang": 230,
"bis": 231,
"gun": 232,
"co": 233,
"mas": 234,
"bagai": 235,
"seti": 236,
"amp": 237,
"aw": 238,
"mel": 239,
"bah": 240,
"bantu": 241,
"me": 242,
"sama": 243,
"ind": 244,
"baik": 245,
"pada": 246,
"li": 247,
"apakah": 248,
"angat": 249,
"adalah": 250,
"setiap": 251,
"ci": 252,
"aku": 253,
"aduh": 254
},
"merges": [
"a n",
"e n",
"e r",
"i n",
"an g",
"a t",
"a r",
"a m",
"a s",
"a k",
"a h",
"d i",
"e m",
"a l",
"u n",
"i k",
"u k",
"m en",
"s e",
"k e",
"a p",
"b er",
"s i",
"y ang",
"en g",
"m em",
"i t",
"y a",
"d a",
"d an",
"b i",
"e l",
"in i",
"as i",
"t er",
"p er",
"t i",
"o n",
"b a",
"k am",
"k an",
"t uk",
"b u",
"in g",
"a i",
"ak an",
"un tuk",
"o r",
"ik an",
"e t",
"s a",
"u s",
"un g",
"a u",
"t u",
"d eng",
"p r",
"j a",
"deng an",
"e k",
"g i",
"e s",
"g a",
"al am",
"o l",
"i l",
"ar i",
"p en",
"kam i",
"i h",
"u r",
"t a",
"an an",
"l u",
"men g",
"i s",
"an da",
"a da",
"pr o",
"a d",
"m an",
"ar a",
"b ang",
"it a",
"ber ikan",
"o k",
"l a",
"p eng",
"k ita",
"mem berikan",
"u h",
"m a",
"m u",
"b ar",
"n ya",
"ang an",
"t em",
"b an",
"t r",
"t an",
"w a",
"s u",
"l e",
"p em",
"at an",
"ap a",
"am a",
"k u",
"kam u",
"bi sa",
"d alam",
"at au",
"d ap",
"t en",
"at i",
"b el",
"j u",
"p at",
"as a",
"se l",
"s er",
"k o",
"dap at",
"ah an",
"g u",
"p an",
"ja di",
"ak ah",
"k on",
"i r",
"bang et",
"d e",
"p el",
"bu at",
"t ang",
"m o",
"h an",
"w ah",
"u m",
"ba g",
"k ah",
"c ara",
"k al",
"h ar",
"am an",
"d uk",
"a an",
"s em",
"man a",
"k er",
"r am",
"k en",
"al ah",
"g an",
"it as",
"d ah",
"ar an",
"le bi",
"men y",
"s en",
"lebi h",
"h e",
"g ak",
"h i",
"p as",
"k a",
"as an",
"p a",
"u l",
"o t",
"uk an",
"k ap",
"bar u",
"m asi",
"j al",
"k ar",
"m er",
"r e",
"lu ar",
"b en",
"d ari",
"d u",
"p e",
"s ini",
"uk a",
"b ik",
"ma in",
"e h",
"bik in",
"y anan",
"i an",
"f or",
"b at",
"u t",
"l an",
"ten tang",
"bi s",
"g un",
"c o",
"m as",
"bag ai",
"se ti",
"am p",
"a w",
"m el",
"b ah",
"ban tu",
"m e",
"s ama",
"in d",
"ba ik",
"p ada",
"l i",
"ap akah",
"ang at",
"ad alah",
"seti ap",
"c i",
"ak u",
"ad uh"
],
"language": "multi"
}
}