Hindish-epoc2 / tokenizer_en.json
SarwarShafee's picture
Upload folder using huggingface_hub
63455ea verified
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "[PAD]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 1,
"content": "[UNK]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 2,
"content": "[CLS]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 3,
"content": "[SEP]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 4,
"content": "[MASK]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": null,
"pre_tokenizer": {
"type": "Whitespace"
},
"post_processor": null,
"decoder": null,
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "[UNK]",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"ignore_merges": false,
"vocab": {
"[PAD]": 0,
"[UNK]": 1,
"[CLS]": 2,
"[SEP]": 3,
"[MASK]": 4,
"-": 5,
".": 6,
"A": 7,
"B": 8,
"C": 9,
"D": 10,
"F": 11,
"H": 12,
"M": 13,
"P": 14,
"R": 15,
"S": 16,
"T": 17,
"U": 18,
"Y": 19,
"a": 20,
"b": 21,
"c": 22,
"d": 23,
"e": 24,
"f": 25,
"g": 26,
"h": 27,
"i": 28,
"j": 29,
"k": 30,
"l": 31,
"m": 32,
"n": 33,
"o": 34,
"p": 35,
"r": 36,
"s": 37,
"t": 38,
"u": 39,
"v": 40,
"w": 41,
"y": 42,
"z": 43,
"ha": 44,
"aa": 45,
"an": 46,
"hu": 47,
"in": 48,
"ki": 49,
"phu": 50,
"phus": 51,
"hai": 52,
"ka": 53,
"ein": 54,
"re": 55,
"ne": 56,
"la": 57,
"mein": 58,
"and": 59,
"ho": 60,
"ta": 61,
"hat": 62,
"haand": 63,
"ra": 64,
"se": 65,
"te": 66,
"ti": 67,
"phusphus": 68,
"ke": 69,
"sa": 70,
"aare": 71,
"aahat": 72,
"phusphusaahat": 73,
"hi": 74,
"han": 75,
"Chaand": 76,
"ar": 77,
"ir": 78,
"ko": 79,
"de": 80,
"gir": 81,
"he": 82,
"na": 83,
"aala": 84,
"ay": 85,
"on": 86,
"kar": 87,
"au": 88,
"ch": 89,
"girne": 90,
"ba": 91,
"cha": 92,
"paala": 93,
"taare": 94,
"aat": 95,
"iy": 96,
"st": 97,
"kh": 98,
"oo": 99,
"Taare": 100,
"bi": 101,
"di": 102,
"jaa": 103,
"kaa": 104,
"pa": 105,
"ro": 106,
"su": 107,
"hain": 108,
"bha": 109,
"jhe": 110,
"ri": 111,
"sha": 112,
"ujhe": 113,
"sam": 114,
"aur": 115,
"stbi": 116,
"rostbi": 117,
"rostbite": 118,
"liy": 119,
"sh": 120,
"ya": 121,
"lag": 122,
"hand": 123,
"ain": 124,
"ek": 125,
"ran": 126,
"tte": 127,
"va": 128,
"vi": 129,
"aan": 130,
"dekh": 131,
"ootte": 132,
"Thand": 133,
"chaand": 134,
"gay": 135,
"ja": 136,
"ks": 137,
"sun": 138,
"Tootte": 139,
"ee": 140,
"ere": 141,
"frostbite": 142,
"gar": 143,
"mau": 144,
"mujhe": 145,
"pra": 146,
"raat": 147,
"ye": 148,
"raha": 149,
"hiye": 150,
"bad": 151,
"chahiye": 152,
"mausam": 153,
"Main": 154,
"eh": 155,
"ga": 156,
"par": 157,
"than": 158,
"tva": 159,
"hoti": 160,
"chch": 161,
"kaaran": 162,
"bhav": 163,
"liye": 164,
"dekhkar": 165,
"kshan": 166,
"garm": 167,
"tvacha": 168,
"Frostbite": 169,
"Mujhe": 170,
"Paala": 171,
"Raat": 172,
"Sar": 173,
"Us": 174,
"ak": 175,
"as": 176,
"bhi": 177,
"chi": 178,
"da": 179,
"kta": 180,
"le": 181,
"laa": 182,
"ni": 183,
"pan": 184,
"pre": 185,
"taa": 186,
"un": 187,
"ubhav": 188,
"aakaa": 189,
"anubhav": 190,
"lakshan": 191,
"hota": 192,
"sakta": 193,
"karti": 194,
"jaati": 195,
"shaan": 196,
"lagne": 197,
"vit": 198,
"gaya": 199,
"sunn": 200,
"prabha": 201,
"badh": 202,
"Maine": 203,
"aakaash": 204,
"Ha": 205,
"at": 206,
"achch": 207,
"dhe": 208,
"gliy": 209,
"lon": 210,
"ma": 211,
"mi": 212,
"man": 213,
"main": 214,
"maan": 215,
"mere": 216,
"og": 217,
"pi": 218,
"peh": 219,
"shu": 220,
"sand": 221,
"sya": 222,
"to": 223,
"aad": 224,
"ang": 225,
"hut": 226,
"hon": 227,
"hoon": 228,
"rah": 229,
"sar": 230,
"dee": 231,
"karta": 232,
"bach": 233,
"dikh": 234,
"jaata": 235,
"pair": 236,
"rit": 237,
"samay": 238,
"rahasya": 239,
"thande": 240,
"Sardee": 241,
"Uski": 242,
"aksar": 243,
"ungliy": 244,
"Hamein": 245,
"dheere": 246,
"ungliyon": 247,
"ad": 248,
"al": 249,
"ata": 250,
"ake": 251,
"avit": 252,
"baat": 253,
"dar": 254,
"esha": 255,
"ghat": 256,
"hta": 257,
"it": 258,
"ichch": 259,
"jhu": 260,
"jay": 261,
"kha": 262,
"kho": 263,
"khat": 264,
"kti": 265,
"lne": 266,
"maa": 267,
"mand": 268,
"may": 269,
"mbhi": 270,
"mlon": 271,
"mesha": 272,
"pn": 273,
"paan": 274,
"ru": 275,
"ron": 276,
"soo": 277,
"spa": 278,
"tha": 279,
"tsa": 280,
"thi": 281,
"thand": 282,
"tootte": 283,
"up": 284,
"uri": 285,
"vya": 286,
"wa": 287,
"yi": 288,
"yog": 289,
"yaad": 290,
"zar": 291,
"har": 292,
"hava": 293,
"haat": 294,
"hamesha": 295,
"aane": 296,
"ani": 297,
"hue": 298,
"kitsa": 299,
"kal": 300,
"kap": 301,
"kaha": 302,
"nen": 303,
"andhe": 304,
"saha": 305,
"sapn": 306,
"hik": 307,
"hani": 308,
"deti": 309,
"girte": 310,
"nahi": 311,
"karein": 312,
"karne": 313,
"bacha": 314,
"bahut": 315,
"aatma": 316,
"iya": 317,
"iyon": 318,
"staane": 319,
"dit": 320,
"jaate": 321,
"pasand": 322,
"suna": 323,
"sht": 324,
"rang": 325,
"dekhna": 326,
"jati": 327,
"sunna": 328,
"prak": 329,
"gambhi": 330,
"thandi": 331,
"chit": 332,
"chikitsa": 333,
"dastaane": 334,
"laati": 335,
"prem": 336,
"taap": 337,
"taaron": 338,
"lakshanon": 339,
"shaant": 340,
"shaanti": 341,
"prabhavit": 342,
"prabhaavit": 343,
"achchhi": 344,
"pidit": 345,
"shuru": 346,
"bachna": 347,
"dikhte": 348,
"rahasyamay": 349,
"akela": 350,
"ghatna": 351,
"ichchha": 352,
"jaye": 353,
"khaas": 354,
"khatra": 355,
"maamlon": 356,
"paani": 357,
"spasht": 358,
"vyakti": 359,
"gambhir": 360
},
"merges": [
[
"h",
"a"
],
[
"a",
"a"
],
[
"a",
"n"
],
[
"h",
"u"
],
[
"i",
"n"
],
[
"k",
"i"
],
[
"p",
"hu"
],
[
"phu",
"s"
],
[
"ha",
"i"
],
[
"k",
"a"
],
[
"e",
"in"
],
[
"r",
"e"
],
[
"n",
"e"
],
[
"l",
"a"
],
[
"m",
"ein"
],
[
"an",
"d"
],
[
"h",
"o"
],
[
"t",
"a"
],
[
"ha",
"t"
],
[
"ha",
"and"
],
[
"r",
"a"
],
[
"s",
"e"
],
[
"t",
"e"
],
[
"t",
"i"
],
[
"phus",
"phus"
],
[
"k",
"e"
],
[
"s",
"a"
],
[
"aa",
"re"
],
[
"aa",
"hat"
],
[
"phusphus",
"aahat"
],
[
"h",
"i"
],
[
"ha",
"n"
],
[
"C",
"haand"
],
[
"a",
"r"
],
[
"i",
"r"
],
[
"k",
"o"
],
[
"d",
"e"
],
[
"g",
"ir"
],
[
"h",
"e"
],
[
"n",
"a"
],
[
"aa",
"la"
],
[
"a",
"y"
],
[
"o",
"n"
],
[
"ka",
"r"
],
[
"a",
"u"
],
[
"c",
"h"
],
[
"gir",
"ne"
],
[
"b",
"a"
],
[
"c",
"ha"
],
[
"p",
"aala"
],
[
"t",
"aare"
],
[
"aa",
"t"
],
[
"i",
"y"
],
[
"s",
"t"
],
[
"k",
"h"
],
[
"o",
"o"
],
[
"T",
"aare"
],
[
"b",
"i"
],
[
"d",
"i"
],
[
"j",
"aa"
],
[
"k",
"aa"
],
[
"p",
"a"
],
[
"r",
"o"
],
[
"s",
"u"
],
[
"ha",
"in"
],
[
"b",
"ha"
],
[
"j",
"he"
],
[
"r",
"i"
],
[
"s",
"ha"
],
[
"u",
"jhe"
],
[
"sa",
"m"
],
[
"au",
"r"
],
[
"st",
"bi"
],
[
"ro",
"stbi"
],
[
"rostbi",
"te"
],
[
"l",
"iy"
],
[
"s",
"h"
],
[
"y",
"a"
],
[
"la",
"g"
],
[
"han",
"d"
],
[
"a",
"in"
],
[
"e",
"k"
],
[
"r",
"an"
],
[
"t",
"te"
],
[
"v",
"a"
],
[
"v",
"i"
],
[
"aa",
"n"
],
[
"de",
"kh"
],
[
"oo",
"tte"
],
[
"T",
"hand"
],
[
"c",
"haand"
],
[
"g",
"ay"
],
[
"j",
"a"
],
[
"k",
"s"
],
[
"su",
"n"
],
[
"T",
"ootte"
],
[
"e",
"e"
],
[
"e",
"re"
],
[
"f",
"rostbite"
],
[
"g",
"ar"
],
[
"m",
"au"
],
[
"m",
"ujhe"
],
[
"p",
"ra"
],
[
"r",
"aat"
],
[
"y",
"e"
],
[
"ra",
"ha"
],
[
"hi",
"ye"
],
[
"ba",
"d"
],
[
"cha",
"hiye"
],
[
"mau",
"sam"
],
[
"M",
"ain"
],
[
"e",
"h"
],
[
"g",
"a"
],
[
"p",
"ar"
],
[
"t",
"han"
],
[
"t",
"va"
],
[
"ho",
"ti"
],
[
"ch",
"ch"
],
[
"kaa",
"ran"
],
[
"bha",
"v"
],
[
"liy",
"e"
],
[
"dekh",
"kar"
],
[
"ks",
"han"
],
[
"gar",
"m"
],
[
"tva",
"cha"
],
[
"F",
"rostbite"
],
[
"M",
"ujhe"
],
[
"P",
"aala"
],
[
"R",
"aat"
],
[
"S",
"ar"
],
[
"U",
"s"
],
[
"a",
"k"
],
[
"a",
"s"
],
[
"b",
"hi"
],
[
"c",
"hi"
],
[
"d",
"a"
],
[
"k",
"ta"
],
[
"l",
"e"
],
[
"l",
"aa"
],
[
"n",
"i"
],
[
"p",
"an"
],
[
"p",
"re"
],
[
"t",
"aa"
],
[
"u",
"n"
],
[
"u",
"bhav"
],
[
"aa",
"kaa"
],
[
"an",
"ubhav"
],
[
"la",
"kshan"
],
[
"ho",
"ta"
],
[
"sa",
"kta"
],
[
"kar",
"ti"
],
[
"jaa",
"ti"
],
[
"sha",
"an"
],
[
"lag",
"ne"
],
[
"vi",
"t"
],
[
"gay",
"a"
],
[
"sun",
"n"
],
[
"pra",
"bha"
],
[
"bad",
"h"
],
[
"Main",
"e"
],
[
"aakaa",
"sh"
],
[
"H",
"a"
],
[
"a",
"t"
],
[
"a",
"chch"
],
[
"d",
"he"
],
[
"g",
"liy"
],
[
"l",
"on"
],
[
"m",
"a"
],
[
"m",
"i"
],
[
"m",
"an"
],
[
"m",
"ain"
],
[
"m",
"aan"
],
[
"m",
"ere"
],
[
"o",
"g"
],
[
"p",
"i"
],
[
"p",
"eh"
],
[
"s",
"hu"
],
[
"s",
"and"
],
[
"s",
"ya"
],
[
"t",
"o"
],
[
"aa",
"d"
],
[
"an",
"g"
],
[
"hu",
"t"
],
[
"ho",
"n"
],
[
"ho",
"on"
],
[
"ra",
"h"
],
[
"sa",
"r"
],
[
"de",
"e"
],
[
"kar",
"ta"
],
[
"ba",
"ch"
],
[
"di",
"kh"
],
[
"jaa",
"ta"
],
[
"pa",
"ir"
],
[
"ri",
"t"
],
[
"sam",
"ay"
],
[
"raha",
"sya"
],
[
"than",
"de"
],
[
"Sar",
"dee"
],
[
"Us",
"ki"
],
[
"ak",
"sar"
],
[
"un",
"gliy"
],
[
"Ha",
"mein"
],
[
"dhe",
"ere"
],
[
"ungliy",
"on"
],
[
"a",
"d"
],
[
"a",
"l"
],
[
"a",
"ta"
],
[
"a",
"ke"
],
[
"a",
"vit"
],
[
"b",
"aat"
],
[
"d",
"ar"
],
[
"e",
"sha"
],
[
"g",
"hat"
],
[
"h",
"ta"
],
[
"i",
"t"
],
[
"i",
"chch"
],
[
"j",
"hu"
],
[
"j",
"ay"
],
[
"k",
"ha"
],
[
"k",
"ho"
],
[
"k",
"hat"
],
[
"k",
"ti"
],
[
"l",
"ne"
],
[
"m",
"aa"
],
[
"m",
"and"
],
[
"m",
"ay"
],
[
"m",
"bhi"
],
[
"m",
"lon"
],
[
"m",
"esha"
],
[
"p",
"n"
],
[
"p",
"aan"
],
[
"r",
"u"
],
[
"r",
"on"
],
[
"s",
"oo"
],
[
"s",
"pa"
],
[
"t",
"ha"
],
[
"t",
"sa"
],
[
"t",
"hi"
],
[
"t",
"hand"
],
[
"t",
"ootte"
],
[
"u",
"p"
],
[
"u",
"ri"
],
[
"v",
"ya"
],
[
"w",
"a"
],
[
"y",
"i"
],
[
"y",
"og"
],
[
"y",
"aad"
],
[
"z",
"ar"
],
[
"ha",
"r"
],
[
"ha",
"va"
],
[
"ha",
"at"
],
[
"ha",
"mesha"
],
[
"aa",
"ne"
],
[
"an",
"i"
],
[
"hu",
"e"
],
[
"ki",
"tsa"
],
[
"ka",
"l"
],
[
"ka",
"p"
],
[
"ka",
"ha"
],
[
"ne",
"n"
],
[
"and",
"he"
],
[
"sa",
"ha"
],
[
"sa",
"pn"
],
[
"hi",
"k"
],
[
"han",
"i"
],
[
"de",
"ti"
],
[
"gir",
"te"
],
[
"na",
"hi"
],
[
"kar",
"ein"
],
[
"kar",
"ne"
],
[
"ba",
"cha"
],
[
"ba",
"hut"
],
[
"aat",
"ma"
],
[
"iy",
"a"
],
[
"iy",
"on"
],
[
"st",
"aane"
],
[
"di",
"t"
],
[
"jaa",
"te"
],
[
"pa",
"sand"
],
[
"su",
"na"
],
[
"sh",
"t"
],
[
"ran",
"g"
],
[
"dekh",
"na"
],
[
"ja",
"ti"
],
[
"sun",
"na"
],
[
"pra",
"k"
],
[
"ga",
"mbhi"
],
[
"than",
"di"
],
[
"chi",
"t"
],
[
"chi",
"kitsa"
],
[
"da",
"staane"
],
[
"laa",
"ti"
],
[
"pre",
"m"
],
[
"taa",
"p"
],
[
"taa",
"ron"
],
[
"lakshan",
"on"
],
[
"shaan",
"t"
],
[
"shaan",
"ti"
],
[
"prabha",
"vit"
],
[
"prabha",
"avit"
],
[
"achch",
"hi"
],
[
"pi",
"dit"
],
[
"shu",
"ru"
],
[
"bach",
"na"
],
[
"dikh",
"te"
],
[
"rahasya",
"may"
],
[
"ake",
"la"
],
[
"ghat",
"na"
],
[
"ichch",
"ha"
],
[
"jay",
"e"
],
[
"kha",
"as"
],
[
"khat",
"ra"
],
[
"maa",
"mlon"
],
[
"paan",
"i"
],
[
"spa",
"sht"
],
[
"vya",
"kti"
],
[
"gambhi",
"r"
]
]
}
}