Hindish-epoc2 / tokenizer_hn.json
SarwarShafee's picture
Upload folder using huggingface_hub
63455ea verified
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "[PAD]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 1,
"content": "[UNK]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 2,
"content": "[CLS]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 3,
"content": "[SEP]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
},
{
"id": 4,
"content": "[MASK]",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": null,
"pre_tokenizer": {
"type": "Whitespace"
},
"post_processor": null,
"decoder": null,
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "[UNK]",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"byte_fallback": false,
"ignore_merges": false,
"vocab": {
"[PAD]": 0,
"[UNK]": 1,
"[CLS]": 2,
"[SEP]": 3,
"[MASK]": 4,
"-": 5,
"a": 6,
"c": 7,
"e": 8,
"f": 9,
"i": 10,
"n": 11,
"s": 12,
"t": 13,
"ँ": 14,
"ं": 15,
"अ": 16,
"आ": 17,
"इ": 18,
"ई": 19,
"उ": 20,
"ऊ": 21,
"ऋ": 22,
"ए": 23,
"औ": 24,
"क": 25,
"ख": 26,
"ग": 27,
"घ": 28,
"च": 29,
"छ": 30,
"ज": 31,
"झ": 32,
"ञ": 33,
"ट": 34,
"ठ": 35,
"ड": 36,
"ढ": 37,
"ण": 38,
"त": 39,
"थ": 40,
"द": 41,
"ध": 42,
"न": 43,
"प": 44,
"फ": 45,
"ब": 46,
"भ": 47,
"म": 48,
"य": 49,
"र": 50,
"ल": 51,
"व": 52,
"श": 53,
"ष": 54,
"स": 55,
"ह": 56,
"़": 57,
"ा": 58,
"ि": 59,
"ी": 60,
"ु": 61,
"ू": 62,
"ृ": 63,
"े": 64,
"ै": 65,
"ॉ": 66,
"ो": 67,
"ौ": 68,
"्": 69,
"।": 70,
"है": 71,
"ता": 72,
"फु": 73,
"फुस": 74,
"की": 75,
"चा": 76,
"ें": 77,
"ने": 78,
"रे": 79,
"में": 80,
"का": 81,
"ँद": 82,
"ला": 83,
"से": 84,
"चाँद": 85,
"ाह": 86,
"फुसफुस": 87,
"के": 88,
"तारे": 89,
"ाहट": 90,
"फुसफुसाहट": 91,
"हो": 92,
"ती": 93,
"पा": 94,
"ना": 95,
"को": 96,
"स्": 97,
"्र": 98,
"गि": 99,
"पाला": 100,
"गिर": 101,
"ते": 102,
"ों": 103,
"कर": 104,
"जा": 105,
"गिरने": 106,
"ंड": 107,
"रा": 108,
"बा": 109,
"या": 110,
"क्": 111,
"ठंड": 112,
"दे": 113,
"नी": 114,
"मा": 115,
"रह": 116,
"र्": 117,
"िए": 118,
"ित": 119,
"हैं": 120,
"इट": 121,
"झे": 122,
"टबा": 123,
"फ्र": 124,
"मु": 125,
"ॉस्": 126,
"रात": 127,
"टबाइट": 128,
"फ्रॉस्": 129,
"मुझे": 130,
"फ्रॉस्टबाइट": 131,
"ंग": 132,
"और": 133,
"लग": 134,
"सम": 135,
"सु": 136,
"ंत": 137,
"एक": 138,
"टू": 139,
"टते": 140,
"त्": 141,
"मै": 142,
"शा": 143,
"हा": 144,
"देख": 145,
"टूटते": 146,
"मैं": 147,
"कि": 148,
"ाव": 149,
"चाह": 150,
"सुन": 151,
"च्": 152,
"ड़": 153,
"दि": 154,
"प्र": 155,
"मौ": 156,
"रण": 157,
"री": 158,
"हु": 159,
"िय": 160,
"जाती": 161,
"क्ष": 162,
"चाहिए": 163,
"मौसम": 164,
"गर्": 165,
"ढ़": 166,
"नु": 167,
"पर": 168,
"प्": 169,
"बढ़": 170,
"भाव": 171,
"मे": 172,
"लिए": 173,
"वचा": 174,
"सं": 175,
"िक": 176,
"कारण": 177,
"होती": 178,
"त्वचा": 179,
"शांत": 180,
"देखकर": 181,
"मैंने": 182,
"च्छ": 183,
"ियों": 184,
"क्षण": 185,
"गर्म": 186,
"अनु": 187,
"आका": 188,
"उस": 189,
"कता": 190,
"गया": 191,
"दी": 192,
"पह": 193,
"भव": 194,
"लक्षण": 195,
"वा": 196,
"सा": 197,
"सू": 198,
"सर्": 199,
"सकता": 200,
"हमें": 201,
"्न": 202,
"होता": 203,
"करती": 204,
"लगने": 205,
"सुन्न": 206,
"प्रभाव": 207,
"प्रे": 208,
"अनुभव": 209,
"आकाश": 210,
"सर्दी": 211,
"प्रभावित": 212,
"अक्": 213,
"अंग": 214,
"अच्छ": 215,
"कहा": 216,
"ति": 217,
"धी": 218,
"पन": 219,
"पी": 220,
"पै": 221,
"बच": 222,
"बचा": 223,
"भी": 224,
"मी": 225,
"ले": 226,
"ल्": 227,
"लों": 228,
"लियों": 229,
"वी": 230,
"शु": 231,
"सर": 232,
"हू": 233,
"िया": 234,
"ीं": 235,
"ोग": 236,
"्य": 237,
"लाती": 238,
"पानी": 239,
"स्य": 240,
"करता": 241,
"जाता": 242,
"ठंडे": 243,
"मान": 244,
"रहा": 245,
"रहस्य": 246,
"समय": 247,
"हाथ": 248,
"दिख": 249,
"मेरे": 250,
"उसकी": 251,
"पहन": 252,
"अक्सर": 253,
"धीरे": 254,
"पैर": 255,
"हूँ": 256,
"ँध": 257,
"ंढ": 258,
"ंभी": 259,
"अध": 260,
"अके": 261,
"अँध": 262,
"आती": 263,
"आत्": 264,
"इत": 265,
"इच्छ": 266,
"उंग": 267,
"एं": 268,
"खत": 269,
"खा": 270,
"गई": 271,
"गह": 272,
"गड़": 273,
"गंभी": 274,
"घट": 275,
"चित": 276,
"चिक": 277,
"जल": 278,
"ज़": 279,
"झु": 280,
"ठंढ": 281,
"डर": 282,
"तु": 283,
"था": 284,
"थी": 285,
"दु": 286,
"दस्": 287,
"नह": 288,
"पष": 289,
"पड़": 290,
"पसं": 291,
"पमान": 292,
"बहु": 293,
"मय": 294,
"मलों": 295,
"यु": 296,
"यता": 297,
"योग": 298,
"रु": 299,
"रों": 300,
"रंग": 301,
"रगड़": 302,
"लें": 303,
"वि": 304,
"व्य": 305,
"सहा": 306,
"सपन": 307,
"हि": 308,
"हमे": 309,
"हवा": 310,
"ूरी": 311,
"्ट": 312,
"्सा": 313,
"ताने": 314,
"तापमान": 315,
"तारों": 316,
"स्पष": 317,
"गिरते": 318,
"करें": 319,
"करने": 320,
"जाए": 321,
"जाते": 322,
"बात": 323,
"याद": 324,
"क्ति": 325,
"ठंडी": 326,
"देती": 327,
"मामलों": 328,
"ित्सा": 329,
"ंगी": 330,
"सुना": 331,
"देखना": 332,
"सुनना": 333,
"ड़ित": 334,
"प्रक": 335,
"हुए": 336,
"शांति": 337,
"लक्षणों": 338,
"सूज": 339,
"प्रेम": 340,
"अंगु": 341,
"अच्छी": 342,
"पीड़ित": 343,
"बचना": 344,
"शुरु": 345,
"रहस्यमय": 346,
"हाथों": 347,
"दिखते": 348,
"पहनें": 349,
"अधिक": 350,
"अकेला": 351,
"अँधे": 352,
"आत्मा": 353,
"इतनी": 354,
"इच्छा": 355,
"उंगलियों": 356,
"खतरा": 357,
"खास": 358,
"गंभीर": 359,
"घटना": 360,
"चिकित्सा": 361,
"दस्ताने": 362,
"नहीं": 363,
"पसंद": 364,
"बहुत": 365,
"व्यक्ति": 366,
"सहायता": 367,
"सपनों": 368,
"हमेशा": 369,
"स्पष्ट": 370,
"शुरुआती": 371
},
"merges": [
[
"ह",
"ै"
],
[
"त",
"ा"
],
[
"फ",
"ु"
],
[
"फु",
"स"
],
[
"क",
"ी"
],
[
"च",
"ा"
],
[
"े",
"ं"
],
[
"न",
"े"
],
[
"र",
"े"
],
[
"म",
"ें"
],
[
"क",
"ा"
],
[
"ँ",
"द"
],
[
"ल",
"ा"
],
[
"स",
"े"
],
[
"चा",
"ँद"
],
[
"ा",
"ह"
],
[
"फुस",
"फुस"
],
[
"क",
"े"
],
[
"ता",
"रे"
],
[
"ाह",
"ट"
],
[
"फुसफुस",
"ाहट"
],
[
"ह",
"ो"
],
[
"त",
"ी"
],
[
"प",
"ा"
],
[
"न",
"ा"
],
[
"क",
"ो"
],
[
"स",
"्"
],
[
"्",
"र"
],
[
"ग",
"ि"
],
[
"पा",
"ला"
],
[
"गि",
"र"
],
[
"त",
"े"
],
[
"ो",
"ं"
],
[
"क",
"र"
],
[
"ज",
"ा"
],
[
"गिर",
"ने"
],
[
"ं",
"ड"
],
[
"र",
"ा"
],
[
"ब",
"ा"
],
[
"य",
"ा"
],
[
"क",
"्"
],
[
"ठ",
"ंड"
],
[
"द",
"े"
],
[
"न",
"ी"
],
[
"म",
"ा"
],
[
"र",
"ह"
],
[
"र",
"्"
],
[
"ि",
"ए"
],
[
"ि",
"त"
],
[
"है",
"ं"
],
[
"इ",
"ट"
],
[
"झ",
"े"
],
[
"ट",
"बा"
],
[
"फ",
"्र"
],
[
"म",
"ु"
],
[
"ॉ",
"स्"
],
[
"रा",
"त"
],
[
"टबा",
"इट"
],
[
"फ्र",
"ॉस्"
],
[
"मु",
"झे"
],
[
"फ्रॉस्",
"टबाइट"
],
[
"ं",
"ग"
],
[
"औ",
"र"
],
[
"ल",
"ग"
],
[
"स",
"म"
],
[
"स",
"ु"
],
[
"ं",
"त"
],
[
"ए",
"क"
],
[
"ट",
"ू"
],
[
"ट",
"ते"
],
[
"त",
"्"
],
[
"म",
"ै"
],
[
"श",
"ा"
],
[
"ह",
"ा"
],
[
"दे",
"ख"
],
[
"टू",
"टते"
],
[
"मै",
"ं"
],
[
"क",
"ि"
],
[
"ा",
"व"
],
[
"चा",
"ह"
],
[
"सु",
"न"
],
[
"च",
"्"
],
[
"ड",
"़"
],
[
"द",
"ि"
],
[
"प",
"्र"
],
[
"म",
"ौ"
],
[
"र",
"ण"
],
[
"र",
"ी"
],
[
"ह",
"ु"
],
[
"ि",
"य"
],
[
"जा",
"ती"
],
[
"क्",
"ष"
],
[
"चाह",
"िए"
],
[
"मौ",
"सम"
],
[
"ग",
"र्"
],
[
"ढ",
"़"
],
[
"न",
"ु"
],
[
"प",
"र"
],
[
"प",
"्"
],
[
"ब",
"ढ़"
],
[
"भ",
"ाव"
],
[
"म",
"े"
],
[
"ल",
"िए"
],
[
"व",
"चा"
],
[
"स",
"ं"
],
[
"ि",
"क"
],
[
"का",
"रण"
],
[
"हो",
"ती"
],
[
"त्",
"वचा"
],
[
"शा",
"ंत"
],
[
"देख",
"कर"
],
[
"मैं",
"ने"
],
[
"च्",
"छ"
],
[
"िय",
"ों"
],
[
"क्ष",
"ण"
],
[
"गर्",
"म"
],
[
"अ",
"नु"
],
[
"आ",
"का"
],
[
"उ",
"स"
],
[
"क",
"ता"
],
[
"ग",
"या"
],
[
"द",
"ी"
],
[
"प",
"ह"
],
[
"भ",
"व"
],
[
"ल",
"क्षण"
],
[
"व",
"ा"
],
[
"स",
"ा"
],
[
"स",
"ू"
],
[
"स",
"र्"
],
[
"स",
"कता"
],
[
"ह",
"में"
],
[
"्",
"न"
],
[
"हो",
"ता"
],
[
"कर",
"ती"
],
[
"लग",
"ने"
],
[
"सुन",
"्न"
],
[
"प्र",
"भाव"
],
[
"प्",
"रे"
],
[
"अनु",
"भव"
],
[
"आका",
"श"
],
[
"सर्",
"दी"
],
[
"प्रभाव",
"ित"
],
[
"अ",
"क्"
],
[
"अ",
"ंग"
],
[
"अ",
"च्छ"
],
[
"क",
"हा"
],
[
"त",
"ि"
],
[
"ध",
"ी"
],
[
"प",
"न"
],
[
"प",
"ी"
],
[
"प",
"ै"
],
[
"ब",
"च"
],
[
"ब",
"चा"
],
[
"भ",
"ी"
],
[
"म",
"ी"
],
[
"ल",
"े"
],
[
"ल",
"्"
],
[
"ल",
"ों"
],
[
"ल",
"ियों"
],
[
"व",
"ी"
],
[
"श",
"ु"
],
[
"स",
"र"
],
[
"ह",
"ू"
],
[
"ि",
"या"
],
[
"ी",
"ं"
],
[
"ो",
"ग"
],
[
"्",
"य"
],
[
"ला",
"ती"
],
[
"पा",
"नी"
],
[
"स्",
"य"
],
[
"कर",
"ता"
],
[
"जा",
"ता"
],
[
"ठंड",
"े"
],
[
"मा",
"न"
],
[
"रह",
"ा"
],
[
"रह",
"स्य"
],
[
"सम",
"य"
],
[
"हा",
"थ"
],
[
"दि",
"ख"
],
[
"मे",
"रे"
],
[
"उस",
"की"
],
[
"पह",
"न"
],
[
"अक्",
"सर"
],
[
"धी",
"रे"
],
[
"पै",
"र"
],
[
"हू",
"ँ"
],
[
"ँ",
"ध"
],
[
"ं",
"ढ"
],
[
"ं",
"भी"
],
[
"अ",
"ध"
],
[
"अ",
"के"
],
[
"अ",
"ँध"
],
[
"आ",
"ती"
],
[
"आ",
"त्"
],
[
"इ",
"त"
],
[
"इ",
"च्छ"
],
[
"उ",
"ंग"
],
[
"ए",
"ं"
],
[
"ख",
"त"
],
[
"ख",
"ा"
],
[
"ग",
"ई"
],
[
"ग",
"ह"
],
[
"ग",
"ड़"
],
[
"ग",
"ंभी"
],
[
"घ",
"ट"
],
[
"च",
"ित"
],
[
"च",
"िक"
],
[
"ज",
"ल"
],
[
"ज",
"़"
],
[
"झ",
"ु"
],
[
"ठ",
"ंढ"
],
[
"ड",
"र"
],
[
"त",
"ु"
],
[
"थ",
"ा"
],
[
"थ",
"ी"
],
[
"द",
"ु"
],
[
"द",
"स्"
],
[
"न",
"ह"
],
[
"प",
"ष"
],
[
"प",
"ड़"
],
[
"प",
"सं"
],
[
"प",
"मान"
],
[
"ब",
"हु"
],
[
"म",
"य"
],
[
"म",
"लों"
],
[
"य",
"ु"
],
[
"य",
"ता"
],
[
"य",
"ोग"
],
[
"र",
"ु"
],
[
"र",
"ों"
],
[
"र",
"ंग"
],
[
"र",
"गड़"
],
[
"ल",
"ें"
],
[
"व",
"ि"
],
[
"व",
"्य"
],
[
"स",
"हा"
],
[
"स",
"पन"
],
[
"ह",
"ि"
],
[
"ह",
"मे"
],
[
"ह",
"वा"
],
[
"ू",
"री"
],
[
"्",
"ट"
],
[
"्",
"सा"
],
[
"ता",
"ने"
],
[
"ता",
"पमान"
],
[
"ता",
"रों"
],
[
"स्",
"पष"
],
[
"गिर",
"ते"
],
[
"कर",
"ें"
],
[
"कर",
"ने"
],
[
"जा",
"ए"
],
[
"जा",
"ते"
],
[
"बा",
"त"
],
[
"या",
"द"
],
[
"क्",
"ति"
],
[
"ठंड",
"ी"
],
[
"दे",
"ती"
],
[
"मा",
"मलों"
],
[
"ित",
"्सा"
],
[
"ंग",
"ी"
],
[
"सु",
"ना"
],
[
"देख",
"ना"
],
[
"सुन",
"ना"
],
[
"ड़",
"ित"
],
[
"प्र",
"क"
],
[
"हु",
"ए"
],
[
"शांत",
"ि"
],
[
"लक्षण",
"ों"
],
[
"सू",
"ज"
],
[
"प्रे",
"म"
],
[
"अंग",
"ु"
],
[
"अच्छ",
"ी"
],
[
"पी",
"ड़ित"
],
[
"बच",
"ना"
],
[
"शु",
"रु"
],
[
"रहस्य",
"मय"
],
[
"हाथ",
"ों"
],
[
"दिख",
"ते"
],
[
"पहन",
"ें"
],
[
"अध",
"िक"
],
[
"अके",
"ला"
],
[
"अँध",
"े"
],
[
"आत्",
"मा"
],
[
"इत",
"नी"
],
[
"इच्छ",
"ा"
],
[
"उंग",
"लियों"
],
[
"खत",
"रा"
],
[
"खा",
"स"
],
[
"गंभी",
"र"
],
[
"घट",
"ना"
],
[
"चिक",
"ित्सा"
],
[
"दस्",
"ताने"
],
[
"नह",
"ीं"
],
[
"पसं",
"द"
],
[
"बहु",
"त"
],
[
"व्य",
"क्ति"
],
[
"सहा",
"यता"
],
[
"सपन",
"ों"
],
[
"हमे",
"शा"
],
[
"स्पष",
"्ट"
],
[
"शुरु",
"आती"
]
]
}
}