mari-nllb-tokenizer / added_tokens.json
LMSerg's picture
Добавлен марийский язык
acad440 verified
{
"<mask>": 8193,
"ace_Arab": 8194,
"ace_Latn": 8195,
"acm_Arab": 8196,
"acq_Arab": 8197,
"aeb_Arab": 8198,
"afr_Latn": 8199,
"ajp_Arab": 8200,
"aka_Latn": 8201,
"als_Latn": 8355,
"amh_Ethi": 8202,
"apc_Arab": 8203,
"arb_Arab": 8204,
"ars_Arab": 8205,
"ary_Arab": 8206,
"arz_Arab": 8207,
"asm_Beng": 8208,
"ast_Latn": 8209,
"awa_Deva": 8210,
"ayr_Latn": 8211,
"azb_Arab": 8212,
"azj_Latn": 8213,
"bak_Cyrl": 8214,
"bam_Latn": 8215,
"ban_Latn": 8216,
"bel_Cyrl": 8217,
"bem_Latn": 8218,
"ben_Beng": 8219,
"bho_Deva": 8220,
"bjn_Arab": 8221,
"bjn_Latn": 8222,
"bod_Tibt": 8223,
"bos_Latn": 8224,
"bug_Latn": 8225,
"bul_Cyrl": 8226,
"cat_Latn": 8227,
"ceb_Latn": 8228,
"ces_Latn": 8229,
"cjk_Latn": 8230,
"ckb_Arab": 8231,
"crh_Latn": 8232,
"cym_Latn": 8233,
"dan_Latn": 8234,
"deu_Latn": 8235,
"dik_Latn": 8236,
"dyu_Latn": 8237,
"dzo_Tibt": 8238,
"ell_Grek": 8239,
"eng_Latn": 8240,
"epo_Latn": 8241,
"est_Latn": 8242,
"eus_Latn": 8243,
"ewe_Latn": 8244,
"fao_Latn": 8245,
"fij_Latn": 8247,
"fin_Latn": 8248,
"fon_Latn": 8249,
"fra_Latn": 8250,
"fur_Latn": 8251,
"fuv_Latn": 8252,
"gaz_Latn": 8328,
"gla_Latn": 8253,
"gle_Latn": 8254,
"glg_Latn": 8255,
"grn_Latn": 8256,
"guj_Gujr": 8257,
"hat_Latn": 8258,
"hau_Latn": 8259,
"heb_Hebr": 8260,
"hin_Deva": 8261,
"hne_Deva": 8262,
"hrv_Latn": 8263,
"hun_Latn": 8264,
"hye_Armn": 8265,
"ibo_Latn": 8266,
"ilo_Latn": 8267,
"ind_Latn": 8268,
"isl_Latn": 8269,
"ita_Latn": 8270,
"jav_Latn": 8271,
"jpn_Jpan": 8272,
"kab_Latn": 8273,
"kac_Latn": 8274,
"kam_Latn": 8275,
"kan_Knda": 8276,
"kas_Arab": 8277,
"kas_Deva": 8278,
"kat_Geor": 8279,
"kaz_Cyrl": 8282,
"kbp_Latn": 8283,
"kea_Latn": 8284,
"khk_Cyrl": 8315,
"khm_Khmr": 8285,
"kik_Latn": 8286,
"kin_Latn": 8287,
"kir_Cyrl": 8288,
"kmb_Latn": 8289,
"kmr_Latn": 8292,
"knc_Arab": 8280,
"knc_Latn": 8281,
"kon_Latn": 8290,
"kor_Hang": 8291,
"lao_Laoo": 8293,
"lij_Latn": 8295,
"lim_Latn": 8296,
"lin_Latn": 8297,
"lit_Latn": 8298,
"lmo_Latn": 8299,
"ltg_Latn": 8300,
"ltz_Latn": 8301,
"lua_Latn": 8302,
"lug_Latn": 8303,
"luo_Latn": 8304,
"lus_Latn": 8305,
"lvs_Latn": 8294,
"mag_Deva": 8306,
"mai_Deva": 8307,
"mal_Mlym": 8308,
"mar_Deva": 8309,
"mhr_Cyrl": 8396,
"min_Latn": 8310,
"mkd_Cyrl": 8311,
"mlt_Latn": 8313,
"mni_Beng": 8314,
"mos_Latn": 8316,
"mri_Latn": 8317,
"mya_Mymr": 8319,
"nld_Latn": 8320,
"nno_Latn": 8321,
"nob_Latn": 8322,
"npi_Deva": 8323,
"nso_Latn": 8324,
"nus_Latn": 8325,
"nya_Latn": 8326,
"oci_Latn": 8327,
"ory_Orya": 8329,
"pag_Latn": 8330,
"pan_Guru": 8331,
"pap_Latn": 8332,
"pbt_Arab": 8336,
"pes_Arab": 8246,
"plt_Latn": 8312,
"pol_Latn": 8333,
"por_Latn": 8334,
"prs_Arab": 8335,
"quy_Latn": 8337,
"ron_Latn": 8338,
"run_Latn": 8339,
"rus_Cyrl": 8340,
"sag_Latn": 8341,
"san_Deva": 8342,
"sat_Beng": 8343,
"scn_Latn": 8344,
"shn_Mymr": 8345,
"sin_Sinh": 8346,
"slk_Latn": 8347,
"slv_Latn": 8348,
"smo_Latn": 8349,
"sna_Latn": 8350,
"snd_Arab": 8351,
"som_Latn": 8352,
"sot_Latn": 8353,
"spa_Latn": 8354,
"srd_Latn": 8356,
"srp_Cyrl": 8357,
"ssw_Latn": 8358,
"sun_Latn": 8359,
"swe_Latn": 8360,
"swh_Latn": 8361,
"szl_Latn": 8362,
"tam_Taml": 8363,
"taq_Latn": 8370,
"taq_Tfng": 8371,
"tat_Cyrl": 8364,
"tel_Telu": 8365,
"tgk_Cyrl": 8366,
"tgl_Latn": 8367,
"tha_Thai": 8368,
"tir_Ethi": 8369,
"tpi_Latn": 8372,
"tsn_Latn": 8373,
"tso_Latn": 8374,
"tuk_Latn": 8375,
"tum_Latn": 8376,
"tur_Latn": 8377,
"twi_Latn": 8378,
"tzm_Tfng": 8379,
"uig_Arab": 8380,
"ukr_Cyrl": 8381,
"umb_Latn": 8382,
"urd_Arab": 8383,
"uzn_Latn": 8384,
"vec_Latn": 8385,
"vie_Latn": 8386,
"war_Latn": 8387,
"wol_Latn": 8388,
"xho_Latn": 8389,
"ydd_Hebr": 8390,
"yor_Latn": 8391,
"yue_Hant": 8392,
"zho_Hans": 8393,
"zho_Hant": 8394,
"zsm_Latn": 8318,
"zul_Latn": 8395
}