vadakayil-llm-tiny / tokenizer.json
mountainrock's picture
Upload folder using huggingface_hub
2947702 verified
{
"vocab_size": 5000,
"token_type": "char",
"vocab": [
"<PAD>",
"<UNK>",
"<EOS>",
"<BOS>",
" ",
"e",
"t",
"s",
"i",
"n",
"a",
"o",
"r",
"h",
"l",
"c",
"u",
"d",
"m",
"p",
"g",
"f",
"w",
".",
"b",
"\n",
"y",
"v",
":",
"q",
"T",
"k",
",",
"A",
"W",
"M",
"?",
"x",
"0",
"Q",
"I",
"3",
"V",
"C",
"S",
"R",
"E",
"P",
"H",
"-",
"—",
"'",
"L",
"U",
"1",
"N",
"D",
"j",
"B",
"z",
"K",
"J",
"2",
"(",
")",
"G",
"O",
"5",
"9",
";",
"Z",
"–",
"Y",
"!"
],
"special_tokens": {
"pad_token": "<PAD>",
"unk_token": "<UNK>",
"eos_token": "<EOS>",
"bos_token": "<BOS>"
}
}