polyglot-ko-v2-1.3b / tokenizer_config.json
hac541309's picture
add first tokenizer (#1)
967d245
{
"additional_special_tokens": [
"<|sep|>",
"<|s|>",
"<|/s|>",
"<|pad|>",
"<|bos|>",
"<|eos|>",
"<|endoftext|>",
"<|fim_prefix|>",
"<|fim_suffix|>",
"<|fim_middle|>",
"<|translate|>",
"<|startofprompt|>",
"<|endofprompt|>",
"<|user|>",
"<|assistant|>",
"<|system|>",
"<|meta|>",
"<|meta_start|>",
"<|meta_end|>",
"<|mask|>",
"<|mask1|>",
"<|cls|>",
"<|cls_vision|>",
"<|cls_audio|>",
"<|tel_start|>",
"<|tel_end|>",
"<|rrn_start|>",
"<|rrn_end|>",
"<|url_start|>",
"<|url_end|>",
"<|email_start|>",
"<|email_end|>",
"<|crd_start|>",
"<|crd_end|>",
"<|acc_start|>",
"<|acc_end|>",
"<|name_start|>",
"<|name_end|>",
"<|org_start|>",
"<|org_end|>",
"<|sos|>",
"<|unk|>",
"<|sep|>",
"<|mask|>",
"<|unused0|>",
"<|unused1|>",
"<|unused2|>",
"<|unused3|>",
"<|unused4|>",
"<|unused5|>",
"<|unused6|>",
"<|unused7|>",
"<|unused8|>",
"<|unused9|>",
"<|unused10|>",
"<|unused11|>",
"<|unused12|>",
"<|unused13|>",
"<|unused14|>",
"<|unused15|>",
"<|unused16|>",
"<|unused17|>",
"<|unused18|>",
"<|unused19|>",
"<|unused20|>",
"<|unused21|>",
"<|unused22|>",
"<|unused23|>",
"<|unused24|>",
"<|unused25|>",
"<|unused26|>",
"<|unused27|>",
"<|unused28|>",
"<|unused29|>",
"<|unused30|>",
"<|unused31|>",
"<|unused32|>",
"<|unused33|>",
"<|unused34|>",
"<|unused35|>",
"<|unused36|>",
"<|unused37|>",
"<|unused38|>",
"<|unused39|>",
"<|unused40|>",
"<|unused41|>",
"<|unused42|>",
"<|unused43|>",
"<|unused44|>",
"<|unused45|>",
"<|unused46|>",
"<|unused47|>",
"<|unused48|>",
"<|unused49|>",
"<|unused50|>",
"<|unused51|>",
"<|unused52|>",
"<|unused53|>",
"<|unused54|>",
"<|unused55|>",
"<|unused56|>",
"<|unused57|>",
"<|unused58|>",
"<|unused59|>",
"<|unused60|>",
"<|unused61|>",
"<|unused62|>",
"<|unused63|>",
"<|unused64|>",
"<|unused65|>",
"<|unused66|>",
"<|unused67|>",
"<|unused68|>",
"<|unused69|>",
"<|unused70|>",
"<|unused71|>",
"<|unused72|>",
"<|unused73|>",
"<|unused74|>",
"<|unused75|>"
],
"bos_token": "<|bos|>",
"cls_token": "<|cls|>",
"eos_token": "<|eos|>",
"mask_token": "<|mask|>",
"model_max_length": 1000000000000000019884624838656,
"pad_token": "<|pad|>",
"sep_token": "<|sep|>",
"tokenizer_class": "PreTrainedTokenizerFast",
"vocab_size": 102400
}