omarelsayeed
/

Pretrained_Arabert

Feature Extraction

generated_from_keras_callback

text-embeddings-inference

Model card Files Files and versions

Pretrained_Arabert / tokenizer_config.json

omarelsayeed's picture

Upload tokenizer

5502289 over 2 years ago

785 Bytes

	{
	"clean_up_tokenization_spaces": true,
	"cls_token": "[CLS]",
	"do_basic_tokenize": true,
	"do_lower_case": false,
	"mask_token": "[MASK]",
	"max_len": 512,
	"model_max_length": 512,
	"never_split": [
	"+ك",
	"+كما",
	"ك+",
	"+وا",
	"+ين",
	"و+",
	"+كن",
	"+ان",
	"+هم",
	"+ة",
	"[بريد]",
	"لل+",
	"+ي",
	"+ت",
	"+ن",
	"س+",
	"ل+",
	"[مستخدم]",
	"+كم",
	"+ا",
	"ب+",
	"ف+",
	"+نا",
	"+ها",
	"+ون",
	"+هما",
	"ال+",
	"+ه",
	"+هن",
	"+ات",
	"[رابط]"
	],
	"pad_token": "[PAD]",
	"sep_token": "[SEP]",
	"strip_accents": null,
	"tokenize_chinese_chars": true,
	"tokenizer_class": "BertTokenizer",
	"unk_token": "[UNK]"
	}