add tokenizer

Files changed (2) hide show

special_tokens_map.json CHANGED Viewed

	@@ -1 +1,9 @@
1	- {~~"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": "<mask>"}~~

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer_config.json CHANGED Viewed

	@@ -1 +1,23 @@
1	- {"bos_token": "<s>", "eos_token": "</s>", "sep_token": "</s>", "cls_token": "<s>", "unk_token": "<unk>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "model_max_length": 512, "special_tokens_map_file": "input_models/johngiorgi-declutr-small-all-paraphrase-multilingual/0_Transformer/special_tokens_map.json", "full_tokenizer_file": null, "name_or_path": "moma1820/new_sen_xlmr", "sp_model_kwargs": {}, "truncation": true, "tokenizer_class": "XLMRobertaTokenizer"}

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "full_tokenizer_file": null,
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 512,
+  "name_or_path": "sentence-transformers/paraphrase-xlm-r-multilingual-v1",
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "special_tokens_map_file": "input_models/johngiorgi-declutr-small-all-paraphrase-multilingual/0_Transformer/special_tokens_map.json",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "truncation": true,
+  "unk_token": "<unk>"
+}