Training done

Browse files

Files changed (4) hide show

added_tokens.json +8 -8
special_tokens_map.json +6 -42
tokenizer.json +0 -0
tokenizer_config.json +10 -161

added_tokens.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-  "</s_firstSurname>": 57534,
   "</s_name>": 57532,
-  "</s_number>": 57530,
-  "</s_secondSurname>": 57528,
-  "</s_type>": 57526,
   "<s_cord-v2>": 57535,
-  "<s_firstSurname>": 57533,
   "<s_iitcdip>": 57523,
   "<s_name>": 57531,
-  "<s_number>": 57529,
-  "<s_secondSurname>": 57527,
   "<s_synthdog>": 57524,
-  "<s_type>": 57525,
   "<sep/>": 57522
 }

 {
+  "</s_firstSurname>": 57528,
   "</s_name>": 57532,
+  "</s_number>": 57526,
+  "</s_secondSurname>": 57530,
+  "</s_type>": 57534,
   "<s_cord-v2>": 57535,
+  "<s_firstSurname>": 57527,
   "<s_iitcdip>": 57523,
   "<s_name>": 57531,
+  "<s_number>": 57525,
+  "<s_secondSurname>": 57529,
   "<s_synthdog>": 57524,
+  "<s_type>": 57533,
   "<sep/>": 57522
 }

special_tokens_map.json CHANGED Viewed

@@ -3,27 +3,9 @@
     "<s_iitcdip>",
     "<s_synthdog>"
   ],
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "cls_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
   "mask_token": {
     "content": "<mask>",
     "lstrip": true,
@@ -31,25 +13,7 @@
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "sep_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
 }

     "<s_iitcdip>",
     "<s_synthdog>"
   ],
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
   "mask_token": {
     "content": "<mask>",
     "lstrip": true,
     "rstrip": false,
     "single_word": false
   },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
 }

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,173 +1,22 @@
 {
-  "added_tokens_decoder": {
-    "0": {
-      "content": "<s>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "1": {
-      "content": "<pad>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "2": {
-      "content": "</s>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "3": {
-      "content": "<unk>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "57521": {
-      "content": "<mask>",
-      "lstrip": true,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "57522": {
-      "content": "<sep/>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "57523": {
-      "content": "<s_iitcdip>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "57524": {
-      "content": "<s_synthdog>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "57525": {
-      "content": "<s_type>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "57526": {
-      "content": "</s_type>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "57527": {
-      "content": "<s_secondSurname>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "57528": {
-      "content": "</s_secondSurname>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "57529": {
-      "content": "<s_number>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "57530": {
-      "content": "</s_number>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "57531": {
-      "content": "<s_name>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "57532": {
-      "content": "</s_name>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "57533": {
-      "content": "<s_firstSurname>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "57534": {
-      "content": "</s_firstSurname>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "57535": {
-      "content": "<s_cord-v2>",
-      "lstrip": false,
-      "normalized": true,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    }
-  },
-  "additional_special_tokens": [
-    "<s_iitcdip>",
-    "<s_synthdog>"
-  ],
   "bos_token": "<s>",
-  "clean_up_tokenization_spaces": false,
   "cls_token": "<s>",
   "eos_token": "</s>",
-  "extra_special_tokens": {},
-  "mask_token": "<mask>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "processor_class": "DonutProcessor",
   "sep_token": "</s>",
   "sp_model_kwargs": {},
   "tokenizer_class": "XLMRobertaTokenizer",
   "unk_token": "<unk>"
 }

 {
   "bos_token": "<s>",
   "cls_token": "<s>",
   "eos_token": "</s>",
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
   "model_max_length": 1000000000000000019884624838656,
+  "name_or_path": "naver-clova-ix/donut-base",
   "pad_token": "<pad>",
   "processor_class": "DonutProcessor",
   "sep_token": "</s>",
   "sp_model_kwargs": {},
+  "special_tokens_map_file": null,
   "tokenizer_class": "XLMRobertaTokenizer",
   "unk_token": "<unk>"
 }