Upload tokenizer

Browse files

Files changed (6) hide show

added_tokens.json +106 -0
merges.txt +0 -0
special_tokens_map.json +5 -0
tokenizer.json +0 -0
tokenizer_config.json +10 -0
vocab.json +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,106 @@

+{
+  "[ex0]": 31972,
+  "[ex10]": 31982,
+  "[ex11]": 31983,
+  "[ex12]": 31984,
+  "[ex13]": 31985,
+  "[ex14]": 31986,
+  "[ex15]": 31987,
+  "[ex16]": 31988,
+  "[ex17]": 31989,
+  "[ex18]": 31990,
+  "[ex19]": 31991,
+  "[ex1]": 31973,
+  "[ex20]": 31992,
+  "[ex21]": 31993,
+  "[ex22]": 31994,
+  "[ex23]": 31995,
+  "[ex24]": 31996,
+  "[ex25]": 31997,
+  "[ex26]": 31998,
+  "[ex27]": 31999,
+  "[ex28]": 32000,
+  "[ex29]": 32001,
+  "[ex2]": 31974,
+  "[ex30]": 32002,
+  "[ex31]": 32003,
+  "[ex32]": 32004,
+  "[ex33]": 32005,
+  "[ex34]": 32006,
+  "[ex35]": 32007,
+  "[ex36]": 32008,
+  "[ex37]": 32009,
+  "[ex38]": 32010,
+  "[ex39]": 32011,
+  "[ex3]": 31975,
+  "[ex40]": 32012,
+  "[ex41]": 32013,
+  "[ex42]": 32014,
+  "[ex43]": 32015,
+  "[ex44]": 32016,
+  "[ex45]": 32017,
+  "[ex46]": 32018,
+  "[ex47]": 32019,
+  "[ex48]": 32020,
+  "[ex49]": 32021,
+  "[ex4]": 31976,
+  "[ex50]": 32022,
+  "[ex51]": 32023,
+  "[ex52]": 32024,
+  "[ex53]": 32025,
+  "[ex54]": 32026,
+  "[ex55]": 32027,
+  "[ex56]": 32028,
+  "[ex57]": 32029,
+  "[ex58]": 32030,
+  "[ex59]": 32031,
+  "[ex5]": 31977,
+  "[ex60]": 32032,
+  "[ex61]": 32033,
+  "[ex62]": 32034,
+  "[ex63]": 32035,
+  "[ex64]": 32036,
+  "[ex65]": 32037,
+  "[ex66]": 32038,
+  "[ex67]": 32039,
+  "[ex68]": 32040,
+  "[ex69]": 32041,
+  "[ex6]": 31978,
+  "[ex70]": 32042,
+  "[ex71]": 32043,
+  "[ex72]": 32044,
+  "[ex73]": 32045,
+  "[ex74]": 32046,
+  "[ex75]": 32047,
+  "[ex76]": 32048,
+  "[ex77]": 32049,
+  "[ex78]": 32050,
+  "[ex79]": 32051,
+  "[ex7]": 31979,
+  "[ex80]": 32052,
+  "[ex81]": 32053,
+  "[ex82]": 32054,
+  "[ex83]": 32055,
+  "[ex84]": 32056,
+  "[ex85]": 32057,
+  "[ex86]": 32058,
+  "[ex87]": 32059,
+  "[ex88]": 32060,
+  "[ex89]": 32061,
+  "[ex8]": 31980,
+  "[ex90]": 32062,
+  "[ex91]": 32063,
+  "[ex92]": 32064,
+  "[ex93]": 32065,
+  "[ex94]": 32066,
+  "[ex95]": 32067,
+  "[ex96]": 32068,
+  "[ex97]": 32069,
+  "[ex98]": 32070,
+  "[ex99]": 32071,
+  "[ex9]": 31981,
+  "[frl]": 31970,
+  "[mrl]": 31971,
+  "ext.": 32072,
+  "int.": 32073
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "name_or_path": "gpt2",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff