Zeb commited on May 15, 2025

Commit

64b3309

1 Parent(s): 38928ba

Remove normalizers

Browse files

Files changed (17) hide show

.DS_Store +0 -0
frequencymulti_128000/tokenizer.json +1 -8
frequencymulti_16000/tokenizer.json +1 -8
frequencymulti_256000/tokenizer.json +2 -2
frequencymulti_32000/tokenizer.json +1 -8
frequencymulti_64000/tokenizer.json +1 -8
frequencymulti_8064/tokenizer.json +1 -8
fw57Mmulti_Entropy_thresholdB_16000/tokenizer.json +1 -8
fw57Mmulti_Entropy_thresholdB_32000/tokenizer.json +1 -8
fw57Mmulti_Entropy_thresholdB_64000/tokenizer.json +1 -8
fw57Mmulti_Entropy_thresholdM_16000/tokenizer.json +1 -8
fw57Mmulti_Entropy_thresholdM_32000/tokenizer.json +1 -8
fw57Mmulti_Entropy_thresholdM_64000/tokenizer.json +1 -8
fw57Mmulti_Entropy_thresholdM_8064/tokenizer.json +1 -8
fw57Mmulti_Surprisal_thresholdB_16000/tokenizer.json +1 -8
fw57Mmulti_Surprisal_thresholdB_32000/tokenizer.json +1 -8
fw57Mmulti_Surprisal_thresholdB_64000/tokenizer.json +1 -8

.DS_Store DELETED Viewed

Binary file (12.3 kB)

frequencymulti_128000/tokenizer.json CHANGED Viewed

@@ -22,14 +22,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

frequencymulti_16000/tokenizer.json CHANGED Viewed

@@ -22,14 +22,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

frequencymulti_256000/tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed37c183a6fdf658a259f23b64ca57aab65a1b96dbcb8343b06e108fe6fbec55
-size 20274248

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c1ac462fae29c81b13d1ee24e1eedfe812d9c0d374ff3c61ba636cebaf52fd7
+size 20274158

frequencymulti_32000/tokenizer.json CHANGED Viewed

@@ -22,14 +22,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

frequencymulti_64000/tokenizer.json CHANGED Viewed

@@ -22,14 +22,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

frequencymulti_8064/tokenizer.json CHANGED Viewed

@@ -22,14 +22,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

fw57Mmulti_Entropy_thresholdB_16000/tokenizer.json CHANGED Viewed

@@ -31,14 +31,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

fw57Mmulti_Entropy_thresholdB_32000/tokenizer.json CHANGED Viewed

@@ -31,14 +31,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

fw57Mmulti_Entropy_thresholdB_64000/tokenizer.json CHANGED Viewed

@@ -31,14 +31,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

fw57Mmulti_Entropy_thresholdM_16000/tokenizer.json CHANGED Viewed

@@ -22,14 +22,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

fw57Mmulti_Entropy_thresholdM_32000/tokenizer.json CHANGED Viewed

@@ -22,14 +22,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

fw57Mmulti_Entropy_thresholdM_64000/tokenizer.json CHANGED Viewed

@@ -22,14 +22,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

fw57Mmulti_Entropy_thresholdM_8064/tokenizer.json CHANGED Viewed

@@ -22,14 +22,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

fw57Mmulti_Surprisal_thresholdB_16000/tokenizer.json CHANGED Viewed

@@ -31,14 +31,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

fw57Mmulti_Surprisal_thresholdB_32000/tokenizer.json CHANGED Viewed

@@ -31,14 +31,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

fw57Mmulti_Surprisal_thresholdB_64000/tokenizer.json CHANGED Viewed

@@ -31,14 +31,7 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "NFD"
-      }
-    ]
-  },
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,

       "special": true
     }
   ],
+  "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": true,