chatterbox-multilingual-ONNX

hans00 commited on May 31

Commit

e53e5cd

verified ·

1 Parent(s): d850d55

fix(tokenizer): add bare-name special tokens (BOS/EOS/START_SPEECH/STOP_SPEECH/EXAGGERATION) so post_processor template lookups resolve to correct IDs

The template references 'BOS'/'EOS'/'START_SPEECH'/'EXAGGERATION' but those
names aren't in added_tokens — they were silently becoming UNK (1). transformers.js
looks up post-processor template names via added_tokens_map, so adding entries
with content=BOS / id=255 etc fixes the resolved sequence to match the English
model template.

Files changed (1) hide show

tokenizer.json +182 -29

tokenizer.json CHANGED Viewed

@@ -12,6 +12,15 @@
       "rstrip": false,
       "normalized": false
     },
     {
       "id": 1,
       "special": true,
@@ -39,6 +48,15 @@
       "rstrip": false,
       "normalized": false
     },
     {
       "id": 604,
       "content": "[UH]",
@@ -1064,6 +1082,33 @@
       "rstrip": false,
       "normalized": false,
       "special": true
     }
   ],
   "normalizer": {
@@ -1071,7 +1116,9 @@
     "normalizers": [
       {
         "type": "Replace",
-        "pattern": { "String": " " },
         "content": "[SPACE]"
       }
     ]
@@ -1082,47 +1129,153 @@
   "post_processor": {
     "type": "TemplateProcessing",
     "single": [
-      { "SpecialToken": { "id": "EXAGGERATION", "type_id": 0 } },
-      { "SpecialToken": { "id": "BOS", "type_id": 0 } },
-      { "Sequence": { "id": "A", "type_id": 0 } },
-      { "SpecialToken": { "id": "EOS", "type_id": 0 } },
-      { "SpecialToken": { "id": "START_SPEECH", "type_id": 0 } },
-      { "SpecialToken": { "id": "START_SPEECH", "type_id": 0 } }
     ],
     "pair": [
-      { "SpecialToken": { "id": "EXAGGERATION", "type_id": 0 } },
-      { "SpecialToken": { "id": "BOS", "type_id": 0 } },
-      { "Sequence": { "id": "A", "type_id": 0 } },
-      { "SpecialToken": { "id": "EOS", "type_id": 0 } },
-      { "SpecialToken": { "id": "START_SPEECH", "type_id": 0 } },
-      { "SpecialToken": { "id": "START_SPEECH", "type_id": 0 } },
-      { "SpecialToken": { "id": "EXAGGERATION", "type_id": 1 } },
-      { "SpecialToken": { "id": "BOS", "type_id": 1 } },
-      { "Sequence": { "id": "B", "type_id": 1 } },
-      { "SpecialToken": { "id": "EOS", "type_id": 1 } },
-      { "SpecialToken": { "id": "START_SPEECH", "type_id": 1 } },
-      { "SpecialToken": { "id": "START_SPEECH", "type_id": 1 } }
     ],
     "special_tokens": {
       "BOS": {
         "id": "BOS",
-        "ids": [255],
-        "tokens": ["<s>"]
       },
       "EOS": {
         "id": "EOS",
-        "ids": [0],
-        "tokens": ["</s>"]
       },
       "EXAGGERATION": {
         "id": "EXAGGERATION",
-        "ids": [6563],
-        "tokens": ["<EXAGGERATION>"]
       },
       "START_SPEECH": {
         "id": "START_SPEECH",
-        "ids": [6561],
-        "tokens": ["<START_SPEECH>"]
       }
     }
   },
@@ -3539,7 +3692,7 @@
       "ώ": 2401,
       "Έ": 2402,
       "Ό": 2403,
-      "Ή": 2404,
       "ž": 2405,
       "š": 2406,
       "ū": 2407,
@@ -3589,7 +3742,7 @@
       "ụ": 2451,
       "ọ": 2452,
       "ạ": 2453
-          },
     "merges": [
       "t h",
       "i n",

       "rstrip": false,
       "normalized": false
     },
+    {
+      "id": 0,
+      "content": "EOS",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
     {
       "id": 1,
       "special": true,
       "rstrip": false,
       "normalized": false
     },
+    {
+      "id": 255,
+      "content": "BOS",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
     {
       "id": 604,
       "content": "[UH]",
       "rstrip": false,
       "normalized": false,
       "special": true
+    },
+    {
+      "id": 6561,
+      "content": "START_SPEECH",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 6562,
+      "content": "STOP_SPEECH",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 6563,
+      "content": "EXAGGERATION",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "normalizer": {
     "normalizers": [
       {
         "type": "Replace",
+        "pattern": {
+          "String": " "
+        },
         "content": "[SPACE]"
       }
     ]
   "post_processor": {
     "type": "TemplateProcessing",
     "single": [
+      {
+        "SpecialToken": {
+          "id": "EXAGGERATION",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "BOS",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "EOS",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "START_SPEECH",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "START_SPEECH",
+          "type_id": 0
+        }
+      }
     ],
     "pair": [
+      {
+        "SpecialToken": {
+          "id": "EXAGGERATION",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "BOS",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "EOS",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "START_SPEECH",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "START_SPEECH",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "EXAGGERATION",
+          "type_id": 1
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "BOS",
+          "type_id": 1
+        }
+      },
+      {
+        "Sequence": {
+          "id": "B",
+          "type_id": 1
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "EOS",
+          "type_id": 1
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "START_SPEECH",
+          "type_id": 1
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "START_SPEECH",
+          "type_id": 1
+        }
+      }
     ],
     "special_tokens": {
       "BOS": {
         "id": "BOS",
+        "ids": [
+          255
+        ],
+        "tokens": [
+          "<s>"
+        ]
       },
       "EOS": {
         "id": "EOS",
+        "ids": [
+          0
+        ],
+        "tokens": [
+          "</s>"
+        ]
       },
       "EXAGGERATION": {
         "id": "EXAGGERATION",
+        "ids": [
+          6563
+        ],
+        "tokens": [
+          "<EXAGGERATION>"
+        ]
       },
       "START_SPEECH": {
         "id": "START_SPEECH",
+        "ids": [
+          6561
+        ],
+        "tokens": [
+          "<START_SPEECH>"
+        ]
       }
     }
   },
       "ώ": 2401,
       "Έ": 2402,
       "Ό": 2403,
+      "Ή": 2404,
       "ž": 2405,
       "š": 2406,
       "ū": 2407,
       "ụ": 2451,
       "ọ": 2452,
       "ạ": 2453
+    },
     "merges": [
       "t h",
       "i n",