X1A
/

UniPoll

X1A commited on Sep 12, 2023

Commit

8d8e03d

1 Parent(s): 4681f9e

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -35,7 +35,24 @@ import logging
 from typing import List, Tuple
 from transformers import AutoConfig
 from transformers.models.mt5.modeling_mt5 import MT5ForConditionalGeneration
-from utils import T5PegasusTokenizer
 def load_model(model_path):
     config = AutoConfig.from_pretrained(model_path)

 from typing import List, Tuple
 from transformers import AutoConfig
 from transformers.models.mt5.modeling_mt5 import MT5ForConditionalGeneration
+import jieba
+from functools import partial
+from transformers import BertTokenizer
+class T5PegasusTokenizer(BertTokenizer):
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.pre_tokenizer = partial(jieba.cut, HMM=False)
+    def _tokenize(self, text, *arg, **kwargs):
+        split_tokens = []
+        for text in self.pre_tokenizer(text):
+            if text in self.vocab:
+                split_tokens.append(text)
+            else:
+                split_tokens.extend(super()._tokenize(text))
+        return split_tokens
 def load_model(model_path):
     config = AutoConfig.from_pretrained(model_path)