SkyworkAIGC
/

SkyCode

Text Generation

text-generation-inference

Model card Files Files and versions

SkyWork commited on Dec 15, 2022

Commit

a852f27

·

1 Parent(s): 6fcd10a

Update tokenization_sky.py

Files changed (1) hide show

tokenization_sky.py +3 -3

tokenization_sky.py CHANGED Viewed

@@ -325,7 +325,7 @@ class SkyTokenizer(PreTrainedTokenizer):
     def _tokenize(self, text, **kwargs):
         """Tokenize a string."""
-        return self.trie.match(text, **kwargs)
     def _decode(self,
                token_ids: Union[int, List[int], "np.ndarray", "torch.Tensor", "tf.Tensor"],
@@ -393,7 +393,7 @@ class SkyTokenizer(PreTrainedTokenizer):
     ) -> BatchEncoding:
         def get_input_ids(text):
             if isinstance(text, str):
-                text_id = self.trie.match(text)
                 return text_id
             elif isinstance(text, list) and len(text) > 0 and isinstance(text[0], str):
                 return [self.trie.match(t, unk_id=self.unk_token_id) for t in text]
@@ -458,7 +458,7 @@ class SkyTokenizer(PreTrainedTokenizer):
     ) -> BatchEncoding:
         def get_input_ids(text):
             if isinstance(text, str):
-                text_id = self.trie.match(text)
                 return text_id
             elif isinstance(text, list) and len(text) > 0 and isinstance(text[0], str):
                 return [self.trie.match(t, unk_id=self.unk_token_id) for t in text]

     def _tokenize(self, text, **kwargs):
         """Tokenize a string."""
+        return self.trie.match(text, unk_id=self.unk_token_id, **kwargs)
     def _decode(self,
                token_ids: Union[int, List[int], "np.ndarray", "torch.Tensor", "tf.Tensor"],
     ) -> BatchEncoding:
         def get_input_ids(text):
             if isinstance(text, str):
+                text_id = self.trie.match(text, unk_id=self.unk_token_id)
                 return text_id
             elif isinstance(text, list) and len(text) > 0 and isinstance(text[0], str):
                 return [self.trie.match(t, unk_id=self.unk_token_id) for t in text]
     ) -> BatchEncoding:
         def get_input_ids(text):
             if isinstance(text, str):
+                text_id = self.trie.match(text, unk_id=self.unk_token_id)
                 return text_id
             elif isinstance(text, list) and len(text) > 0 and isinstance(text[0], str):
                 return [self.trie.match(t, unk_id=self.unk_token_id) for t in text]