katuni4ka
/

tiny-random-chatglm2

Feature Extraction

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

katuni4ka commited on Mar 1, 2024

Commit

9cb12a8

·

verified ·

1 Parent(s): 0be9a13

Update tokenization_chatglm.py

Files changed (1) hide show

tokenization_chatglm.py +2 -5

tokenization_chatglm.py CHANGED Viewed

@@ -67,18 +67,15 @@ class ChatGLMTokenizer(PreTrainedTokenizer):
     def __init__(self, vocab_file, padding_side="left", clean_up_tokenization_spaces=False, **kwargs):
         self.name = "GLMTokenizer"
         self.vocab_file = vocab_file
         self.tokenizer = SPTokenizer(vocab_file)
-        kwargs.pop("eos_token", None)
-        kwargs.pop("pad_token", None)
-        kwargs.pop("unk_token", None)
         self.special_tokens = {
             "<bos>": self.tokenizer.bos_id,
             "<eos>": self.tokenizer.eos_id,
             "<pad>": self.tokenizer.pad_id
         }
-        super().__init__(padding_side=padding_side, clean_up_tokenization_spaces=clean_up_tokenization_spaces, **kwargs)
     def get_command(self, token):
         if token in self.special_tokens:

     def __init__(self, vocab_file, padding_side="left", clean_up_tokenization_spaces=False, **kwargs):
         self.name = "GLMTokenizer"
+        super().__init__(padding_side=padding_side, clean_up_tokenization_spaces=clean_up_tokenization_spaces, **kwargs)
         self.vocab_file = vocab_file
         self.tokenizer = SPTokenizer(vocab_file)
         self.special_tokens = {
             "<bos>": self.tokenizer.bos_id,
             "<eos>": self.tokenizer.eos_id,
             "<pad>": self.tokenizer.pad_id
         }
     def get_command(self, token):
         if token in self.special_tokens: