MagedSaeed
/

APCD-Plus-meter-classification-model

Text Classification

model_hub_mixin

pytorch_model_hub_mixin

Model card Files Files and versions

MagedSaeed commited on Mar 17, 2025

Commit

26487ca

·

verified ·

1 Parent(s): 99c923e

Update tokenizer_script.py

Files changed (1) hide show

tokenizer_script.py +1 -2

tokenizer_script.py CHANGED Viewed

@@ -76,7 +76,7 @@ class CharacterTokenizer(PreTrainedTokenizer):
         return (vocab_file,)
-    def batch_encode(self, texts, add_special_tokens=False, padding=False, max_length=None):
         encoded_texts = [self.encode(text, add_special_tokens) for text in texts]
         # Handle max_length (truncation)
         if max_length is not None:
@@ -123,7 +123,6 @@ class CharacterTokenizer(PreTrainedTokenizer):
     def convert_tokens_to_string(self, tokens):
         return "".join(tokens)
     @classmethod
     def from_json(cls, vocab_file, **kwargs):
         with open(vocab_file, 'r', encoding='utf-8') as f:

         return (vocab_file,)
+    def batch_encode(self, texts, add_special_tokens=False, padding=False, truncation=True, max_length=None):
         encoded_texts = [self.encode(text, add_special_tokens) for text in texts]
         # Handle max_length (truncation)
         if max_length is not None:
     def convert_tokens_to_string(self, tokens):
         return "".join(tokens)
     @classmethod
     def from_json(cls, vocab_file, **kwargs):
         with open(vocab_file, 'r', encoding='utf-8') as f: