udmurtNLP
/

bert-tiny-char-ctc-udm-denoise

Model card Files Files and versions

codemurt commited on Aug 7, 2025

Commit

55906f9

·

verified ·

1 Parent(s): 6c5b431

Update char_tokenizer.py

Files changed (1) hide show

char_tokenizer.py +2 -12

char_tokenizer.py CHANGED Viewed

@@ -1,5 +1,5 @@
 """
-Copypasted from
 https://huggingface.co/IlyaGusev/ru-word-stress-transformer/blob/main/char_tokenizer.py
 with Apache 2.0 license
 """
@@ -39,17 +39,7 @@ class CharTokenizer(PreTrainedTokenizer):
         do_lower_case=False,
         *args,
         **kwargs
-    ):
-        self.do_lower_case = do_lower_case
-        self.space_token = space_token
-        if not vocab_file or not os.path.isfile(vocab_file):
-            self.vocab = OrderedDict()
-            self.ids_to_tokens = OrderedDict()
-        else:
-            self.vocab = load_vocab(vocab_file)
-            self.ids_to_tokens = OrderedDict([(ids, tok) for tok, ids in self.vocab.items()])
         super().__init__(
             pad_token=pad_token,
             unk_token=unk_token,

 """
+Copypasted and updated from
 https://huggingface.co/IlyaGusev/ru-word-stress-transformer/blob/main/char_tokenizer.py
 with Apache 2.0 license
 """
         do_lower_case=False,
         *args,
         **kwargs
+    ):
         super().__init__(
             pad_token=pad_token,
             unk_token=unk_token,