bioscan-ml
/

BarcodeBERT

Feature Extraction

token-classification

text-embeddings-inference

Model card Files Files and versions

nioushasadjadi commited on Nov 28, 2024

Commit

bcd9e56

·

1 Parent(s): 82681b6

Fixing tokenizer return type

Files changed (1) hide show

tokenizer.py +2 -2

tokenizer.py CHANGED Viewed

@@ -26,14 +26,14 @@ class KmerTokenizer(PreTrainedTokenizer):
         self.unk_token = "[UNK]"
         # self.pad_token = "[PAD]"
-    def _tokenize(self, text, **kwargs):
         splits = [text[i:i + self.k] for i in range(0, len(text) - self.k + 1, self.stride)]
         if kwargs.get('return_tensors') == 'pt':
             return torch.tensor(splits)
         return splits
     def _encode(self, text, **kwargs):
-        tokens = self._tokenize(text, **kwargs)
         token_ids = self.convert_tokens_to_ids(tokens)
         if kwargs.get('return_tensors') == 'pt':
             return torch.tensor(token_ids)

         self.unk_token = "[UNK]"
         # self.pad_token = "[PAD]"
+    def tokenize(self, text, **kwargs):
         splits = [text[i:i + self.k] for i in range(0, len(text) - self.k + 1, self.stride)]
         if kwargs.get('return_tensors') == 'pt':
             return torch.tensor(splits)
         return splits
     def _encode(self, text, **kwargs):
+        tokens = self.tokenize(text, **kwargs)
         token_ids = self.convert_tokens_to_ids(tokens)
         if kwargs.get('return_tensors') == 'pt':
             return torch.tensor(token_ids)