saracandu
/

stldec_random_128

Text Generation

Model card Files Files and versions

saracandu commited on Sep 2, 2025

Commit

2ec2e3a

·

verified ·

1 Parent(s): fb5373d

Update tokenizer.py

Files changed (1) hide show

tokenizer.py +9 -11

tokenizer.py CHANGED Viewed

@@ -10,7 +10,7 @@ logger = logging.get_logger(__name__)
 from huggingface_hub import hf_hub_download
 import json
-import os
 def load_json(path, repo_id=None):
     if repo_id:
@@ -128,16 +128,14 @@ class STLTokenizer(PreTrainedTokenizer):
                 tokens.append(self.unk_token)
                 i += 1
         return tokens
-    def convert_tokens_to_ids(self, tokens: List[str]) -> List[int]:
-        """
-        Converts a list of tokens into a list of token IDs.
-        Args:
-            tokens (List[str]): A list of tokens to be converted into IDs.
-        Returns:
-            List[int]: A list of corresponding token IDs.
-        """
-        return [self.vocab.get(token, self.vocab[self.unk_token]) for token in tokens]
     def convert_ids_to_tokens(self, ids: List[int]) -> List[str]:
         """

 from huggingface_hub import hf_hub_download
 import json
+from transformers import AddedToken
 def load_json(path, repo_id=None):
     if repo_id:
                 tokens.append(self.unk_token)
                 i += 1
         return tokens
+    def convert_tokens_to_ids(self, tokens: Union[List[str], str, AddedToken]) -> List[int]:
+        # Se è un singolo token non iterabile, lo metti in lista
+        if isinstance(tokens, (str, AddedToken)):
+            tokens = [tokens]
+        # Converti token a stringa se sono AddedToken
+        tokens_str = [str(token) if isinstance(token, AddedToken) else token for token in tokens]
+        return [self.vocab.get(token, self.vocab[self.unk_token]) for token in tokens_str]
     def convert_ids_to_tokens(self, ids: List[int]) -> List[str]:
         """