tokenizer: expose .vocab property for fast-tokenizer-style callers (#4)

- tokenizer: expose .vocab property for fast-tokenizer-style callers (4c899c4a81891ab991f683bb459408646d52e506)

Files changed (1) hide show

tokenizer.py CHANGED Viewed

@@ -144,6 +144,14 @@ class HybridDNATokenizer(PreTrainedTokenizer):
     def get_vocab(self) -> Dict[str, int]:
         return self._vocab.copy()
     def __len__(self):
         # Override default (len(get_vocab())) because get_vocab() deduplicates
         # CCCCCC which exists as both BPE (ID 91443) and DNA 6-mer (ID 154402).

     def get_vocab(self) -> Dict[str, int]:
         return self._vocab.copy()
+    @property
+    def vocab(self) -> Dict[str, int]:
+        # Compatibility shim: fast tokenizers (PreTrainedTokenizerFast) expose
+        # `tokenizer.vocab` as a property; slow PreTrainedTokenizer subclasses
+        # like this one only expose `get_vocab()`. Some downstream tools
+        # (e.g. llama.cpp's convert_hf_to_gguf.py) read `.vocab` directly.
+        return self._vocab
     def __len__(self):
         # Override default (len(get_vocab())) because get_vocab() deduplicates
         # CCCCCC which exists as both BPE (ID 91443) and DNA 6-mer (ID 154402).