Ilikemechuri
/

rwkv-transformers-test

Model card Files Files and versions

Ilikemechuri commited on Apr 25

Commit

c38f274

·

verified ·

1 Parent(s): 29ed536

Update tokenization_rwkv7.py

Files changed (1) hide show

tokenization_rwkv7.py +11 -3

tokenization_rwkv7.py CHANGED Viewed

@@ -91,9 +91,17 @@ class Rwkv7Tokenizer(PreTrainedTokenizer):
         return {repr(v): k for k, v in self.idx2bytes.items()}
     def _tokenize(self, text: str) -> List[str]:
-        # str → token id 목록 → repr str 목록 (HuggingFace 내부 형식)
-        ids = self._encode_bytes(text.encode("utf-8"))
-        return [repr(self.idx2bytes[i]) for i in ids]
     def _convert_token_to_id(self, token: str) -> int:
         token_bytes = eval(token) if token.startswith("b'") or token.startswith("b\"") else token.encode("utf-8")

         return {repr(v): k for k, v in self.idx2bytes.items()}
     def _tokenize(self, text: str) -> List[str]:
+        # [수정] 빈 문자열 입력 시 빈 리스트 반환 보장
+        if not text:
+            return []
+        try:
+            ids = self._encode_bytes(text.encode("utf-8"))
+        except Exception:
+            return []
+        # [수정] 혹시라도 결과가 None이 섞이지 않도록 처리
+        return [repr(self.idx2bytes.get(i, b"<unk>")) for i in ids]
     def _convert_token_to_id(self, token: str) -> int:
         token_bytes = eval(token) if token.startswith("b'") or token.startswith("b\"") else token.encode("utf-8")