ducanhdinh
/

M_AHuTieuBert

Model card Files Files and versions

Đinh Trác Đức Anh commited on Oct 20, 2025

Commit

50f5d14

·

1 Parent(s): 41489bc

fix <unk> case

Files changed (1) hide show

tokenizer.py +22 -3

tokenizer.py CHANGED Viewed

@@ -159,8 +159,10 @@ class MorphemeAwareTokenizer(AutoTokenizer):
         """
         Align BMES tags với subwords, xử lý các trường hợp:
         - Dấu câu dính với chữ (vd: 'c.', '3.')
-        - Ký tự đặc biệt và <unk>
         - Subword splitting phức tạp
         """
         aligned_tags = []
         syll_idx = 0
@@ -172,8 +174,25 @@ class MorphemeAwareTokenizer(AutoTokenizer):
             sub = subwords_list[i]
             # Special tokens - luôn tag là 'S'
-            if sub in ["<s>", "</s>", "<pad>", "<unk>", "<mask>"]:
                 aligned_tags.append("S")
                 i += 1
                 continue
@@ -322,4 +341,4 @@ class MorphemeAwareTokenizer(AutoTokenizer):
             bmes_tags = torch.tensor([BMES_MAP[t] for t in bmes_tags]).unsqueeze(0)
         encoded['bmes_tags'] = bmes_tags
-        return encoded

         """
         Align BMES tags với subwords, xử lý các trường hợp:
         - Dấu câu dính với chữ (vd: 'c.', '3.')
+        - Ký tự đặc biệt, <unk> tokens
         - Subword splitting phức tạp
+        🔧 FIX: Xử lý <unk> token bằng cách skip nó và tiếp tục alignment
         """
         aligned_tags = []
         syll_idx = 0
             sub = subwords_list[i]
             # Special tokens - luôn tag là 'S'
+            if sub in ["<s>", "</s>", "<pad>", "<mask>"]:
+                aligned_tags.append("S")
+                i += 1
+                continue
+            # 🔧 XỬ LÝ <unk> TOKEN
+            if sub == "<unk>":
+                # <unk> token là biểu diễn của 1 ký tự không được vocab nhận diện
+                # Gán tag 'S' cho nó và bỏ qua 1 syllable trong bmes_list nếu có
                 aligned_tags.append("S")
+                # Nếu còn syllable, skip nó vì đã được thay thế bằng <unk>
+                if syll_idx < len(bmes_list):
+                    syll_idx += 1
+                # Reset buffer để tránh cascade errors
+                buffer_raw = ""
+                subword_positions = []
                 i += 1
                 continue
             bmes_tags = torch.tensor([BMES_MAP[t] for t in bmes_tags]).unsqueeze(0)
         encoded['bmes_tags'] = bmes_tags
+        return encoded