Spaces:

ShynBui
/

Create_Vietnamese_spelling_errors

Build error

App Files Files Community

ShynBui commited on Jul 15, 2024

Commit

a7b12ed

1 Parent(s): ed5fd92

add teen code def

Browse files

Files changed (1) hide show

utils.py +52 -1

utils.py CHANGED Viewed

@@ -293,7 +293,8 @@ def homophone_replacement(text, error_rate=0.03, C=0.01):
         'v': 'b',
         'b': 'v',
         'ng': 'ngh',
-        'ngh': 'ng'
     }
     # Chuyển đổi văn bản thành danh sách từ để có thể thay thế từ
@@ -325,3 +326,53 @@ def homophone_replacement(text, error_rate=0.03, C=0.01):
     # Ghép các từ lại thành chuỗi văn bản
     return ' '.join(words)

         'v': 'b',
         'b': 'v',
         'ng': 'ngh',
+        'ngh': 'ng',
+        'v': 'z'
     }
     # Chuyển đổi văn bản thành danh sách từ để có thể thay thế từ
     # Ghép các từ lại thành chuỗi văn bản
     return ' '.join(words)
+def common_misspelling_replacement(text, error_rate=0.03, C=0.01):
+    '''
+    :param text: Gồm 1 câu đúng chính tả
+    :param error_rate: tỷ lệ lỗi sai muốn thêm
+    :param C: hằng số để tính toán xác suất thay thế từ sai chính tả phổ biến
+    :return: Gồm 1 câu sai chính tả
+    Thực hiện thay thế từ bằng các phiên bản sai chính tả phổ biến.
+    - Tìm các từ có thể thay thế trước
+    - Sử dụng augmentation_probability để xác định liệu từ đó có bị thay thế hay không
+    '''
+    # Từ điển các từ đúng chính tả và các phiên bản sai chính tả phổ biến của chúng, teen code
+    common_misspellings = {
+        'những': ['nhửng', 'nhừng'],
+        'của': ['cuả', 'cũa'],
+        'cái': ['cái', 'cã'],
+        'giải': ['giãi', 'giải'],
+        'pháp': ['pháp', 'fáp'],
+        'đúng': ['dúng', 'đúng'],
+        'rất': ['rất', 'rậc'],
+        'sáng': ['sán', 'sáng'],
+        'tạo': ['tạo', 'tạu']
+    }
+    # Chuyển đổi văn bản thành danh sách từ để có thể thay thế từ
+    words = text.split()
+    # Tìm các từ có thể thay thế
+    candidate_indices = [i for i, word in enumerate(words) if word in common_misspellings]
+    # Tính toán xác suất thay thế từ dựa trên error_rate sử dụng hàm logarit
+    augmentation_probability = C / math.log(error_rate + 1)
+    # Thực hiện thay thế từ tại các vị trí ngẫu nhiên
+    num_errors = int(len(candidate_indices) * error_rate)
+    for _ in range(num_errors):
+        if len(candidate_indices) > 0 and random.random() <= augmentation_probability:
+            index = random.choice(candidate_indices)
+            word = words[index]
+            # Chọn ngẫu nhiên một phiên bản sai chính tả từ từ điển
+            misspelled_word = random.choice(common_misspellings[word])
+            words[index] = misspelled_word
+            candidate_indices.remove(index)  # Đảm bảo từ này không bị thay thế nhiều lần
+    # Ghép các từ lại thành chuỗi văn bản
+    return ' '.join(words)