Spaces:
Sleeping
Sleeping
Update presidio_config_vi_improved.yaml
Browse files
presidio_config_vi_improved.yaml
CHANGED
|
@@ -142,13 +142,13 @@ recognizer_registry:
|
|
| 142 |
- "thẻ BHYT"
|
| 143 |
- "bảo hiểm y tế"
|
| 144 |
|
| 145 |
-
# 11. Account number
|
| 146 |
- name: AccountNumberRecognizer
|
| 147 |
supported_language: vi
|
| 148 |
supported_entity: ACCOUNT_NUMBER
|
| 149 |
patterns:
|
| 150 |
-
- name:
|
| 151 |
-
regex: "\\b\\d{
|
| 152 |
score: 0.8
|
| 153 |
context:
|
| 154 |
- "số tài khoản"
|
|
@@ -156,6 +156,23 @@ recognizer_registry:
|
|
| 156 |
- "account number"
|
| 157 |
- "bank account"
|
| 158 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 159 |
# 12. Certificate
|
| 160 |
- name: CertificateRecognizer
|
| 161 |
supported_language: vi
|
|
@@ -184,15 +201,14 @@ recognizer_registry:
|
|
| 184 |
supported_language: vi
|
| 185 |
supported_entity: DEVICE_ID
|
| 186 |
patterns:
|
| 187 |
-
#
|
| 188 |
-
# phía sau có thể có thêm (10), (11), (17), (21)
|
| 189 |
- name: udi_full
|
| 190 |
-
regex: "\\
|
| 191 |
score: 0.99
|
| 192 |
|
| 193 |
-
#
|
| 194 |
- name: udi_simple
|
| 195 |
-
regex: "\\bUDI[:\\s]*
|
| 196 |
score: 0.98
|
| 197 |
|
| 198 |
context:
|
|
@@ -225,6 +241,24 @@ recognizer_registry:
|
|
| 225 |
regex: "\\b([0-9a-fA-F]{1,4}:){7}[0-9a-fA-F]{1,4}\\b"
|
| 226 |
score: 0.9
|
| 227 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 228 |
nlp_configuration:
|
| 229 |
nlp_engine_name: stanza
|
| 230 |
models:
|
|
|
|
| 142 |
- "thẻ BHYT"
|
| 143 |
- "bảo hiểm y tế"
|
| 144 |
|
| 145 |
+
# 11. Account number (Số tài khoản ngân hàng: 6-15 số)
|
| 146 |
- name: AccountNumberRecognizer
|
| 147 |
supported_language: vi
|
| 148 |
supported_entity: ACCOUNT_NUMBER
|
| 149 |
patterns:
|
| 150 |
+
- name: account_number
|
| 151 |
+
regex: "\\b\\d{6,15}\\b"
|
| 152 |
score: 0.8
|
| 153 |
context:
|
| 154 |
- "số tài khoản"
|
|
|
|
| 156 |
- "account number"
|
| 157 |
- "bank account"
|
| 158 |
|
| 159 |
+
# 12. Card number (Số thẻ ngân hàng: 16 hoặc 19 số)
|
| 160 |
+
- name: CardNumberRecognizer
|
| 161 |
+
supported_language: vi
|
| 162 |
+
supported_entity: CARD_NUMBER
|
| 163 |
+
patterns:
|
| 164 |
+
- name: card_number_16
|
| 165 |
+
regex: "\\b\\d{16}\\b"
|
| 166 |
+
score: 0.9
|
| 167 |
+
- name: card_number_19
|
| 168 |
+
regex: "\\b\\d{19}\\b"
|
| 169 |
+
score: 0.9
|
| 170 |
+
context:
|
| 171 |
+
- "số thẻ"
|
| 172 |
+
- "thẻ ngân hàng"
|
| 173 |
+
- "card number"
|
| 174 |
+
- "bank card"
|
| 175 |
+
|
| 176 |
# 12. Certificate
|
| 177 |
- name: CertificateRecognizer
|
| 178 |
supported_language: vi
|
|
|
|
| 201 |
supported_language: vi
|
| 202 |
supported_entity: DEVICE_ID
|
| 203 |
patterns:
|
| 204 |
+
# UDI: bắt đầu bằng 01, tiếp theo là 14 số, sau đó có thể có nhiều nhóm (10...), (11...), (17...), (21...), LOT..., SN...
|
|
|
|
| 205 |
- name: udi_full
|
| 206 |
+
regex: "\\b01\\d{14}(?:10[A-Za-z0-9]{1,20}|11\\d{6}|17\\d{6}|21[A-Za-z0-9]{1,20}|LOT[A-Za-z0-9]+|SN[A-Za-z0-9]+)*\\b"
|
| 207 |
score: 0.99
|
| 208 |
|
| 209 |
+
# UDI đơn giản: chỉ 01 + 14 số
|
| 210 |
- name: udi_simple
|
| 211 |
+
regex: "\\bUDI[:\\s]*01\\d{14}\\b"
|
| 212 |
score: 0.98
|
| 213 |
|
| 214 |
context:
|
|
|
|
| 241 |
regex: "\\b([0-9a-fA-F]{1,4}:){7}[0-9a-fA-F]{1,4}\\b"
|
| 242 |
score: 0.9
|
| 243 |
|
| 244 |
+
# 17. ID Card number (Số căn cước công dân Việt Nam: 12 số, theo cấu trúc quy định)
|
| 245 |
+
- name: IDCardNumberRecognizer
|
| 246 |
+
supported_language: vi
|
| 247 |
+
supported_entity: ID_CARD_NUMBER
|
| 248 |
+
patterns:
|
| 249 |
+
- name: id_card_number
|
| 250 |
+
# 12 số, 3 số đầu là mã tỉnh (001-096), 1 số giới tính/thế kỷ, 2 số năm sinh, 6 số ngẫu nhiên
|
| 251 |
+
regex: "\\b(0[0-9]{2}|09[0-6])[0-9]{1}[0-9]{2}[0-9]{6}\\b"
|
| 252 |
+
score: 0.95
|
| 253 |
+
context:
|
| 254 |
+
- "căn cước công dân"
|
| 255 |
+
- "CCCD"
|
| 256 |
+
- "số định danh cá nhân"
|
| 257 |
+
- "số căn cước"
|
| 258 |
+
- "số CCCD"
|
| 259 |
+
- "ID card"
|
| 260 |
+
- "ID cá nhân"
|
| 261 |
+
|
| 262 |
nlp_configuration:
|
| 263 |
nlp_engine_name: stanza
|
| 264 |
models:
|