datnguyen1612 commited on
Commit
bdd9b5d
·
verified ·
1 Parent(s): dfb8824

Update presidio_config_vi_improved.yaml

Browse files
Files changed (1) hide show
  1. presidio_config_vi_improved.yaml +42 -8
presidio_config_vi_improved.yaml CHANGED
@@ -142,13 +142,13 @@ recognizer_registry:
142
  - "thẻ BHYT"
143
  - "bảo hiểm y tế"
144
 
145
- # 11. Account number
146
  - name: AccountNumberRecognizer
147
  supported_language: vi
148
  supported_entity: ACCOUNT_NUMBER
149
  patterns:
150
- - name: account_generic
151
- regex: "\\b\\d{8,16}\\b"
152
  score: 0.8
153
  context:
154
  - "số tài khoản"
@@ -156,6 +156,23 @@ recognizer_registry:
156
  - "account number"
157
  - "bank account"
158
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
159
  # 12. Certificate
160
  - name: CertificateRecognizer
161
  supported_language: vi
@@ -184,15 +201,14 @@ recognizer_registry:
184
  supported_language: vi
185
  supported_entity: DEVICE_ID
186
  patterns:
187
- # (A) UDI với ít nhất AI (01) GTIN-14,
188
- # phía sau có thể có thêm (10), (11), (17), (21)
189
  - name: udi_full
190
- regex: "\\(01\\)\\s*\\d{14}(?:\\(10\\)[A-Za-z0-9]{1,20})?(?:\\(11\\)\\d{6})?(?:\\(17\\)\\d{6})?(?:\\(21\\)[A-Za-z0-9]{1,20})?"
191
  score: 0.99
192
 
193
- # (B) UDI đơn giản: chỉ (01) + GTIN-14 (không có phần sản xuất)
194
  - name: udi_simple
195
- regex: "\\bUDI[:\\s]*\\(01\\)\\s*\\d{14}\\b"
196
  score: 0.98
197
 
198
  context:
@@ -225,6 +241,24 @@ recognizer_registry:
225
  regex: "\\b([0-9a-fA-F]{1,4}:){7}[0-9a-fA-F]{1,4}\\b"
226
  score: 0.9
227
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
228
  nlp_configuration:
229
  nlp_engine_name: stanza
230
  models:
 
142
  - "thẻ BHYT"
143
  - "bảo hiểm y tế"
144
 
145
+ # 11. Account number (Số tài khoản ngân hàng: 6-15 số)
146
  - name: AccountNumberRecognizer
147
  supported_language: vi
148
  supported_entity: ACCOUNT_NUMBER
149
  patterns:
150
+ - name: account_number
151
+ regex: "\\b\\d{6,15}\\b"
152
  score: 0.8
153
  context:
154
  - "số tài khoản"
 
156
  - "account number"
157
  - "bank account"
158
 
159
+ # 12. Card number (Số thẻ ngân hàng: 16 hoặc 19 số)
160
+ - name: CardNumberRecognizer
161
+ supported_language: vi
162
+ supported_entity: CARD_NUMBER
163
+ patterns:
164
+ - name: card_number_16
165
+ regex: "\\b\\d{16}\\b"
166
+ score: 0.9
167
+ - name: card_number_19
168
+ regex: "\\b\\d{19}\\b"
169
+ score: 0.9
170
+ context:
171
+ - "số thẻ"
172
+ - "thẻ ngân hàng"
173
+ - "card number"
174
+ - "bank card"
175
+
176
  # 12. Certificate
177
  - name: CertificateRecognizer
178
  supported_language: vi
 
201
  supported_language: vi
202
  supported_entity: DEVICE_ID
203
  patterns:
204
+ # UDI: bắt đầu bằng 01, tiếp theo là 14 số, sau đó có thể có nhiều nhóm (10...), (11...), (17...), (21...), LOT..., SN...
 
205
  - name: udi_full
206
+ regex: "\\b01\\d{14}(?:10[A-Za-z0-9]{1,20}|11\\d{6}|17\\d{6}|21[A-Za-z0-9]{1,20}|LOT[A-Za-z0-9]+|SN[A-Za-z0-9]+)*\\b"
207
  score: 0.99
208
 
209
+ # UDI đơn giản: chỉ 01 + 14 số
210
  - name: udi_simple
211
+ regex: "\\bUDI[:\\s]*01\\d{14}\\b"
212
  score: 0.98
213
 
214
  context:
 
241
  regex: "\\b([0-9a-fA-F]{1,4}:){7}[0-9a-fA-F]{1,4}\\b"
242
  score: 0.9
243
 
244
+ # 17. ID Card number (Số căn cước công dân Việt Nam: 12 số, theo cấu trúc quy định)
245
+ - name: IDCardNumberRecognizer
246
+ supported_language: vi
247
+ supported_entity: ID_CARD_NUMBER
248
+ patterns:
249
+ - name: id_card_number
250
+ # 12 số, 3 số đầu là mã tỉnh (001-096), 1 số giới tính/thế kỷ, 2 số năm sinh, 6 số ngẫu nhiên
251
+ regex: "\\b(0[0-9]{2}|09[0-6])[0-9]{1}[0-9]{2}[0-9]{6}\\b"
252
+ score: 0.95
253
+ context:
254
+ - "căn cước công dân"
255
+ - "CCCD"
256
+ - "số định danh cá nhân"
257
+ - "số căn cước"
258
+ - "số CCCD"
259
+ - "ID card"
260
+ - "ID cá nhân"
261
+
262
  nlp_configuration:
263
  nlp_engine_name: stanza
264
  models: