agentlans commited on
Commit
5ab8820
·
verified ·
1 Parent(s): 93dc6eb

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +194 -3
README.md CHANGED
@@ -1,3 +1,194 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ datasets:
4
+ - agentlans/personal-information-prompts
5
+ base_model:
6
+ - intfloat/multilingual-e5-small
7
+ pipeline_tag: text-classification
8
+ tags:
9
+ - pii
10
+ - multilingual
11
+ - privacy
12
+ - redaction
13
+ ---
14
+ # E5 Small Multilingual PII Detector
15
+
16
+ <details>
17
+ <summary>Translated testing text</summary>
18
+
19
+ Sentences with the same number are translations of each other.
20
+
21
+ **English**
22
+ 1. My full name is John Michael Doe, and I reside at 123 Elm Street, Springfield, IL 62701.
23
+ 2. Contact me at my email address: john.doe@email.com or by phone at (555) 123-4567.
24
+ 3. My Social Security Number is 123-45-6789, which I use for official identifications.
25
+ 4. I was born on June 15, 1985, in the city of Chicago, Illinois.
26
+ 5. My driver's license number is DL-987654321, issued by the state of Illinois.
27
+ 6. Please send packages to my home address: 456 Oak Avenue, Apartment 2B, New York, NY 10001.
28
+ 7. My passport number is PP-1122334455, valid until December 31, 2030.
29
+ 8. For banking, use my account number 9876543210 at First National Bank.
30
+ 9. My credit card details include the number 4111-1111-1111-1111 with expiration 12/28.
31
+ 10. I work at Tech Corp, employee ID 56789, located at 789 Pine Road, Austin, TX 78701.
32
+ 11. My full name is [NAME REDACTED], and I live on [STREET NAME] in a medium-sized city.
33
+ 12. You can reach the project team using the shared contact form on our internal portal.
34
+ 13. For identity verification in this demo, the system displays a mock identification code like XXX-XX-XXXX instead of a real number.
35
+ 14. The example user profile shows a fictional birth date field paired with a generic city of birth label.
36
+ 15. A sample record might include a placeholder license field labeled “LICENSE-#########” to mimic real-world formats without using actual data.
37
+ 16. The test shipping label uses “Sample Recipient” and “Example Street” to illustrate how addresses are structured.
38
+ 17. In the training dashboard, a dummy travel document number is shown only as a sequence of repeating characters.
39
+ 18. The banking screen includes a fake account identifier such as “ACCOUNT-0000000000” to emulate a real account layout.
40
+ 19. A mock payment card entry uses a pattern like “1111-2222-3333-4444” that does not correspond to an actual card.
41
+ 20. The HR sample record lists “Test Employee” with a generic office location field to demonstrate employee data formatting.
42
+
43
+ **French**
44
+ 1. Je m'appelle John Michael Doe et je réside au 123, rue Elm, Springfield, Illinois 62701.
45
+ 2. Vous pouvez me contacter par courriel à l'adresse john.doe@email.com ou par téléphone au (555) 123-4567.
46
+ 3. Mon numéro de sécurité sociale est le 123-45-6789 ; je l'utilise pour mes pièces d'identité officielles.
47
+ 4. Je suis né le 15 juin 1985 à Chicago, dans l'Illinois.
48
+ 5. Mon numéro de permis de conduire est le DL-987654321 ; il a été délivré par l'État de l'Illinois.
49
+ 6. Veuillez envoyer les colis à mon domicile : 456 Oak Avenue, Appartement 2B, New York, NY 10001.
50
+ 7. Mon numéro de passeport est PP-1122334455 et il est valide jusqu’au 31 décembre 2030.
51
+ 8. Pour vos opérations bancaires, veuillez utiliser mon numéro de compte 9876543210 à la First National Bank.
52
+ 9. Les informations relatives à ma carte de crédit sont les suivantes : numéro 4111-1111-1111-1111 et date d’expiration : 28/12.
53
+ 10. Je travaille chez Tech Corp, sous le numéro d’employé 56789, au 789 Pine Road, Austin, TX 78701.
54
+ 11. Mon nom complet est [NOM MASQUÉ] et j’habite au [NOM DE LA RUE] dans une ville de taille moyenne.
55
+ 12. Vous pouvez contacter l’équipe projet via le formulaire de contact partagé sur notre portail interne.
56
+ 13. Pour la vérification d'identité dans cette démonstration, le système affiche un code d'identification fictif, par exemple XXX-XX-XXXX, au lieu d'un numéro réel.
57
+ 14. Le profil utilisateur d'exemple présente un champ de date de naissance fictif associé à une ville de naissance générique.
58
+ 15. Un enregistrement d'exemple peut inclure un champ de permis de conduire factice intitulé « PERMIS-########## » afin de simuler des formats réels sans utiliser de données réelles.
59
+ 16. L'étiquette d'expédition de test utilise « Destinataire fictif » et « Rue fictive » pour illustrer la structure des adresses.
60
+ 17. Dans le tableau de bord de formation, un numéro de document de voyage fictif est affiché uniquement sous forme de séquence de caractères répétitifs.
61
+ 18. L'écran bancaire inclut un identifiant de compte fictif, tel que « COMPTE-0000000000 », afin d'imiter la structure d'un compte réel.
62
+ 19. Une saisie de carte de paiement fictive utilise un format comme « 1111-2222-3333-4444 » qui ne correspond à aucune carte réelle.
63
+ 20. L'exemple d'enregistrement RH mentionne « Employé test » avec un champ générique de localisation de bureau pour illustrer le formatage des données des employés.
64
+
65
+ **Spanish**
66
+ 1. Mi nombre completo es John Michael Doe y resido en 123 Elm Street, Springfield, IL 62701.
67
+ 2. Puede contactarme por correo electrónico: john.doe@email.com o por teléfono al (555) 123-4567.
68
+ 3. Mi número de Seguro Social es 123-45-6789, el cual utilizo para identificaciones oficiales.
69
+ 4. Nací el 15 de junio de 1985 en la ciudad de Chicago, Illinois.
70
+ 5. Mi número de licencia de conducir es DL-987654321, emitido por el estado de Illinois.
71
+ 6. Por favor, envíen los paquetes a mi domicilio: 456 Oak Avenue, Apartamento 2B, Nueva York, NY 10001.
72
+ 7. Mi número de pasaporte es PP-1122334455, válido hasta el 31 de diciembre de 2030.
73
+ 8. Para operaciones bancarias, utilice mi número de cuenta 9876543210 en First National Bank.
74
+ 9. Los datos de mi tarjeta de crédito incluyen el número 4111-1111-1111-1111, con vencimiento el 28/12.
75
+ 10. Trabajo en Tech Corp, con ID de empleado 56789, ubicado en 789 Pine Road, Austin, TX 78701.
76
+ 11. Mi nombre completo es [NOMBRE OMITIDO] y vivo en [NOMBRE DE LA CALLE] en una ciudad mediana.
77
+ 12. Puede contactar con el equipo del proyecto mediante el formulario de contacto compartido en nuestro portal interno.
78
+ 13. Para la verificación de identidad en esta demostración, el sistema muestra un código de identificación ficticio como XXX-XX-XXXX en lugar de un número real.
79
+ 14. El perfil de usuario de ejemplo muestra un campo de fecha de nacimiento ficticio junto con una etiqueta genérica de ciudad de nacimiento.
80
+ 15. Un registro de ejemplo podría incluir un campo de licencia de marcador de posición denominado "LICENCIA-#########" para imitar formatos reales sin usar datos reales.
81
+ 16. La etiqueta de envío de prueba utiliza "Destinatario de muestra" y "Calle de ejemplo" para ilustrar la estructura de las direcciones.
82
+ 17. En el panel de entrenamiento, un número de documento de viaje ficticio se muestra únicamente como una secuencia de caracteres repetidos.
83
+ 18. La pantalla bancaria incluye un identificador de cuenta falso como "CUENTA-0000000000" para emular el diseño de una cuenta real.
84
+ 19. Una entrada de tarjeta de pago simulada utiliza un patrón como "1111-2222-3333-4444", que no corresponde a una tarjeta real.
85
+ 20. El registro de muestra de RR.HH. incluye “Empleado de prueba” con un campo de ubicación de oficina genérico para demostrar el formato de los datos de los empleados.
86
+
87
+ **Chinese**
88
+ 1. 我的全名是约翰·迈克尔·多伊 (John Michael Doe),居住在伊利诺伊州斯普林菲尔德市榆树街123号 (123 Elm Street, Springfield, IL 62701)。
89
+ 2. 您可以通过邮箱 john.doe@email.com 或电话 (555) 123-4567 联系我。
90
+ 3. 我的社会安全号码是 123-45-6789,我用它来办理官方身份证明。
91
+ 4. 我于1985年6月15日出生于伊利诺伊州芝加哥市。
92
+ 5. 我的驾照号码是 DL-987654321,由伊利诺伊州颁发。
93
+ 6. 请将包裹寄送到我的家庭住址:纽约州纽约市橡树大道456号2B公寓,邮编10001。
94
+ 7. 我的护照号码是PP-1122334455,有效期至2030年12月31日。
95
+ 8. 我的银行账户是First National Bank,账号为9876543210。
96
+ 9. 我的信用卡卡号为4111-1111-1111-1111,有效期至12月28日。
97
+ 10. 我在Tech Corp工作,员工编号为56789,公司地址为德克萨斯州奥斯汀市松树路789号,邮编78701。
98
+ 11. 我的全名是[姓名已编辑],居住在[街道名称],位于一座中等规模的城市。
99
+ 12. 您可以通过我们内部门户网站上的共享联系表格联系项目团队。
100
+ 13. 在本演示中,为进行身份验证,系统会显示类似 XXX-XX-XXXX 的模拟识别码,而非真实号码。
101
+ 14. 示例用户个人资料中包含一个虚构的出生日期字段,并搭配一个通用的出生城市标签。
102
+ 15. 示例记录可能包含一个占位符许可证字段,标签为“LICENSE-#########”,以模拟真实世界的格式,而无需使用实际数据。
103
+ 16. 测试发货标签使用“示例收件人”和“示例街道”来演示地址的结构。
104
+ 17. 在培训仪表板中,虚拟旅行证件号码仅显示为一串重复字符。
105
+ 18. 银行界面包含一个类似“ACCOUNT-0000000000”的虚假账户标识符,以模拟真实账户布局。
106
+ 19. 模拟支付卡条目使用类似“1111-2222-3333-4444”的模式,该模式与实际的支付卡不符。
107
+ 20. 人力资源示例记录列出了“测试员工”,其中包含一个通用的办公地点字段,用于演示员工数据格式。
108
+
109
+ **Russian**
110
+ 1. Моё полное имя — Джон Майкл Доу, я проживаю по адресу: Элм-стрит, 123, Спрингфилд, Иллинойс, 62701.
111
+ 2. Свяжитесь со мной по электронной почте: john.doe@email.com или по телефону: (555) 123-4567.
112
+ 3. Мой номер социального страхования — 123-45-6789, который я использую для официальных удостоверений личности.
113
+ 4. Я родился 15 июня 1985 года в городе Чикаго, штат Иллинойс.
114
+ 5. Номер моего водительского удостоверения — DL-987654321, выдано штатом Иллинойс.
115
+ 6. Пожалуйста, отправляйте посылки на мой домашний адрес: 456 Oak Avenue, Apartment 2B, New York, NY 10001.
116
+ 7. Номер моего паспорта: PP-1122334455, действителен до 31 декабря 2030 года.
117
+ 8. Для банковских операций используйте мой счёт 9876543210 в First National Bank.
118
+ 9. В данных моей кредитной карты указан номер 4111-1111-1111-1111, срок действия — 28 декабря.
119
+ 10. Я работаю в компании Tech Corp, идентификационный номер сотрудника: 56789, адрес: 789 Pine Road, Austin, TX 78701.
120
+ 11. Моё полное имя: [ИМЯ УДАЛЕНО], я живу на [НАЗВАНИЕ УЛИЦЫ] в городе среднего размера.
121
+ 12. Вы можете связаться с командой проекта, используя общую контактную форму на нашем внутреннем портале.
122
+ 13. Для подтверждения личности в этой демонстрации система отображает фиктивный идентификационный код, например XXX-XX-XXXX, вместо реального числа.
123
+ 14. В примере профиля пользователя показано поле вымышленной даты рождения в сочетании с общей меткой города рождения.
124
+ 15. В примере записи может быть использовано поле лицензии-заглушка с меткой «LICENSE-#########», имитирующее реальные форматы без использования реальных данных.
125
+ 16. В тестовой этикетке для доставки используются поля «Sample Recipient» и «Example Street» для иллюстрации структуры адресов.
126
+ 17. На учебной панели управления фиктивный номер проездного документа отображается только в виде последовательности повторяющихся символов.
127
+ 18. На экране банковских операций отображается фиктивный идентификатор счёта, например, «ACCOUNT-0000000000», для имитации макета реального счёта.
128
+ 19. В записи фиктивной платёжной карты используется шаблон типа «1111-2222-3333-4444», который не соответствует реальной карте.
129
+ 20. В образце записи отдела кадров указан «Тестовый сотрудник» с общим полем местоположения офиса для демонстрации форматирования данных о сотруднике.
130
+
131
+ **Arabic**
132
+ 1. اسمي الكامل جون مايكل دو، وأقيم في ١٢٣ شارع إلم، سبرينغفيلد، إلينوي ٦٢٧٠١.
133
+ 2. للتواصل معي عبر بريدي الإلكتروني: john.doe@email.com أو عبر الهاتف على الرقم (٥٥٥) ١٢٣-٤٥٦٧.
134
+ 3. رقم الضمان الاجتماعي الخاص بي هو ١٢٣-٤٥-٦٧٨٩، وهو رقم أستخدمه لإثبات هويتي الرسمية.
135
+ 4. وُلدتُ في ١٥ يونيو ١٩٨٥ في مدينة شيكاغو، إلينوي.
136
+ 5. رقم رخصة قيادتي هو DL-٩٨٧٦٥٤٣٢١، صادرة عن ولاية إلينوي.
137
+ 6. يرجى إرسال الطرود إلى عنوان منزلي: 456 شارع أوك، شقة 2ب، نيويورك، نيويورك 10001.
138
+ 7. رقم جواز سفري هو PP-1122334455، صالح حتى 31 ديسمبر 2030.
139
+ 8. للمعاملات المصرفية، استخدم رقم حسابي 9876543210 في بنك فيرست ناشيونال.
140
+ 9. تتضمن بيانات بطاقتي الائتمانية الرقم 4111-1111-1111-1111، وتاريخ انتهاء الصلاحية 28/12.
141
+ 10. أعمل في شركة Tech Corp، رقم تعريف الموظف 56789، الكائنة في 789 طريق باين، أوستن، تكساس 78701.
142
+ 11. اسمي الكامل هو [تم حذف الاسم]، وأعيش في [اسم الشارع] في مدينة متوسطة الحجم.
143
+ 12. يمكنك التواصل مع فريق المشروع باستخدام نموذج الاتصال المشترك على بوابتنا الداخلية.
144
+ 13. للتحقق من الهوية في هذا العرض التوضيحي، يعرض النظام رمز تعريف وهمي مثل XXX-XX-XXXX بدلاً من رقم حقيقي.
145
+ 14. يعرض ملف تعريف المستخدم النموذجي حقل تاريخ ميلاد وهمي مقترنًا بعلامة مدينة ميلاد عامة.
146
+ 15. قد يتضمن سجل نموذجي حقل ترخيص بديل بعنوان "LICENSE-#########" لمحاكاة التنسيقات الحقيقية دون استخدام بيانات فعلية.
147
+ 16. يستخدم ملصق الشحن التجريبي "نموذج المستلم" و"مثال الشارع" لتوضيح كيفية هيكلة العناوين.
148
+ 17. في لوحة معلومات التدريب، يظهر رقم وثيقة سفر وهمي فقط كتسلسل من الأحرف المتكررة.
149
+ 18. تتضمن شاشة الخدمات المصرفية معرف حساب وهمي مثل "ACCOUNT-0000000000" لمحاكاة تخطيط حساب حقيقي.
150
+ 19. يستخدم إدخال بطاقة دفع وهمي نمطًا مثل "1111-2222-3333-4444" لا يتوافق مع بطاقة فعلية.
151
+ 20. تسرد سجلات الموارد البشرية النموذجية "موظف الاختبار" مع حقل موقع مكتب عام لإظهار تنسيق بيانات الموظف.
152
+ </details>
153
+
154
+ <details>
155
+ <summary>Testing results</summary>
156
+
157
+ Classification results for identical texts translated into different languages
158
+
159
+ - 🚫 means that the model detected PII in the input
160
+ - ◯ means that the model detected no PII in the input
161
+
162
+ |English sentence|English|French|Spanish|Chinese|Russian|Arabic|
163
+ |---|:---:|:---:|:---:|:---:|:---:|:---:|
164
+ |My full name is John Michael Doe, and I reside at 123 Elm Street, Springfield, IL 62701.|🚫|🚫|🚫|🚫|🚫|🚫|
165
+ |Contact me at my email address: john.doe@email.com or by phone at (555) 123-4567.|🚫|🚫|🚫|🚫|🚫|🚫|
166
+ |My Social Security Number is 123-45-6789, which I use for official identifications.|🚫|🚫|🚫|🚫|🚫|◯|
167
+ |I was born on June 15, 1985, in the city of Chicago, Illinois.|🚫|◯|◯|◯|🚫|◯|
168
+ |My driver's license number is DL-987654321, issued by the state of Illinois.|🚫|◯|🚫|🚫|🚫|🚫|
169
+ |Please send packages to my home address: 456 Oak Avenue, Apartment 2B, New York, NY 10001.|🚫|◯|🚫|◯|🚫|◯|
170
+ |My passport number is PP-1122334455, valid until December 31, 2030.|🚫|◯|🚫|🚫|🚫|🚫|
171
+ |For banking, use my account number 9876543210 at First National Bank.|🚫|🚫|🚫|🚫|🚫|🚫|
172
+ |My credit card details include the number 4111-1111-1111-1111 with expiration 12/28.|◯|◯|◯|◯|◯|◯|
173
+ |I work at Tech Corp, employee ID 56789, located at 789 Pine Road, Austin, TX 78701.|🚫|🚫|🚫|🚫|🚫|🚫|
174
+ |My full name is [NAME REDACTED], and I live on [STREET NAME] in a medium-sized city.|◯|◯|◯|◯|◯|◯|
175
+ |You can reach the project team using the shared contact form on our internal portal.|◯|◯|◯|◯|◯|◯|
176
+ |For identity verification in this demo, the system displays a mock identification code like XXX-XX-XXXX instead of a real number.|◯|◯|◯|◯|◯|◯|
177
+ |The example user profile shows a fictional birth date field paired with a generic city of birth label.|◯|◯|◯|◯|◯|◯|
178
+ |A sample record might include a placeholder license field labeled “LICENSE-#########” to mimic real-world formats without using actual data.|◯|◯|◯|◯|◯|◯|
179
+ |The test shipping label uses “Sample Recipient” and “Example Street” to illustrate how addresses are structured.|◯|◯|◯|◯|◯|◯|
180
+ |In the training dashboard, a dummy travel document number is shown only as a sequence of repeating characters.|◯|◯|◯|◯|◯|◯|
181
+ |The banking screen includes a fake account identifier such as “ACCOUNT-0000000000” to emulate a real account layout.|◯|◯|◯|◯|◯|◯|
182
+ |A mock payment card entry uses a pattern like “1111-2222-3333-4444” that does not correspond to an actual card.|◯|◯|◯|◯|◯|◯|
183
+ |The HR sample record lists “Test Employee” with a generic office location field to demonstrate employee data formatting.|◯|◯|◯|◯|◯|◯|
184
+
185
+ </details>
186
+
187
+ ## Limitations
188
+
189
+ - Lack of sensitivity: the model can fail at identifying PII for certain languages and inputs (for example, credit card details)
190
+ - May not be accurate for short texts
191
+
192
+ ## Licence
193
+
194
+ Apache 2.0