iambestfeed commited on
Commit
fb8b67e
·
verified ·
1 Parent(s): 1af2ed9

Add new SentenceTransformer model with an onnx backend

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,588 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - vi
4
+ license: apache-2.0
5
+ tags:
6
+ - sentence-transformers
7
+ - sentence-similarity
8
+ - feature-extraction
9
+ - generated_from_trainer
10
+ - dataset_size:100000
11
+ - loss:MatryoshkaLoss
12
+ - loss:MultipleNegativesRankingLoss
13
+ base_model: bkai-foundation-models/vietnamese-bi-encoder
14
+ widget:
15
+ - source_sentence: 'Điều 2 Quyết định 185/QĐ-UB năm 1998 Bảng giá đất tỉnh Bến Tre
16
+ có nội dung như sau:
17
+
18
+
19
+ Điều 2. Giá đất trên được áp dụng cho những trường hợp: Tính thuế chuyển quyền
20
+ sử dụng cho những trường hợp: Tính thuế chuyển quyền sử dụng đất, thu lệ phí trước
21
+ bạ, thu tiền sử dụng đất khi giao đất, cho thuê đất, tính giá trị tài sản khi
22
+ giao đất, bồi thường thiệt hại về đất khi Nhà nước thu hồi.
23
+
24
+ Trường hợp giao đất theo hình thức đấu giá, thì giá đất sẽ do Uỷ ban nhân dân
25
+ tỉnh cho trường hợp cụ thể.
26
+
27
+ Giá cho thuê đất đối với các tổ chức, cá nhân nước ngoài hoặc xí nghiệp có vốn
28
+ đầu tư nước ngoài được áp dụng theo quy định của Chính phủ.'
29
+ sentences:
30
+ - Điều 2 Quyết định 55/2012/QĐ-UBND dự toán ngân sách phân bổ dự toán ngân sách
31
+ 2013 Bình Dương
32
+ - Điều 2 Quyết định 185/QĐ-UB năm 1998 Bảng giá đất tỉnh Bến Tre
33
+ - Điều 3 Quyết định 79/2019/QĐ-UBND mức thu học phí quản lý và sử dụng học phí giáo
34
+ dục mầm non Huế
35
+ - source_sentence: 'Điều 3 Quyết định 94/QĐ-UBND 2018 kế hoạch hoạt động kiểm soát
36
+ thủ tục hành chính Lâm Đồng có nội dung như sau:
37
+
38
+
39
+ Điều 3. Chánh Văn phòng UBND tỉnh; Thủ trưởng các sở, ban, ngành; Chủ tịch UBND
40
+ các huyện, thành phố; Chủ tịch UBND các xã, phường, thị trấn trên địa bàn tỉnh
41
+ chịu trách nhiệm thi hành Quyết định này'
42
+ sentences:
43
+ - Điều 3 Quyết định 94/QĐ-UBND 2018 kế hoạch hoạt động kiểm soát thủ tục hành chính
44
+ Lâm Đồng
45
+ - Cơ quan nhà nước có thẩm quyền có trách nhiệm gì trong việc giải quyết tranh chấp
46
+ lao động khi sa thải người lao động?
47
+ - 'Thăng hạng giáo viên: Điều kiện về thời gian giữ hạng thấp hơn liền kề'
48
+ - source_sentence: 'Điều 8 Thông tư 63/2013/TT-BGTVT hướng dẫn Bản ghi nhớ vận tải
49
+ đường bộ giữa Campuchia Lào Việt Nam có nội dung như sau:
50
+
51
+
52
+ Điều 8. Hồ sơ cấp Giấy phép liên vận CLV
53
+
54
+ 1. Đối với xe thương mại:
55
+
56
+ a) Đơn đề nghị cấp Giấy phép liên vận CLV cho phương tiện thương mại quy định
57
+ tại Phụ lục VI của Thông tư này;
58
+
59
+ b) Giấy phép kinh doanh vận tải bằng xe ô tô hoặc Giấy chứng nhận đăng ký kinh
60
+ doanh đối với đơn vị kinh doanh vận tải bằng xe ô tô không thuộc đối tượng phải
61
+ cấp giấy phép kinh doanh vận tải bằng xe ô tô (bản sao có chứng thực hoặc bản
62
+ sao kèm theo bản chính để đối chiếu);
63
+
64
+ c) Giấy đăng ký phương tiện (bản sao có chứng thực hoặc bản sao kèm theo bản chính
65
+ để đối chiếu);
66
+
67
+ d) Văn bản chấp thuận khai thác tuyến (đối với phương tiện kinh doanh vận tải
68
+ hành khách theo tuyến cố định);
69
+
70
+ đ) Trường hợp phương tiện không thuộc sở hữu của đơn vị kinh doanh vận tải thì
71
+ phải xuất trình thêm tài liệu chứng minh quyền sử dụng hợp pháp của đơn vị kinh
72
+ doanh vận tải với phương tiện đó (bản sao có chứng thực hoặc bản sao kèm theo
73
+ bản chính để đối chiếu).
74
+
75
+ 2. Đối với xe phi thương mại:
76
+
77
+ a) Đơn đề nghị cấp Giấy phép liên vận CLV cho phương tiện phi thương mại quy định
78
+ Phụ lục VII của Thông tư này;
79
+
80
+ b) Giấy đăng ký phương tiện (bản sao có chứng thực hoặc bản sao kèm theo bản chính
81
+ để đối chiếu). Trường hợp phương tiện không thuộc sở hữu của tổ chức, cá nhân
82
+ thì phải kèm theo tài liệu chứng minh quyền sử dụng hợp pháp của tổ chức, các
83
+ nhân với phương tiện đó (bản sao có chứng thực hoặc bản sao kèm theo bản chính
84
+ để đối chiếu);
85
+
86
+ c) Đối với doanh nghiệp, hợp tác xã thực hiện công trình, dự án hoặc hoạt động
87
+ kinh doanh trên lãnh thổ Lào hoặc Campuchia thì kèm theo Hợp đồng hoặc tài liệu
88
+ chứng minh đơn vị đang thực hiện công trình, dự án hoặc hoạt động kinh doanh,
89
+ trên lãnh thổ Lào, Campuchia (bản sao có chứng thực).'
90
+ sentences:
91
+ - Bộ Xây dựng ghi nhận các kiến nghị về quy hoạch đô thị và nông thôn
92
+ - Điều 3 Quyết định 2106/QĐ-BYT 2020 Kế hoạch triển khai chiến dịch tiêm bổ sung
93
+ vắc xin Sởi Rubella
94
+ - Điều 8 Thông tư 63/2013/TT-BGTVT hướng dẫn Bản ghi nhớ vận tải đường bộ giữa Campuchia
95
+ Lào Việt Nam
96
+ - source_sentence: 'Điều 2 Quyết định 16/2010/QĐ-UBND phân vùng môi trường tiếp nhận
97
+ nước thải khí thải công nghiệp trên địa bàn tỉnh Đồng Nai có nội dung như sau:
98
+
99
+
100
+ Điều 2. Xác định và tính toán lưu lượng các nguồn xả nước thải, khí thải công
101
+ nghiệp
102
+
103
+ 1. Các tổ chức, cá nhân là chủ cơ sở sản xuất, kinh doanh, dịch vụ có trách nhiệm
104
+ quan trắc, thống kê, kiểm toán chất thải để tính toán, xác định lưu lượng nước
105
+ thải, khí thải công nghiệp để áp dụng hệ số lưu lượng nguồn thải.
106
+
107
+ 2. Các tổ chức, cá nhân có trách nhiệm cung cấp đúng, đầy đủ, chính xác và trung
108
+ thực các thông tin về lưu lượng nước thải, khí thải công nghiệp cho cơ quan quản
109
+ lý Nhà nước về môi trường. Trong trường hợp số liệu của các tổ chức, cá nhân cung
110
+ cấp chưa đủ tin cậy, cơ quan quản lý Nhà nước về môi trường sẽ tính toán, xác
111
+ định hoặc trưng cầu giám định theo quy định pháp luật.
112
+
113
+ 3. Trong một số trường hợp đặc thù tùy thuộc vào quy mô, tính chất dự án, cơ sở
114
+ sản xuất, kinh doanh, dịch vụ, điều kiện cụ thể về môi trường tiếp nhận nước thải
115
+ và khí thải, địa điểm thực dự án và quy hoạch phát triển kinh tế - xã hội địa
116
+ phương, Ủy ban nhân dân tỉnh Đồng Nai có những quy định riêng.'
117
+ sentences:
118
+ - Điều 2 Quyết định 16/2010/QĐ-UBND phân vùng môi trường tiếp nhận nước thải khí
119
+ thải công nghiệp trên địa bàn tỉnh Đồng Nai
120
+ - Điều 16 Thông tư 14/2010/TT-BKHCN hướng dẫn tiêu chuẩn, quy trình thủ tục xét
121
+ tặng
122
+ - Người lao động có quyền đơn phương chấm dứt hợp đồng lao động khi được bổ nhiệm
123
+ giữ chức vụ gì?
124
+ - source_sentence: Điều 29 Nghị định 46/2015 NĐ-CP quy định về thí nghiệm đối chứng,
125
+ kiểm định chất lượng, thí nghiệm khả năng chịu lực của kết cấu công trình trong
126
+ quá trình thi công xây dựng. Tôi xin hỏi, trong dự toán công trình giao thông
127
+ có chi phí kiểm định tạm tính, chủ đầu tư có quyền lập đề cương, dự toán rồi giao
128
+ cho phòng thẩm định kết quả có giá trị, sau đó thực hiện thuê đơn vị tư vấn có
129
+ chức năng thực hiện công tác kiểm định được không?Bộ Xây dựng trả lời vấn đề này
130
+ như sau:Trường hợp kiểm định theo quy định tại Điểm a, Điểm b, Điểm c, Khoản 2,
131
+ Điều 29 (thí nghiệm đối chứng, kiểm định chất lượng, thí nghiệm khả năng chịu
132
+ lực của kết cấu công trình trong quá trình thi công xây dựng) Nghị định46/2015/NĐ-CPngày
133
+ 12/5/2015 của Chính phủ về quản lý chất lượng và bảo trì công trình xây dựng thì
134
+ việc lập đề cương, dự toán kiểm định do tổ chức đáp ứng điều kiện năng lực theo
135
+ quy định của pháp luật thực hiện.Đối với trường hợp kiểm định theo quy định tại
136
+ Điểm đ, Khoản 2, Điều 29 Nghị định46/2015/NĐ-CPthì thực hiện theo quy định tại
137
+ Điều 18 Thông tư26/2016/TT-BXDngày 26/10/2016 của Bộ Xây dựng quy định chi tiết
138
+ một số nội dung về quản lý chất lượng và bảo trì công trình xây dựng.
139
+ sentences:
140
+ - Quy định về trợ cấp với cán bộ xã già yếu nghỉ việc
141
+ - Có thể thuê kiểm định chất lượng công trình?
142
+ - Điều kiện doanh nghiệp được hoạt động tư vấn giám sát
143
+ pipeline_tag: sentence-similarity
144
+ library_name: sentence-transformers
145
+ metrics:
146
+ - cosine_accuracy@1
147
+ - cosine_accuracy@3
148
+ - cosine_accuracy@5
149
+ - cosine_accuracy@10
150
+ - cosine_precision@1
151
+ - cosine_precision@3
152
+ - cosine_precision@5
153
+ - cosine_precision@10
154
+ - cosine_recall@1
155
+ - cosine_recall@3
156
+ - cosine_recall@5
157
+ - cosine_recall@10
158
+ - cosine_ndcg@10
159
+ - cosine_mrr@10
160
+ - cosine_map@100
161
+ model-index:
162
+ - name: bkai-fine-tuned-legal
163
+ results:
164
+ - task:
165
+ type: information-retrieval
166
+ name: Information Retrieval
167
+ dataset:
168
+ name: dim 768
169
+ type: dim_768
170
+ metrics:
171
+ - type: cosine_accuracy@1
172
+ value: 0.5855925639039504
173
+ name: Cosine Accuracy@1
174
+ - type: cosine_accuracy@3
175
+ value: 0.7033307513555384
176
+ name: Cosine Accuracy@3
177
+ - type: cosine_accuracy@5
178
+ value: 0.7500645494448748
179
+ name: Cosine Accuracy@5
180
+ - type: cosine_accuracy@10
181
+ value: 0.8109992254066615
182
+ name: Cosine Accuracy@10
183
+ - type: cosine_precision@1
184
+ value: 0.5855925639039504
185
+ name: Cosine Precision@1
186
+ - type: cosine_precision@3
187
+ value: 0.23444358378517946
188
+ name: Cosine Precision@3
189
+ - type: cosine_precision@5
190
+ value: 0.15001290988897495
191
+ name: Cosine Precision@5
192
+ - type: cosine_precision@10
193
+ value: 0.08109992254066614
194
+ name: Cosine Precision@10
195
+ - type: cosine_recall@1
196
+ value: 0.5855925639039504
197
+ name: Cosine Recall@1
198
+ - type: cosine_recall@3
199
+ value: 0.7033307513555384
200
+ name: Cosine Recall@3
201
+ - type: cosine_recall@5
202
+ value: 0.7500645494448748
203
+ name: Cosine Recall@5
204
+ - type: cosine_recall@10
205
+ value: 0.8109992254066615
206
+ name: Cosine Recall@10
207
+ - type: cosine_ndcg@10
208
+ value: 0.6937880818561333
209
+ name: Cosine Ndcg@10
210
+ - type: cosine_mrr@10
211
+ value: 0.6568145771089225
212
+ name: Cosine Mrr@10
213
+ - type: cosine_map@100
214
+ value: 0.6626061839086153
215
+ name: Cosine Map@100
216
+ - task:
217
+ type: information-retrieval
218
+ name: Information Retrieval
219
+ dataset:
220
+ name: dim 512
221
+ type: dim_512
222
+ metrics:
223
+ - type: cosine_accuracy@1
224
+ value: 0.5848179705654531
225
+ name: Cosine Accuracy@1
226
+ - type: cosine_accuracy@3
227
+ value: 0.7002323780015491
228
+ name: Cosine Accuracy@3
229
+ - type: cosine_accuracy@5
230
+ value: 0.7490317583268784
231
+ name: Cosine Accuracy@5
232
+ - type: cosine_accuracy@10
233
+ value: 0.8073844564936742
234
+ name: Cosine Accuracy@10
235
+ - type: cosine_precision@1
236
+ value: 0.5848179705654531
237
+ name: Cosine Precision@1
238
+ - type: cosine_precision@3
239
+ value: 0.23341079266718306
240
+ name: Cosine Precision@3
241
+ - type: cosine_precision@5
242
+ value: 0.1498063516653757
243
+ name: Cosine Precision@5
244
+ - type: cosine_precision@10
245
+ value: 0.0807384456493674
246
+ name: Cosine Precision@10
247
+ - type: cosine_recall@1
248
+ value: 0.5848179705654531
249
+ name: Cosine Recall@1
250
+ - type: cosine_recall@3
251
+ value: 0.7002323780015491
252
+ name: Cosine Recall@3
253
+ - type: cosine_recall@5
254
+ value: 0.7490317583268784
255
+ name: Cosine Recall@5
256
+ - type: cosine_recall@10
257
+ value: 0.8073844564936742
258
+ name: Cosine Recall@10
259
+ - type: cosine_ndcg@10
260
+ value: 0.6917119064236622
261
+ name: Cosine Ndcg@10
262
+ - type: cosine_mrr@10
263
+ value: 0.6551604719691482
264
+ name: Cosine Mrr@10
265
+ - type: cosine_map@100
266
+ value: 0.6611599622252305
267
+ name: Cosine Map@100
268
+ - task:
269
+ type: information-retrieval
270
+ name: Information Retrieval
271
+ dataset:
272
+ name: dim 256
273
+ type: dim_256
274
+ metrics:
275
+ - type: cosine_accuracy@1
276
+ value: 0.5814613994319648
277
+ name: Cosine Accuracy@1
278
+ - type: cosine_accuracy@3
279
+ value: 0.6935192357345726
280
+ name: Cosine Accuracy@3
281
+ - type: cosine_accuracy@5
282
+ value: 0.7428350116189001
283
+ name: Cosine Accuracy@5
284
+ - type: cosine_accuracy@10
285
+ value: 0.8022205009036922
286
+ name: Cosine Accuracy@10
287
+ - type: cosine_precision@1
288
+ value: 0.5814613994319648
289
+ name: Cosine Precision@1
290
+ - type: cosine_precision@3
291
+ value: 0.2311730785781909
292
+ name: Cosine Precision@3
293
+ - type: cosine_precision@5
294
+ value: 0.14856700232378
295
+ name: Cosine Precision@5
296
+ - type: cosine_precision@10
297
+ value: 0.08022205009036923
298
+ name: Cosine Precision@10
299
+ - type: cosine_recall@1
300
+ value: 0.5814613994319648
301
+ name: Cosine Recall@1
302
+ - type: cosine_recall@3
303
+ value: 0.6935192357345726
304
+ name: Cosine Recall@3
305
+ - type: cosine_recall@5
306
+ value: 0.7428350116189001
307
+ name: Cosine Recall@5
308
+ - type: cosine_recall@10
309
+ value: 0.8022205009036922
310
+ name: Cosine Recall@10
311
+ - type: cosine_ndcg@10
312
+ value: 0.6871061609559359
313
+ name: Cosine Ndcg@10
314
+ - type: cosine_mrr@10
315
+ value: 0.6508078926552976
316
+ name: Cosine Mrr@10
317
+ - type: cosine_map@100
318
+ value: 0.6566099087487134
319
+ name: Cosine Map@100
320
+ - task:
321
+ type: information-retrieval
322
+ name: Information Retrieval
323
+ dataset:
324
+ name: dim 128
325
+ type: dim_128
326
+ metrics:
327
+ - type: cosine_accuracy@1
328
+ value: 0.5695843015750065
329
+ name: Cosine Accuracy@1
330
+ - type: cosine_accuracy@3
331
+ value: 0.6785437645236251
332
+ name: Cosine Accuracy@3
333
+ - type: cosine_accuracy@5
334
+ value: 0.7273431448489543
335
+ name: Cosine Accuracy@5
336
+ - type: cosine_accuracy@10
337
+ value: 0.7936999741802221
338
+ name: Cosine Accuracy@10
339
+ - type: cosine_precision@1
340
+ value: 0.5695843015750065
341
+ name: Cosine Precision@1
342
+ - type: cosine_precision@3
343
+ value: 0.22618125484120832
344
+ name: Cosine Precision@3
345
+ - type: cosine_precision@5
346
+ value: 0.14546862896979085
347
+ name: Cosine Precision@5
348
+ - type: cosine_precision@10
349
+ value: 0.0793699974180222
350
+ name: Cosine Precision@10
351
+ - type: cosine_recall@1
352
+ value: 0.5695843015750065
353
+ name: Cosine Recall@1
354
+ - type: cosine_recall@3
355
+ value: 0.6785437645236251
356
+ name: Cosine Recall@3
357
+ - type: cosine_recall@5
358
+ value: 0.7273431448489543
359
+ name: Cosine Recall@5
360
+ - type: cosine_recall@10
361
+ value: 0.7936999741802221
362
+ name: Cosine Recall@10
363
+ - type: cosine_ndcg@10
364
+ value: 0.6754615621699942
365
+ name: Cosine Ndcg@10
366
+ - type: cosine_mrr@10
367
+ value: 0.6384098910241435
368
+ name: Cosine Mrr@10
369
+ - type: cosine_map@100
370
+ value: 0.6443976474654151
371
+ name: Cosine Map@100
372
+ - task:
373
+ type: information-retrieval
374
+ name: Information Retrieval
375
+ dataset:
376
+ name: dim 64
377
+ type: dim_64
378
+ metrics:
379
+ - type: cosine_accuracy@1
380
+ value: 0.5543506325845597
381
+ name: Cosine Accuracy@1
382
+ - type: cosine_accuracy@3
383
+ value: 0.6609863155176865
384
+ name: Cosine Accuracy@3
385
+ - type: cosine_accuracy@5
386
+ value: 0.7061709269300284
387
+ name: Cosine Accuracy@5
388
+ - type: cosine_accuracy@10
389
+ value: 0.7717531629227988
390
+ name: Cosine Accuracy@10
391
+ - type: cosine_precision@1
392
+ value: 0.5543506325845597
393
+ name: Cosine Precision@1
394
+ - type: cosine_precision@3
395
+ value: 0.22032877183922883
396
+ name: Cosine Precision@3
397
+ - type: cosine_precision@5
398
+ value: 0.14123418538600568
399
+ name: Cosine Precision@5
400
+ - type: cosine_precision@10
401
+ value: 0.07717531629227987
402
+ name: Cosine Precision@10
403
+ - type: cosine_recall@1
404
+ value: 0.5543506325845597
405
+ name: Cosine Recall@1
406
+ - type: cosine_recall@3
407
+ value: 0.6609863155176865
408
+ name: Cosine Recall@3
409
+ - type: cosine_recall@5
410
+ value: 0.7061709269300284
411
+ name: Cosine Recall@5
412
+ - type: cosine_recall@10
413
+ value: 0.7717531629227988
414
+ name: Cosine Recall@10
415
+ - type: cosine_ndcg@10
416
+ value: 0.6571206813679893
417
+ name: Cosine Ndcg@10
418
+ - type: cosine_mrr@10
419
+ value: 0.6212180172869554
420
+ name: Cosine Mrr@10
421
+ - type: cosine_map@100
422
+ value: 0.6275272633144896
423
+ name: Cosine Map@100
424
+ ---
425
+
426
+ # DEk21_hcmute_embedding
427
+
428
+ DEk21_hcmute_embedding is a Vietnamese text embedding focused on RAG and production efficiency:
429
+
430
+ 📚 **Trained Dataset**:
431
+ The model was trained on an in-house dataset consisting of approximately **100,000 examples** of legal questions and their related contexts.
432
+
433
+ ⚙️ Efficiency:
434
+ Trained with a **Matryoshka loss**, allowing embeddings to be truncated with minimal performance loss. This ensures that smaller embeddings are faster to compare, making the model efficient for real-world production use.
435
+
436
+ ## Model Details
437
+
438
+ ### Model Description
439
+ - **Model Type:** Sentence Transformer
440
+ - **Maximum Sequence Length:** 512 tokens
441
+ - **Output Dimensionality:** 768 dimensions
442
+ - **Similarity Function:** Cosine Similarity
443
+ - **Language:** vietnamese
444
+ - **License:** apache-2.0
445
+
446
+ ### Model Sources
447
+
448
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
449
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
450
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
451
+
452
+ ### Full Model Architecture
453
+
454
+ ```
455
+ SentenceTransformer(
456
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
457
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
458
+ )
459
+ ```
460
+
461
+ ## Usage
462
+
463
+ ### Direct Usage (Sentence Transformers)
464
+
465
+ First install the Sentence Transformers library:
466
+
467
+ ```bash
468
+ pip install -U sentence-transformers
469
+ ```
470
+
471
+ Then you can load this model and run inference.
472
+ ```python
473
+ from sentence_transformers import SentenceTransformer
474
+ import torch
475
+ from pyvi import ViTokenizer
476
+
477
+ # Download from the 🤗 Hub
478
+ model = SentenceTransformer("huyydangg/DEk21_hcmute_embedding")
479
+
480
+ # Define query (câu hỏi pháp luật) và docs (điều luật)
481
+ query = "Điều kiện để kết hôn hợp pháp là gì?"
482
+ docs = [
483
+ "Điều 8 Bộ luật Dân sự 2015 quy định về quyền và nghĩa vụ của công dân trong quan hệ gia đình.",
484
+ "Điều 18 Luật Hôn nhân và gia đình 2014 quy định về độ tuổi kết hôn của nam và nữ.",
485
+ "Điều 14 Bộ luật Dân sự 2015 quy định về quyền và nghĩa vụ của cá nhân khi tham gia hợp đồng.",
486
+ "Điều 27 Luật Hôn nhân và gia đình 2014 quy định về các trường hợp không được kết hôn.",
487
+ "Điều 51 Luật Hôn nhân và gia đình 2014 quy định về việc kết hôn giữa công dân Việt Nam và người nước ngoài."
488
+ ]
489
+
490
+ # Tách từ cho query
491
+ segmented_query = ViTokenizer.tokenize(query)
492
+
493
+ # Tách từ cho từng dòng văn bản
494
+ segmented_docs = [ViTokenizer.tokenize(doc) for doc in docs]
495
+
496
+ # Encode query and documents
497
+ query_embedding = model.encode([segmented_query])
498
+ doc_embeddings = model.encode(segmented_docs)
499
+ similarities = torch.nn.functional.cosine_similarity(
500
+ torch.tensor(query_embedding), torch.tensor(doc_embeddings)
501
+ ).flatten()
502
+
503
+ # Sort documents by cosine similarity
504
+ sorted_indices = torch.argsort(similarities, descending=True)
505
+ sorted_docs = [docs[idx] for idx in sorted_indices]
506
+ sorted_scores = [similarities[idx].item() for idx in sorted_indices]
507
+
508
+ # Print sorted documents with their cosine scores
509
+ for doc, score in zip(sorted_docs, sorted_scores):
510
+ print(f"Document: {doc} - Cosine Similarity: {score:.4f}")
511
+ ```
512
+
513
+ ## Evaluation
514
+
515
+ ### Metrics
516
+
517
+ #### Information Retrieval
518
+
519
+ * Datasets: [another-symato/VMTEB-Zalo-legel-retrieval-wseg](https://huggingface.co/datasets/another-symato/VMTEB-Zalo-legel-retrieval-wseg)
520
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
521
+
522
+ | model | type | ndcg@3 | ndcg@5 | ndcg@10 | mrr@3 | mrr@5 | mrr@10 |
523
+ |:---------------------------------------------|:-------|---------:|---------:|----------:|---------:|---------:|---------:|
524
+ | huyydangg/DEk21_hcmute_embedding_wseg | dense | 0.908405 | 0.914792 | 0.917742 | 0.889583 | 0.893099 | 0.894266 |
525
+ | AITeamVN/Vietnamese_Embedding | dense | 0.842687 | 0.854993 | 0.865006 | 0.822135 | 0.82901 | 0.833389 |
526
+ | bkai-foundation-models/vietnamese-bi-encoder | hybrid | 0.827247 | 0.844781 | 0.846937 | 0.799219 | 0.809505 | 0.806771 |
527
+ | bkai-foundation-models/vietnamese-bi-encoder | dense | 0.814116 | 0.82965 | 0.839567 | 0.796615 | 0.805286 | 0.809572 |
528
+ | AITeamVN/Vietnamese_Embedding | hybrid | 0.788724 | 0.810062 | 0.820797 | 0.758333 | 0.77224 | 0.776461 |
529
+ | BAAI/bge-m3 | dense | 0.784056 | 0.80665 | 0.817016 | 0.763281 | 0.775859 | 0.780293 |
530
+ | BAAI/bge-m3 | hybrid | 0.775239 | 0.797382 | 0.811962 | 0.747656 | 0.763333 | 0.77128 |
531
+ | huyydangg/DEk21_hcmute_embedding | dense | 0.752173 | 0.769259 | 0.785101 | 0.72474 | 0.734427 | 0.741076 |
532
+ | hiieu/halong_embedding | hybrid | 0.73627 | 0.757183 | 0.779169 | 0.710417 | 0.721901 | 0.731976 |
533
+ | bm25 | bm25 | 0.728122 | 0.74974 | 0.761612 | 0.699479 | 0.711198 | 0.715738 |
534
+ | dangvantuan/vietnamese-embedding | dense | 0.718971 | 0.746521 | 0.763416 | 0.696354 | 0.711953 | 0.718854 |
535
+ | dangvantuan/vietnamese-embedding | hybrid | 0.71711 | 0.743537 | 0.758315 | 0.690104 | 0.704792 | 0.712261 |
536
+ | VoVanPhuc/sup-SimCSE-VietNamese-phobert-base | hybrid | 0.688483 | 0.713829 | 0.733894 | 0.660156 | 0.671198 | 0.676961 |
537
+ | hiieu/halong_embedding | dense | 0.656377 | 0.675881 | 0.701368 | 0.630469 | 0.641406 | 0.652057 |
538
+ | VoVanPhuc/sup-SimCSE-VietNamese-phobert-base | dense | 0.558852 | 0.584799 | 0.611329 | 0.536979 | 0.55112 | 0.562218 |
539
+ ## Citation
540
+
541
+ You can cite our work as below:
542
+
543
+ ```bibtex
544
+ @misc{DEk21_hcmute_embedding,
545
+ title={DEk21_hcmute_embedding: A Vietnamese Text Embedding},
546
+ author={QUANG HUY},
547
+ year={2025},
548
+ publisher={Huggingface},
549
+ }
550
+ ```
551
+
552
+ ### BibTeX
553
+ #### Sentence Transformers
554
+ ```bibtex
555
+ @inproceedings{reimers-2019-sentence-bert,
556
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
557
+ author = "Reimers, Nils and Gurevych, Iryna",
558
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
559
+ month = "11",
560
+ year = "2019",
561
+ publisher = "Association for Computational Linguistics",
562
+ url = "https://arxiv.org/abs/1908.10084",
563
+ }
564
+ ```
565
+
566
+ #### MatryoshkaLoss
567
+ ```bibtex
568
+ @misc{kusupati2024matryoshka,
569
+ title={Matryoshka Representation Learning},
570
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
571
+ year={2024},
572
+ eprint={2205.13147},
573
+ archivePrefix={arXiv},
574
+ primaryClass={cs.LG}
575
+ }
576
+ ```
577
+
578
+ #### MultipleNegativesRankingLoss
579
+ ```bibtex
580
+ @misc{henderson2017efficient,
581
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
582
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
583
+ year={2017},
584
+ eprint={1705.00652},
585
+ archivePrefix={arXiv},
586
+ primaryClass={cs.CL}
587
+ }
588
+ ```
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "RobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 258,
16
+ "model_type": "roberta",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 1,
20
+ "position_embedding_type": "absolute",
21
+ "tokenizer_class": "PhobertTokenizer",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.52.4",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 64001
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.52.4",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
onnx/model.onnx ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:197140746f98508307a8fe2d70def43599963d5104f68859964bd7695af3ca9e
3
+ size 537974349
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 256,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 256,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "PhobertTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff