Upload README.md with huggingface_hub
Browse files
README.md
CHANGED
|
@@ -1,790 +1,108 @@
|
|
| 1 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 2 |
tags:
|
| 3 |
- sentence-transformers
|
| 4 |
- sentence-similarity
|
| 5 |
- feature-extraction
|
| 6 |
-
-
|
| 7 |
-
-
|
| 8 |
-
-
|
| 9 |
-
|
| 10 |
-
|
| 11 |
-
-
|
| 12 |
-
|
| 13 |
-
- 'passage: # 835_2024_VBHN_BLDTBXH_form_15
|
| 14 |
-
|
| 15 |
-
|
| 16 |
-
Mẫu số 1525
|
| 17 |
-
|
| 18 |
-
|
| 19 |
-
| UBND TỈNH, (TP)...... SỞ LAO ĐỘNG-TBXH ------- | |
|
| 20 |
-
|
| 21 |
-
|---|---|
|
| 22 |
-
|
| 23 |
-
|
| 24 |
-
TỔNG HỢP DANH SÁCH THANH NIÊN XUNG PHONG ĐÃ ĐƯỢC GIẢI QUYẾT CHẾ ĐỘ TRỢ CẤP MỘT
|
| 25 |
-
LẦN (Kèm theo công văn số ...... ngày.../.../.... của Sở LĐTBXH ....)
|
| 26 |
-
|
| 27 |
-
|
| 28 |
-
| Số TT | Họ và tên | Ngày, tháng, năm sinh | Số định danh cá nhân/Chứng minh
|
| 29 |
-
nhân dân, cấp ngày tháng năm, nơi cấp | Quan hệ với TNXP | Quyết định của UBND
|
| 30 |
-
tỉnh | Số năm được hưởng | Số tiền trợ cấp một lần | |
|
| 31 |
-
|
| 32 |
-
|---|---|---|---|---|---|---|---|---|
|
| 33 |
-
|
| 34 |
-
| Số quyết định | Ngày, tháng, năm | | | | | | | |
|
| 35 |
-
|
| 36 |
-
| (1) | (2) | (3) | (...'
|
| 37 |
-
- 'passage: # 101_2018_TT_BTC_ch2_art14
|
| 38 |
-
|
| 39 |
-
Điều 14. Chi phí quản lý
|
| 40 |
-
|
| 41 |
-
|
| 42 |
-
1. Kinh phí thực hiện các hoạt động nghiệp vụ về quản lý đối tượng, hồ sơ, quản
|
| 43 |
-
lý tài chính, kế toán và tổ chức thực hiện chi trả do ngân sách trung ương đảm
|
| 44 |
-
bảo bố trí trong dự toán kinh phí thực hiện chính sách ưu đãi người có công với
|
| 45 |
-
cách mạng hằng năm. Bộ LĐTBXH có trách nhiệm phân bổ kinh phí quản lý phù hợp
|
| 46 |
-
với đặc thù của từng địa phương và hướng dẫn các cơ quan LĐTBXH địa phương quản
|
| 47 |
-
lý, sử dụng, bảo đảm trong phạm vi dự toán được giao cho công tác quản lý của
|
| 48 |
-
toàn ngành, trong đó chi phí phục vụ chi trả đến người thụ hưở...'
|
| 49 |
-
- 'passage: # 55_2023_NĐ_CP_appendix4
|
| 50 |
-
|
| 51 |
-
|
| 52 |
-
PHỤ LỤC IV
|
| 53 |
-
|
| 54 |
-
|
| 55 |
-
MỨC HƯỞNG TRỢ CẤP ƯU ĐÃI MỘT LẦN ĐỐI VỚI NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG VÀ THÂN NHÂN
|
| 56 |
-
CỦA NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG (Kèm theo Nghị định số 55/2023/NĐ-CP ngày 21 tháng
|
| 57 |
-
7 năm 2023 của Chính phủ)
|
| 58 |
-
|
| 59 |
-
|
| 60 |
-
| STT | Đối tượng người có công | Mức trợ cấp |
|
| 61 |
-
|
| 62 |
-
|---|---|---|
|
| 63 |
-
|
| 64 |
-
| 1 | Người hoạt động cách mạng trước ngày 01 tháng 01 năm 1945 chết mà chưa được
|
| 65 |
-
hưởng chế độ ưu đãi: | |
|
| 66 |
-
|
| 67 |
-
| 1.1 | Thân nhân | 31,0 lần mức chuẩn |
|
| 68 |
-
|
| 69 |
-
| 1.2 | Người thờ cúng | 6,2 lần mức chuẩn |
|
| 70 |
-
|
| 71 |
-
| 2 | Người hoạt động cách mạng từ ngày 01 tháng 01 năm 1945 đến ngày khởi nghĩa
|
| 72 |
-
tháng Tám năm 1945 chết...'
|
| 73 |
-
- source_sentence: 'query: Pháp lệnh ưu đãi người có công được sửa đổi bổ sung vào
|
| 74 |
-
năm nào?'
|
| 75 |
-
sentences:
|
| 76 |
-
- 'passage: # 834_2024_VBHN_BLDTBXH_appendix4
|
| 77 |
-
|
| 78 |
-
|
| 79 |
-
PHỤ LỤC IV21
|
| 80 |
-
|
| 81 |
-
|
| 82 |
-
MỨC HƯỞNG TRỢ CẤP ƯU ĐÃI MỘT LẦN ĐỐI VỚI NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG VÀ THÂN NHÂN
|
| 83 |
-
CỦA NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG
|
| 84 |
-
|
| 85 |
-
|
| 86 |
-
| STT | Đối tượng người có công | Mức trợ cấp |
|
| 87 |
-
|
| 88 |
-
|---|---|---|
|
| 89 |
-
|
| 90 |
-
| 1 | Người hoạt động cách mạng trước ngày 01 tháng 01 năm 1945 chết mà chưa được
|
| 91 |
-
hưởng chế độ ưu đãi: | |
|
| 92 |
-
|
| 93 |
-
| 1.1 | Thân nhân | 31,0 lần mức chuẩn |
|
| 94 |
-
|
| 95 |
-
| 1.2 | Người thờ cúng | 6,2 lần mức chuẩn |
|
| 96 |
-
|
| 97 |
-
| 2 | Người hoạt động cách mạng từ ngày 01 tháng 01 năm 1945 đến ngày khởi nghĩa
|
| 98 |
-
tháng Tám năm 1945 chết mà chưa được hưởng chế độ ưu đãi: | |
|
| 99 |
-
|
| 100 |
-
| 2.1 | Thân nhân | 15,5 lầ...'
|
| 101 |
-
- 'passage: # 101_2018_TT_BTC_ch2_art10
|
| 102 |
-
|
| 103 |
-
Điều 10. Chi hỗ trợ hoạt động của cơ sở nuôi dưỡng, điều dưỡng người có công với
|
| 104 |
-
cách mạng, cơ sở đón tiếp người có công với cách mạng và thân nhân do ngành LĐTBXH
|
| 105 |
-
quản lý
|
| 106 |
-
|
| 107 |
-
|
| 108 |
-
1. Ngoài các khoản chi quy định tại khoản 2 Điều 9 Thông tư này, cơ sở nuôi dưỡng,
|
| 109 |
-
điều dưỡng người có công với cách mạng, cơ sở đón tiếp người có công với cách
|
| 110 |
-
mạng và thân nhân (sau đây gọi tắt là cơ sở) được hỗ trợ để chi các khoản phục
|
| 111 |
-
vụ công tác nuôi dưỡng, điều dưỡng, đón tiếp, bao gồm:
|
| 112 |
-
|
| 113 |
-
|
| 114 |
-
a) Sửa chữa, cải tạo, nâng cấp cơ sở vật chất, trang thiết bị, nhà cửa, hạ tầng
|
| 115 |
-
phục vụ công t...'
|
| 116 |
-
- 'passage: # 101_2018_TT_BTC_preamble
|
| 117 |
-
|
| 118 |
-
# Thông tư số 101/2018/TT-BTC quy định quản lý và sử dụng kinh phí thực hiện chính
|
| 119 |
-
sách ưu đãi người có công với cách mạng và người trực tiếp tham gia kháng chiến
|
| 120 |
-
do ngành Lao động - Thương binh và Xã hội quản lý
|
| 121 |
-
|
| 122 |
-
|
| 123 |
-
| BỘ TÀI CHÍNH -------- | CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do -
|
| 124 |
-
Hạnh phúc --------------- |
|
| 125 |
-
|
| 126 |
-
|---|---|
|
| 127 |
-
|
| 128 |
-
| Số: 101/2018/TT-BTC | Hà Nội, ngày 14 tháng 11 năm 2018 |
|
| 129 |
-
|
| 130 |
-
|
| 131 |
-
THÔNG TƯ
|
| 132 |
-
|
| 133 |
-
|
| 134 |
-
QUY ĐỊNH QUẢN LÝ VÀ SỬ DỤNG KINH PHÍ THỰC HIỆN CHÍNH SÁCH ƯU ĐÃI NGƯỜI CÓ CÔNG
|
| 135 |
-
VỚI CÁCH MẠNG VÀ NGƯỜI TRỰC TIẾP THAM GIA KHÁNG CHIẾN DO NGÀNH LAO ĐỘNG - THƯƠNG
|
| 136 |
-
BI...'
|
| 137 |
-
- source_sentence: 'query: Thủ tục xác nhận đối tượng thanh niên xung phong để thực
|
| 138 |
-
hiện chế độ bảo hiểm y tế như thế nào?'
|
| 139 |
-
sentences:
|
| 140 |
-
- 'passage: # 836_2024_VBHN_BLDTBXH_art5
|
| 141 |
-
|
| 142 |
-
|
| 143 |
-
Điều 5. Tổ chức thực hiện[2]
|
| 144 |
-
|
| 145 |
-
|
| 146 |
-
1. Sở Lao động - Thương binh và Xã hội:
|
| 147 |
-
|
| 148 |
-
|
| 149 |
-
- Tiến hành mua bảo hiểm y tế. Tổ chức chi trả trợ cấp mai táng đối với người
|
| 150 |
-
hoặc tổ chức lo mai táng.
|
| 151 |
-
|
| 152 |
-
|
| 153 |
-
- Chủ trì phối hợp với Tỉnh, Thành đoàn: Hội (hoặc Ban Liên lạc) Cựu Thanh niên
|
| 154 |
-
xung phong tổ chức tuyên truyền rộng rãi nội dung Thông tư này.
|
| 155 |
-
|
| 156 |
-
|
| 157 |
-
2. Thông tư này có hiệu lực thi hành sau 45 ngày, kể từ ngày ký ban hành. Trong
|
| 158 |
-
quá trình triển khai thực hiện, nếu có vướng mắc, đề nghị các cơ quan, địa phương
|
| 159 |
-
phản ánh về Bộ Lao động - Thương binh và Xã hội để được hướng dẫn giải quyết./...'
|
| 160 |
-
- 'passage: # 836_2024_VBHN_BLDTBXH_preamble
|
| 161 |
-
|
| 162 |
-
|
| 163 |
-
|
| 164 |
-
| BỘ LAO ĐỘNG - THƯƠNG BINH VÀ XÃ HỘI -------- | CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT
|
| 165 |
-
NAM Độc lập - Tự do - Hạnh phúc ---------------
|
| 166 |
-
|
| 167 |
-
|---|---|
|
| 168 |
-
|
| 169 |
-
| Số: 836/VBHN-BLĐTBXH | Hà Nội, ngày 05 tháng 3 năm 2024
|
| 170 |
-
|
| 171 |
-
|
| 172 |
-
THÔNG TƯ
|
| 173 |
-
|
| 174 |
-
|
| 175 |
-
HƯỚNG DẪN THỰC HIỆN QUYẾT ĐỊNH SỐ 170/2008/QĐ-TTG NGÀY 18 THÁNG 12 NĂM 2008 CỦA
|
| 176 |
-
THỦ TƯỚNG CHÍNH PHỦ VỀ CHẾ ĐỘ BẢO HIỂM Y TẾ VÀ TRỢ CẤP MAI TÁNG ĐỐI VỚI THANH
|
| 177 |
-
NIÊN XUNG PHONG THỜI KỲ KHÁNG CHIẾN CHỐNG PHÁP
|
| 178 |
-
|
| 179 |
-
|
| 180 |
-
Thông tư số 24/2009/TT-BLĐTBXH ngày 10 tháng 07 năm 2009 của Bộ trưởng Bộ Lao
|
| 181 |
-
động - Thương binh và Xã hội hướng dẫn thực hiện Quyết định số 17...'
|
| 182 |
-
- 'passage: # 494_2012_NQ_UBTVQH13_art2
|
| 183 |
-
|
| 184 |
-
|
| 185 |
-
Điều 2.
|
| 186 |
-
|
| 187 |
-
|
| 188 |
-
Ủy ban thường vụ Quốc hội yêu cầu Chính phủ, Thủ tướng Chính phủ tập trung thực
|
| 189 |
-
hiện một số nhiệm vụ và giải pháp sau đây:
|
| 190 |
-
|
| 191 |
-
|
| 192 |
-
1. Tiếp tục điều chỉnh nâng mức trợ cấp, phụ cấp đối với người có công với cách
|
| 193 |
-
mạng đồng bộ với lộ trình điều chỉnh tiền lương của cán bộ, công chức nhà nước
|
| 194 |
-
cùng với việc thực hiện các chính sách ưu đãi khác để bảo đảm mục tiêu người có
|
| 195 |
-
công với cách mạng có mức sống bằng hoặc cao hơn mức sống trung bình của dân cư
|
| 196 |
-
nơi cư trú.
|
| 197 |
-
|
| 198 |
-
|
| 199 |
-
2. Tiếp tục thực hiện chính sách hỗ trợ về nhà ở đối với hộ người có công với
|
| 200 |
-
cách mạng đang ở nh...'
|
| 201 |
-
- source_sentence: 'query: Ủy ban Thường vụ Quốc hội ban hành pháp lệnh nào về người
|
| 202 |
-
có công?'
|
| 203 |
-
sentences:
|
| 204 |
-
- 'passage: # 55_2023_NĐ_CP_appendix3
|
| 205 |
-
|
| 206 |
-
|
| 207 |
-
PHỤ LỤC III
|
| 208 |
-
|
| 209 |
-
|
| 210 |
-
MỨC HƯỞNG TRỢ CẤP ƯU ĐÃI HẰNG THÁNG ĐỐI VỚI THƯƠNG BINH LOẠI B (Kèm theo Nghị
|
| 211 |
-
định số 55/2023/NĐ-CP ngày 21 tháng 7 năm 2023 của Chính phủ)
|
| 212 |
-
|
| 213 |
-
|
| 214 |
-
Đơn vị tính: đồng
|
| 215 |
-
|
| 216 |
-
|
| 217 |
-
| STT | Tỷ lệ tổn thương cơ thể | Mức hưởng trợ cấp | STT | Tỷ lệ tổn thương cơ
|
| 218 |
-
thể | Mức hưởng trợ cấp |
|
| 219 |
-
|
| 220 |
-
|---|---|---|---|---|---|
|
| 221 |
-
|
| 222 |
-
| 1 | 21% | 1.144.000 | 21 | 41% | 2.222.000 |
|
| 223 |
-
|
| 224 |
-
| 2 | 22% | 1.198.000 | 22 | 42% | 2.276.000 |
|
| 225 |
-
|
| 226 |
-
| 3 | 23% | 1.249.000 | 23 | 43% | 2.331.000 |
|
| 227 |
-
|
| 228 |
-
| 4 | 24% | 1.306.000 | 24 | 44% | 2.383.000 |
|
| 229 |
-
|
| 230 |
-
| 5 | 25% | 1.362.000 | 25 | 45% | 2.435.000 |
|
| 231 |
-
|
| 232 |
-
| 6 | 26% | 1.413.000 | ...'
|
| 233 |
-
- 'passage: # 63_2010_NĐ_CP_ch2_art10_11
|
| 234 |
-
|
| 235 |
-
Điều 10. Đánh giá tác động của thủ tục hành chính
|
| 236 |
-
|
| 237 |
-
|
| 238 |
-
1. Cơ quan được phân công chủ trì soạn thảo văn bản quy phạm pháp luật có quy
|
| 239 |
-
định về thủ tục hành chính phải tổ chức đánh giá tác động của quy định về thủ
|
| 240 |
-
tục hành chính theo các tiêu chí sau đây:
|
| 241 |
-
|
| 242 |
-
|
| 243 |
-
a) Sự cần thiết của thủ tục hành chính;
|
| 244 |
-
|
| 245 |
-
|
| 246 |
-
b) Tính hợp lý của thủ tục hành chính;
|
| 247 |
-
|
| 248 |
-
|
| 249 |
-
c) Tính hợp pháp của thủ tục hành chính;
|
| 250 |
-
|
| 251 |
-
|
| 252 |
-
d) Các chi phí tuân thủ thủ tục hành chính.
|
| 253 |
-
|
| 254 |
-
|
| 255 |
-
2. Việc đánh giá tác động của thủ tục hành chính thực hiện theo biểu mẫu ban hành
|
| 256 |
-
tại Phụ lục I, II và III của Nghị định này và được cơ quan kiể...'
|
| 257 |
-
- 'passage: # 02_2020_UBTVQH14_preamble
|
| 258 |
-
|
| 259 |
-
ỦY BAN THƯỜNG VỤ QUỐC HỘI
|
| 260 |
-
|
| 261 |
-
-------
|
| 262 |
-
|
| 263 |
-
|
| 264 |
-
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
|
| 265 |
-
|
| 266 |
-
Độc lập - Tự do - Hạnh phúc
|
| 267 |
-
|
| 268 |
-
---------------
|
| 269 |
-
|
| 270 |
-
|
| 271 |
-
Pháp lệnh số: 02/2020/UBTVQH14
|
| 272 |
-
|
| 273 |
-
|
| 274 |
-
Hà Nội, ngày 09 tháng 12 năm 2020
|
| 275 |
-
|
| 276 |
-
|
| 277 |
-
PHÁP LỆNH
|
| 278 |
-
|
| 279 |
-
|
| 280 |
-
ƯU ĐÃI NGƯỜI CÓ CÔNG VỚI CÁCH MẠNG
|
| 281 |
-
|
| 282 |
-
|
| 283 |
-
Căn cứ Hiến pháp nước Cộng hòa xã hội chủ nghĩa Việt Nam;
|
| 284 |
-
|
| 285 |
-
|
| 286 |
-
Căn cứ Nghị quyết số 106/2020/QH14 ngày 10 tháng 6 năm 2020 của Quốc hội về Chương
|
| 287 |
-
trình xây dựng luật, pháp lệnh năm 2021, điều chỉnh Chương trình xây dựng luật,
|
| 288 |
-
pháp lệnh năm 2020;
|
| 289 |
-
|
| 290 |
-
|
| 291 |
-
Ủy ban Thường vụ Quốc hội ban hành Pháp lệnh Ưu đãi người có công với cách mạng.
|
| 292 |
-
|
| 293 |
-
|
| 294 |
-
Chương I
|
| 295 |
-
|
| 296 |
-
...'
|
| 297 |
-
- source_sentence: 'query: Tính hợp pháp của yêu cầu điều kiện cần kiểm tra những
|
| 298 |
-
gì?'
|
| 299 |
-
sentences:
|
| 300 |
-
- 'passage: # 55_2023_NĐ_CP_art1_4
|
| 301 |
-
|
| 302 |
-
|
| 303 |
-
4. Sửa đổi, bổ sung một số điểm, khoản của Điều 12 như sau:
|
| 304 |
-
|
| 305 |
-
|
| 306 |
-
a) Sửa đổi điểm c khoản 1 Điều 12 như sau:
|
| 307 |
-
|
| 308 |
-
|
| 309 |
-
“c) Lấy mẫu hài cốt liệt sĩ: mức chi 50.000 đồng/01 mộ thực hiện lấy mẫu”.
|
| 310 |
-
|
| 311 |
-
|
| 312 |
-
b) Sửa đổi khoản 2 Điều 12 như sau:
|
| 313 |
-
|
| 314 |
-
|
| 315 |
-
“2. Lấy mẫu để đối chứng ADN theo dòng mẹ của liệt sĩ (sau đây gọi chung là mẫu
|
| 316 |
-
đối chứng thân nhân liệt sĩ):
|
| 317 |
-
|
| 318 |
-
|
| 319 |
-
Cơ quan, đơn vị tổ chức đi lấy mẫu đối chứng thân nhân liệt sĩ: nội dung chi được
|
| 320 |
-
thực hiện theo quy định tại điểm b khoản 1 Điều này; hỗ trợ người thuộc diện được
|
| 321 |
-
lấy mẫu đối chứng thân nhân liệt sĩ: mức hỗ trợ 500.000 đồng/người”.
|
| 322 |
-
|
| 323 |
-
|
| 324 |
-
c) S...'
|
| 325 |
-
- 'passage: # 63_2010_NĐ_CP_annex3
|
| 326 |
-
|
| 327 |
-
PHỤ LỤC III
|
| 328 |
-
|
| 329 |
-
|
| 330 |
-
BIỂU MẪU ĐÁNH GIÁ YÊU CẦU, ĐIỀU KIỆN (Ban hành kèm theo Nghị định số 63/2010/NĐ-CP
|
| 331 |
-
ngày 08 tháng 6 năm 2010 của Chính phủ)
|
| 332 |
-
|
| 333 |
-
|
| 334 |
-
| I. Về sự cần thiết của yêu cầu, điều kiện | | |
|
| 335 |
-
|
| 336 |
-
|---|---|---|
|
| 337 |
-
|
| 338 |
-
| 1. Yêu cầu, điều kiện này được đặt ra nhằm đạt được mục tiêu gì? | ................................................................................................
|
| 339 |
-
................................................................................................
|
| 340 |
-
| |
|
| 341 |
-
|
| 342 |
-
| 2. Yêu cầu, điều kiện khi được thực hiện có đáp ứng được mục tiêu đặt ra hay
|
| 343 |
-
không? | a) Có, to...'
|
| 344 |
-
- 'passage: # 47_2009_TTLT_BTC_BLĐTBXH_art4
|
| 345 |
-
|
| 346 |
-
Điều 4. Các khoản chi ưu đãi khác
|
| 347 |
-
|
| 348 |
-
|
| 349 |
-
1. Chi cấp Báo Nhân dân cho người hoạt động cách mạng trước ngày 01/01/1945, người
|
| 350 |
-
hoạt động cách mạng từ ngày 01/01/1945 đến trước tổng khởi nghĩa 19/8/1945.
|
| 351 |
-
|
| 352 |
-
|
| 353 |
-
2. Bảo hiểm y tế.
|
| 354 |
-
|
| 355 |
-
|
| 356 |
-
3. Trợ cấp lễ báo tử liệt sỹ.
|
| 357 |
-
|
| 358 |
-
|
| 359 |
-
4. Trợ cấp mai táng phí.
|
| 360 |
-
|
| 361 |
-
|
| 362 |
-
5. Điều trị, điều dưỡng phục hồi sức khỏe, chức năng lao động.
|
| 363 |
-
|
| 364 |
-
|
| 365 |
-
6. Quà tặng của Chủ tịch nước, chi ăn thêm ngày lễ, tết.
|
| 366 |
-
|
| 367 |
-
|
| 368 |
-
7. Thuốc đặc trị và các điều trị đặc biệt khác cho thương binh, bệnh binh, người
|
| 369 |
-
hưởng chính sách như thương binh điều trị vết thương, bệnh tật tái phát.
|
| 370 |
-
|
| 371 |
-
|
| 372 |
-
8. Giám địn...'
|
| 373 |
-
pipeline_tag: sentence-similarity
|
| 374 |
-
library_name: sentence-transformers
|
| 375 |
-
metrics:
|
| 376 |
-
- cosine_accuracy@1
|
| 377 |
-
- cosine_accuracy@3
|
| 378 |
-
- cosine_accuracy@5
|
| 379 |
-
- cosine_accuracy@10
|
| 380 |
-
- cosine_precision@1
|
| 381 |
-
- cosine_precision@3
|
| 382 |
-
- cosine_precision@5
|
| 383 |
-
- cosine_precision@10
|
| 384 |
-
- cosine_recall@1
|
| 385 |
-
- cosine_recall@3
|
| 386 |
-
- cosine_recall@5
|
| 387 |
-
- cosine_recall@10
|
| 388 |
-
- cosine_ndcg@10
|
| 389 |
-
- cosine_mrr@10
|
| 390 |
-
- cosine_map@100
|
| 391 |
model-index:
|
| 392 |
-
- name:
|
| 393 |
results:
|
| 394 |
- task:
|
| 395 |
type: information-retrieval
|
| 396 |
name: Information Retrieval
|
| 397 |
dataset:
|
| 398 |
-
name:
|
| 399 |
-
type: vietnamese-
|
| 400 |
metrics:
|
| 401 |
-
- type:
|
| 402 |
-
value: 0.
|
| 403 |
-
name:
|
| 404 |
-
- type:
|
| 405 |
-
value: 0.
|
| 406 |
-
name:
|
| 407 |
-
- type:
|
| 408 |
-
value: 0.
|
| 409 |
-
name:
|
| 410 |
-
- type: cosine_accuracy@10
|
| 411 |
-
value: 0.92
|
| 412 |
-
name: Cosine Accuracy@10
|
| 413 |
-
- type: cosine_precision@1
|
| 414 |
-
value: 0.36
|
| 415 |
-
name: Cosine Precision@1
|
| 416 |
-
- type: cosine_precision@3
|
| 417 |
-
value: 0.22666666666666668
|
| 418 |
-
name: Cosine Precision@3
|
| 419 |
-
- type: cosine_precision@5
|
| 420 |
-
value: 0.16799999999999998
|
| 421 |
-
name: Cosine Precision@5
|
| 422 |
-
- type: cosine_precision@10
|
| 423 |
-
value: 0.092
|
| 424 |
-
name: Cosine Precision@10
|
| 425 |
-
- type: cosine_recall@1
|
| 426 |
-
value: 0.36
|
| 427 |
-
name: Cosine Recall@1
|
| 428 |
-
- type: cosine_recall@3
|
| 429 |
-
value: 0.68
|
| 430 |
-
name: Cosine Recall@3
|
| 431 |
-
- type: cosine_recall@5
|
| 432 |
-
value: 0.84
|
| 433 |
-
name: Cosine Recall@5
|
| 434 |
-
- type: cosine_recall@10
|
| 435 |
-
value: 0.92
|
| 436 |
-
name: Cosine Recall@10
|
| 437 |
-
- type: cosine_ndcg@10
|
| 438 |
-
value: 0.6405038728488514
|
| 439 |
-
name: Cosine Ndcg@10
|
| 440 |
-
- type: cosine_mrr@10
|
| 441 |
-
value: 0.5498571428571428
|
| 442 |
-
name: Cosine Mrr@10
|
| 443 |
-
- type: cosine_map@100
|
| 444 |
-
value: 0.5543244559362206
|
| 445 |
-
name: Cosine Map@100
|
| 446 |
---
|
| 447 |
|
| 448 |
-
#
|
| 449 |
-
|
| 450 |
-
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
| 451 |
-
|
| 452 |
-
## Model Details
|
| 453 |
-
|
| 454 |
-
### Model Description
|
| 455 |
-
- **Model Type:** Sentence Transformer
|
| 456 |
-
- **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) <!-- at revision 835193815a3936a24a0ee7dc9e3d48c1fbb19c55 -->
|
| 457 |
-
- **Maximum Sequence Length:** 512 tokens
|
| 458 |
-
- **Output Dimensionality:** 768 dimensions
|
| 459 |
-
- **Similarity Function:** Cosine Similarity
|
| 460 |
-
<!-- - **Training Dataset:** Unknown -->
|
| 461 |
-
<!-- - **Language:** Unknown -->
|
| 462 |
-
<!-- - **License:** Unknown -->
|
| 463 |
-
|
| 464 |
-
### Model Sources
|
| 465 |
|
| 466 |
-
-
|
| 467 |
-
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
| 468 |
-
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 469 |
|
| 470 |
-
|
| 471 |
|
| 472 |
-
|
| 473 |
-
|
| 474 |
-
|
| 475 |
-
|
| 476 |
-
(2): Normalize()
|
| 477 |
-
)
|
| 478 |
-
```
|
| 479 |
|
| 480 |
## Usage
|
| 481 |
|
| 482 |
-
|
| 483 |
-
|
| 484 |
-
First install the Sentence Transformers library:
|
| 485 |
-
|
| 486 |
-
```bash
|
| 487 |
-
pip install -U sentence-transformers
|
| 488 |
-
```
|
| 489 |
-
|
| 490 |
-
Then you can load this model and run inference.
|
| 491 |
-
```python
|
| 492 |
from sentence_transformers import SentenceTransformer
|
| 493 |
|
| 494 |
-
#
|
| 495 |
-
model = SentenceTransformer(
|
| 496 |
-
# Run inference
|
| 497 |
-
sentences = [
|
| 498 |
-
'query: Tính hợp pháp của yêu cầu điều kiện cần kiểm tra những gì?',
|
| 499 |
-
'passage: # 63_2010_NĐ_CP_annex3\nPHỤ LỤC III\n\nBIỂU MẪU ĐÁNH GIÁ YÊU CẦU, ĐIỀU KIỆN (Ban hành kèm theo Nghị định số 63/2010/NĐ-CP ngày 08 tháng 6 năm 2010 của Chính phủ)\n\n| I. Về sự cần thiết của yêu cầu, điều kiện | | |\n|---|---|---|\n| 1. Yêu cầu, điều kiện này được đặt ra nhằm đạt được mục tiêu gì? | ................................................................................................ ................................................................................................ | |\n| 2. Yêu cầu, điều kiện khi được thực hiện có đáp ứng được mục tiêu đặt ra hay không? | a) Có, to...',
|
| 500 |
-
'passage: # 55_2023_NĐ_CP_art1_4\n\n4. Sửa đổi, bổ sung một số điểm, khoản của Điều 12 như sau:\n\na) Sửa đổi điểm c khoản 1 Điều 12 như sau:\n\n“c) Lấy mẫu hài cốt liệt sĩ: mức chi 50.000 đồng/01 mộ thực hiện lấy mẫu”.\n\nb) Sửa đổi khoản 2 Điều 12 như sau:\n\n“2. Lấy mẫu để đối chứng ADN theo dòng mẹ của liệt sĩ (sau đây gọi chung là mẫu đối chứng thân nhân liệt sĩ):\n\nCơ quan, đơn vị tổ chức đi lấy mẫu đối chứng thân nhân liệt sĩ: nội dung chi được thực hiện theo quy định tại điểm b khoản 1 Điều này; hỗ trợ người thuộc diện được lấy mẫu đối chứng thân nhân liệt sĩ: mức hỗ trợ 500.000 đồng/người”.\n\nc) S...',
|
| 501 |
-
]
|
| 502 |
-
embeddings = model.encode(sentences)
|
| 503 |
-
print(embeddings.shape)
|
| 504 |
-
# [3, 768]
|
| 505 |
-
|
| 506 |
-
# Get the similarity scores for the embeddings
|
| 507 |
-
similarities = model.similarity(embeddings, embeddings)
|
| 508 |
-
print(similarities.shape)
|
| 509 |
-
# [3, 3]
|
| 510 |
-
```
|
| 511 |
-
|
| 512 |
-
<!--
|
| 513 |
-
### Direct Usage (Transformers)
|
| 514 |
-
|
| 515 |
-
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 516 |
|
| 517 |
-
|
| 518 |
-
|
|
|
|
| 519 |
|
| 520 |
-
|
| 521 |
-
|
|
|
|
| 522 |
|
| 523 |
-
|
|
|
|
|
|
|
|
|
|
| 524 |
|
| 525 |
-
|
| 526 |
|
| 527 |
-
|
| 528 |
-
|
|
|
|
|
|
|
|
|
|
| 529 |
|
| 530 |
-
|
| 531 |
-
### Out-of-Scope Use
|
| 532 |
|
| 533 |
-
|
| 534 |
-
|
|
|
|
|
|
|
|
|
|
| 535 |
|
| 536 |
-
##
|
| 537 |
|
| 538 |
-
|
| 539 |
-
|
| 540 |
-
|
| 541 |
-
|
| 542 |
-
|
| 543 |
-
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
|
| 544 |
-
|
| 545 |
-
| Metric | Value |
|
| 546 |
-
|:--------------------|:-----------|
|
| 547 |
-
| cosine_accuracy@1 | 0.36 |
|
| 548 |
-
| cosine_accuracy@3 | 0.68 |
|
| 549 |
-
| cosine_accuracy@5 | 0.84 |
|
| 550 |
-
| cosine_accuracy@10 | 0.92 |
|
| 551 |
-
| cosine_precision@1 | 0.36 |
|
| 552 |
-
| cosine_precision@3 | 0.2267 |
|
| 553 |
-
| cosine_precision@5 | 0.168 |
|
| 554 |
-
| cosine_precision@10 | 0.092 |
|
| 555 |
-
| cosine_recall@1 | 0.36 |
|
| 556 |
-
| cosine_recall@3 | 0.68 |
|
| 557 |
-
| cosine_recall@5 | 0.84 |
|
| 558 |
-
| cosine_recall@10 | 0.92 |
|
| 559 |
-
| **cosine_ndcg@10** | **0.6405** |
|
| 560 |
-
| cosine_mrr@10 | 0.5499 |
|
| 561 |
-
| cosine_map@100 | 0.5543 |
|
| 562 |
-
|
| 563 |
-
<!--
|
| 564 |
-
## Bias, Risks and Limitations
|
| 565 |
-
|
| 566 |
-
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
| 567 |
-
-->
|
| 568 |
-
|
| 569 |
-
<!--
|
| 570 |
-
### Recommendations
|
| 571 |
-
|
| 572 |
-
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 573 |
-
-->
|
| 574 |
-
|
| 575 |
-
## Training Details
|
| 576 |
-
|
| 577 |
-
### Training Dataset
|
| 578 |
-
|
| 579 |
-
#### Unnamed Dataset
|
| 580 |
-
|
| 581 |
-
* Size: 2,954 training samples
|
| 582 |
-
* Columns: <code>sentence_0</code> and <code>sentence_1</code>
|
| 583 |
-
* Approximate statistics based on the first 1000 samples:
|
| 584 |
-
| | sentence_0 | sentence_1 |
|
| 585 |
-
|:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
| 586 |
-
| type | string | string |
|
| 587 |
-
| details | <ul><li>min: 13 tokens</li><li>mean: 22.07 tokens</li><li>max: 36 tokens</li></ul> | <ul><li>min: 93 tokens</li><li>mean: 188.92 tokens</li><li>max: 304 tokens</li></ul> |
|
| 588 |
-
* Samples:
|
| 589 |
-
| sentence_0 | sentence_1 |
|
| 590 |
-
|:-----------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 591 |
-
| <code>query: Quyết định số 170/2008/QĐ-TTG quy định về vấn đề gì đối với thanh niên xung phong?</code> | <code>passage: # 836_2024_VBHN_BLDTBXH_preamble<br><br><br>| BỘ LAO ĐỘNG - THƯƠNG BINH VÀ XÃ HỘI -------- | CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc ---------------<br>|---|---|<br>| Số: 836/VBHN-BLĐTBXH | Hà Nội, ngày 05 tháng 3 năm 2024<br><br>THÔNG TƯ<br><br>HƯỚNG DẪN THỰC HIỆN QUYẾT ĐỊNH SỐ 170/2008/QĐ-TTG NGÀY 18 THÁNG 12 NĂM 2008 CỦA THỦ TƯỚNG CHÍNH PHỦ VỀ CHẾ ĐỘ BẢO HIỂM Y TẾ VÀ TRỢ CẤP MAI TÁNG ĐỐI VỚI THANH NIÊN XUNG PHONG THỜI KỲ KHÁNG CHIẾN CHỐNG PHÁP<br><br>Thông tư số 24/2009/TT-BLĐTBXH ngày 10 tháng 07 năm 2009 của Bộ trưởng Bộ Lao động - Thương binh và Xã hội hướng dẫn thực hiện Quyết định số 17...</code> |
|
| 592 |
-
| <code>query: Quyết định về miễn giảm tiền sử dụng đất người có công có hiệu lực sau bao nhiêu ngày?</code> | <code>passage: # 31_2011_QD_UBND_art1_3<br><br>Điều 1. Ban hành kèm theo Quyết định này là Quy định về trình tự, thủ tục giải quyết chế độ miễn, giảm tiền sử dụng đất cho người có công với cách mạng trên địa bàn tỉnh Gia Lai.<br><br>Điều 2. Quyết định này có hiệu lực thi hành sau 10 ngày, kể từ ngày ký.<br><br>Điều 3. Chánh văn phòng UBND tỉnh; Giám đốc các Sở: Lao động Thương binh và Xã hội, Tài chính; Cục trưởng Cục Thuế tỉnh; Chủ tịch UBND các Huyện, Thị xã, Thành phố; Thủ trưởng các Ban, ngành liên quan của tỉnh chịu trách nhiệm thi hành Quyết định này./.<br><br>| | TM. UỶ BAN NHÂN DÂN TỈNH CHỦ TỊCH Phạm Thế Dũng |<br>|-...</code> |
|
| 593 |
-
| <code>query: Chi hoạt động văn nghệ cho người có công nuôi dưỡng căn cứ vào gì?</code> | <code>passage: # 101_2018_TT_BTC_ch2_art10<br>Điều 10. Chi hỗ trợ hoạt động của cơ sở nuôi dưỡng, điều dưỡng người có công với cách mạng, cơ sở đón tiếp người có công với cách mạng và thân nhân do ngành LĐTBXH quản lý<br><br>1. Ngoài các khoản chi quy định tại khoản 2 Điều 9 Thông tư này, cơ sở nuôi dưỡng, điều dưỡng người có công với cách mạng, cơ sở đón tiếp người có công với cách mạng và thân nhân (sau đây gọi tắt là cơ sở) được hỗ trợ để chi các khoản phục vụ công tác nuôi dưỡng, điều dưỡng, đón tiếp, bao gồm:<br><br>a) Sửa chữa, cải tạo, nâng cấp cơ sở vật chất, trang thiết bị, nhà cửa, hạ tầng phục vụ công t...</code> |
|
| 594 |
-
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 595 |
-
```json
|
| 596 |
-
{
|
| 597 |
-
"scale": 20.0,
|
| 598 |
-
"similarity_fct": "cos_sim"
|
| 599 |
-
}
|
| 600 |
-
```
|
| 601 |
-
|
| 602 |
-
### Training Hyperparameters
|
| 603 |
-
#### Non-Default Hyperparameters
|
| 604 |
-
|
| 605 |
-
- `eval_strategy`: steps
|
| 606 |
-
- `per_device_train_batch_size`: 16
|
| 607 |
-
- `per_device_eval_batch_size`: 16
|
| 608 |
-
- `multi_dataset_batch_sampler`: round_robin
|
| 609 |
-
|
| 610 |
-
#### All Hyperparameters
|
| 611 |
-
<details><summary>Click to expand</summary>
|
| 612 |
-
|
| 613 |
-
- `overwrite_output_dir`: False
|
| 614 |
-
- `do_predict`: False
|
| 615 |
-
- `eval_strategy`: steps
|
| 616 |
-
- `prediction_loss_only`: True
|
| 617 |
-
- `per_device_train_batch_size`: 16
|
| 618 |
-
- `per_device_eval_batch_size`: 16
|
| 619 |
-
- `per_gpu_train_batch_size`: None
|
| 620 |
-
- `per_gpu_eval_batch_size`: None
|
| 621 |
-
- `gradient_accumulation_steps`: 1
|
| 622 |
-
- `eval_accumulation_steps`: None
|
| 623 |
-
- `torch_empty_cache_steps`: None
|
| 624 |
-
- `learning_rate`: 5e-05
|
| 625 |
-
- `weight_decay`: 0.0
|
| 626 |
-
- `adam_beta1`: 0.9
|
| 627 |
-
- `adam_beta2`: 0.999
|
| 628 |
-
- `adam_epsilon`: 1e-08
|
| 629 |
-
- `max_grad_norm`: 1
|
| 630 |
-
- `num_train_epochs`: 3
|
| 631 |
-
- `max_steps`: -1
|
| 632 |
-
- `lr_scheduler_type`: linear
|
| 633 |
-
- `lr_scheduler_kwargs`: {}
|
| 634 |
-
- `warmup_ratio`: 0.0
|
| 635 |
-
- `warmup_steps`: 0
|
| 636 |
-
- `log_level`: passive
|
| 637 |
-
- `log_level_replica`: warning
|
| 638 |
-
- `log_on_each_node`: True
|
| 639 |
-
- `logging_nan_inf_filter`: True
|
| 640 |
-
- `save_safetensors`: True
|
| 641 |
-
- `save_on_each_node`: False
|
| 642 |
-
- `save_only_model`: False
|
| 643 |
-
- `restore_callback_states_from_checkpoint`: False
|
| 644 |
-
- `no_cuda`: False
|
| 645 |
-
- `use_cpu`: False
|
| 646 |
-
- `use_mps_device`: False
|
| 647 |
-
- `seed`: 42
|
| 648 |
-
- `data_seed`: None
|
| 649 |
-
- `jit_mode_eval`: False
|
| 650 |
-
- `use_ipex`: False
|
| 651 |
-
- `bf16`: False
|
| 652 |
-
- `fp16`: False
|
| 653 |
-
- `fp16_opt_level`: O1
|
| 654 |
-
- `half_precision_backend`: auto
|
| 655 |
-
- `bf16_full_eval`: False
|
| 656 |
-
- `fp16_full_eval`: False
|
| 657 |
-
- `tf32`: None
|
| 658 |
-
- `local_rank`: 0
|
| 659 |
-
- `ddp_backend`: None
|
| 660 |
-
- `tpu_num_cores`: None
|
| 661 |
-
- `tpu_metrics_debug`: False
|
| 662 |
-
- `debug`: []
|
| 663 |
-
- `dataloader_drop_last`: False
|
| 664 |
-
- `dataloader_num_workers`: 0
|
| 665 |
-
- `dataloader_prefetch_factor`: None
|
| 666 |
-
- `past_index`: -1
|
| 667 |
-
- `disable_tqdm`: False
|
| 668 |
-
- `remove_unused_columns`: True
|
| 669 |
-
- `label_names`: None
|
| 670 |
-
- `load_best_model_at_end`: False
|
| 671 |
-
- `ignore_data_skip`: False
|
| 672 |
-
- `fsdp`: []
|
| 673 |
-
- `fsdp_min_num_params`: 0
|
| 674 |
-
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 675 |
-
- `tp_size`: 0
|
| 676 |
-
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 677 |
-
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 678 |
-
- `deepspeed`: None
|
| 679 |
-
- `label_smoothing_factor`: 0.0
|
| 680 |
-
- `optim`: adamw_torch
|
| 681 |
-
- `optim_args`: None
|
| 682 |
-
- `adafactor`: False
|
| 683 |
-
- `group_by_length`: False
|
| 684 |
-
- `length_column_name`: length
|
| 685 |
-
- `ddp_find_unused_parameters`: None
|
| 686 |
-
- `ddp_bucket_cap_mb`: None
|
| 687 |
-
- `ddp_broadcast_buffers`: False
|
| 688 |
-
- `dataloader_pin_memory`: True
|
| 689 |
-
- `dataloader_persistent_workers`: False
|
| 690 |
-
- `skip_memory_metrics`: True
|
| 691 |
-
- `use_legacy_prediction_loop`: False
|
| 692 |
-
- `push_to_hub`: False
|
| 693 |
-
- `resume_from_checkpoint`: None
|
| 694 |
-
- `hub_model_id`: None
|
| 695 |
-
- `hub_strategy`: every_save
|
| 696 |
-
- `hub_private_repo`: None
|
| 697 |
-
- `hub_always_push`: False
|
| 698 |
-
- `gradient_checkpointing`: False
|
| 699 |
-
- `gradient_checkpointing_kwargs`: None
|
| 700 |
-
- `include_inputs_for_metrics`: False
|
| 701 |
-
- `include_for_metrics`: []
|
| 702 |
-
- `eval_do_concat_batches`: True
|
| 703 |
-
- `fp16_backend`: auto
|
| 704 |
-
- `push_to_hub_model_id`: None
|
| 705 |
-
- `push_to_hub_organization`: None
|
| 706 |
-
- `mp_parameters`:
|
| 707 |
-
- `auto_find_batch_size`: False
|
| 708 |
-
- `full_determinism`: False
|
| 709 |
-
- `torchdynamo`: None
|
| 710 |
-
- `ray_scope`: last
|
| 711 |
-
- `ddp_timeout`: 1800
|
| 712 |
-
- `torch_compile`: False
|
| 713 |
-
- `torch_compile_backend`: None
|
| 714 |
-
- `torch_compile_mode`: None
|
| 715 |
-
- `include_tokens_per_second`: False
|
| 716 |
-
- `include_num_input_tokens_seen`: False
|
| 717 |
-
- `neftune_noise_alpha`: None
|
| 718 |
-
- `optim_target_modules`: None
|
| 719 |
-
- `batch_eval_metrics`: False
|
| 720 |
-
- `eval_on_start`: False
|
| 721 |
-
- `use_liger_kernel`: False
|
| 722 |
-
- `eval_use_gather_object`: False
|
| 723 |
-
- `average_tokens_across_devices`: False
|
| 724 |
-
- `prompts`: None
|
| 725 |
-
- `batch_sampler`: batch_sampler
|
| 726 |
-
- `multi_dataset_batch_sampler`: round_robin
|
| 727 |
-
|
| 728 |
-
</details>
|
| 729 |
-
|
| 730 |
-
### Training Logs
|
| 731 |
-
| Epoch | Step | vietnamese-eval_cosine_ndcg@10 |
|
| 732 |
-
|:-----:|:----:|:------------------------------:|
|
| 733 |
-
| 1.0 | 93 | 0.6405 |
|
| 734 |
-
|
| 735 |
-
|
| 736 |
-
### Framework Versions
|
| 737 |
-
- Python: 3.11.11
|
| 738 |
-
- Sentence Transformers: 3.4.1
|
| 739 |
-
- Transformers: 4.51.3
|
| 740 |
-
- PyTorch: 2.6.0+cu124
|
| 741 |
-
- Accelerate: 1.5.2
|
| 742 |
-
- Datasets: 3.6.0
|
| 743 |
-
- Tokenizers: 0.21.1
|
| 744 |
|
| 745 |
## Citation
|
| 746 |
|
| 747 |
-
|
| 748 |
-
|
| 749 |
-
|
| 750 |
-
|
| 751 |
-
|
| 752 |
-
|
| 753 |
-
author = "Reimers, Nils and Gurevych, Iryna",
|
| 754 |
-
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 755 |
-
month = "11",
|
| 756 |
-
year = "2019",
|
| 757 |
-
publisher = "Association for Computational Linguistics",
|
| 758 |
-
url = "https://arxiv.org/abs/1908.10084",
|
| 759 |
}
|
| 760 |
-
|
| 761 |
-
|
| 762 |
-
#### MultipleNegativesRankingLoss
|
| 763 |
-
```bibtex
|
| 764 |
-
@misc{henderson2017efficient,
|
| 765 |
-
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
| 766 |
-
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
| 767 |
-
year={2017},
|
| 768 |
-
eprint={1705.00652},
|
| 769 |
-
archivePrefix={arXiv},
|
| 770 |
-
primaryClass={cs.CL}
|
| 771 |
-
}
|
| 772 |
-
```
|
| 773 |
-
|
| 774 |
-
<!--
|
| 775 |
-
## Glossary
|
| 776 |
-
|
| 777 |
-
*Clearly define terms in order to be accessible across audiences.*
|
| 778 |
-
-->
|
| 779 |
-
|
| 780 |
-
<!--
|
| 781 |
-
## Model Card Authors
|
| 782 |
-
|
| 783 |
-
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 784 |
-
-->
|
| 785 |
|
| 786 |
-
|
| 787 |
-
## Model Card Contact
|
| 788 |
|
| 789 |
-
|
| 790 |
-
-->
|
|
|
|
| 1 |
---
|
| 2 |
+
language:
|
| 3 |
+
- vi
|
| 4 |
+
- en
|
| 5 |
+
library_name: sentence-transformers
|
| 6 |
+
pipeline_tag: sentence-similarity
|
| 7 |
tags:
|
| 8 |
- sentence-transformers
|
| 9 |
- sentence-similarity
|
| 10 |
- feature-extraction
|
| 11 |
+
- vietnamese
|
| 12 |
+
- legal-documents
|
| 13 |
+
- veterans
|
| 14 |
+
- contrastive-learning
|
| 15 |
+
datasets:
|
| 16 |
+
- ng3owb/congbot-e5-training-data
|
| 17 |
+
license: apache-2.0
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 18 |
model-index:
|
| 19 |
+
- name: congbot-e5
|
| 20 |
results:
|
| 21 |
- task:
|
| 22 |
type: information-retrieval
|
| 23 |
name: Information Retrieval
|
| 24 |
dataset:
|
| 25 |
+
name: Vietnamese Veterans Legal Documents
|
| 26 |
+
type: vietnamese-legal
|
| 27 |
metrics:
|
| 28 |
+
- type: mrr_at_1
|
| 29 |
+
value: 0.42
|
| 30 |
+
name: MRR@1
|
| 31 |
+
- type: mrr_at_3
|
| 32 |
+
value: 0.52
|
| 33 |
+
name: MRR@3
|
| 34 |
+
- type: mrr_at_5
|
| 35 |
+
value: 0.56
|
| 36 |
+
name: MRR@5
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 37 |
---
|
| 38 |
|
| 39 |
+
# CongBot-E5: Vietnamese Legal Document Retrieval Model
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 40 |
|
| 41 |
+
This model is a fine-tuned version of [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) specifically optimized for Vietnamese legal documents related to veterans and war invalids ("người có công với cách mạng").
|
|
|
|
|
|
|
| 42 |
|
| 43 |
+
## Model Description
|
| 44 |
|
| 45 |
+
CongBot-E5 is trained using optimized techniques including:
|
| 46 |
+
- **MultipleNegativesRankingLoss** with optimal batch size for better in-batch negatives
|
| 47 |
+
- **Domain-specific fine-tuning** on Vietnamese legal documents
|
| 48 |
+
- **Simplified training approach** for better stability and performance
|
|
|
|
|
|
|
|
|
|
| 49 |
|
| 50 |
## Usage
|
| 51 |
|
| 52 |
+
~~~python
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 53 |
from sentence_transformers import SentenceTransformer
|
| 54 |
|
| 55 |
+
# Load model
|
| 56 |
+
model = SentenceTransformer('ng3owb/congbot-e5')
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 57 |
|
| 58 |
+
# Encode queries and passages
|
| 59 |
+
query = "query: Hướng dẫn về quản lý kinh phí cho người có công?"
|
| 60 |
+
passage = "passage: Thông tư liên tịch về hướng dẫn thực hiện..."
|
| 61 |
|
| 62 |
+
# Get embeddings
|
| 63 |
+
query_embedding = model.encode(query)
|
| 64 |
+
passage_embedding = model.encode(passage)
|
| 65 |
|
| 66 |
+
# Calculate similarity
|
| 67 |
+
import numpy as np
|
| 68 |
+
similarity = np.dot(query_embedding, passage_embedding)
|
| 69 |
+
~~~
|
| 70 |
|
| 71 |
+
## Training Data
|
| 72 |
|
| 73 |
+
The model was trained on a curated dataset of Vietnamese legal documents with focus on:
|
| 74 |
+
- Legal regulations for veterans
|
| 75 |
+
- Financial management guidelines
|
| 76 |
+
- Social welfare policies
|
| 77 |
+
- Administrative procedures
|
| 78 |
|
| 79 |
+
## Performance
|
|
|
|
| 80 |
|
| 81 |
+
| Metric | Original E5-Base | CongBot-E5 | Improvement |
|
| 82 |
+
|--------|------------------|------------|-------------|
|
| 83 |
+
| MRR@1 | 0.36 | 0.42 | +16.7% |
|
| 84 |
+
| MRR@3 | 0.47 | 0.52 | +10.6% |
|
| 85 |
+
| MRR@5 | 0.50 | 0.56 | +12.0% |
|
| 86 |
|
| 87 |
+
## Technical Details
|
| 88 |
|
| 89 |
+
- **Base Model**: intfloat/multilingual-e5-base
|
| 90 |
+
- **Training Technique**: MultipleNegativesRankingLoss
|
| 91 |
+
- **Training Epochs**: 3
|
| 92 |
+
- **Batch Size**: 32
|
| 93 |
+
- **Learning Rate**: 2e-5
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 94 |
|
| 95 |
## Citation
|
| 96 |
|
| 97 |
+
~~~bibtex
|
| 98 |
+
@misc{congbot-e5-2025,
|
| 99 |
+
title={CongBot-E5: Vietnamese Legal Document Retrieval Model},
|
| 100 |
+
author={ng3owb},
|
| 101 |
+
year={2025},
|
| 102 |
+
url={https://huggingface.co/ng3owb/congbot-e5}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 103 |
}
|
| 104 |
+
~~~
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 105 |
|
| 106 |
+
## License
|
|
|
|
| 107 |
|
| 108 |
+
Apache 2.0
|
|
|