File size: 56,982 Bytes
0e2edcf |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794 795 796 797 798 799 800 801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 818 819 820 821 822 823 824 825 826 827 828 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848 849 850 851 852 853 854 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 870 871 872 873 874 875 876 877 878 879 880 881 882 883 884 885 886 887 888 889 890 891 892 893 894 895 896 897 898 899 900 901 902 903 904 905 906 907 908 909 910 911 912 913 914 915 916 917 918 919 920 921 922 923 924 925 926 927 928 929 930 931 932 933 934 935 936 937 938 939 940 941 942 943 944 945 946 947 948 949 950 951 952 953 954 955 956 957 958 959 960 961 962 963 964 965 966 967 968 969 970 971 972 973 974 975 976 977 978 979 980 981 982 983 984 985 |
---
language:
- vi
license: apache-2.0
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- dense
- generated_from_trainer
- dataset_size:57371
- loss:MatryoshkaLoss
- loss:MultipleNegativesRankingLoss
base_model: bkai-foundation-models/vietnamese-bi-encoder
widget:
- source_sentence: "Điều 1 Quyết_định 1788 / QĐ - UBND Quy_định tạm_thời định mức\
\ chi_phí trong xây_dựng có nội_dung như sau : \n \n Điều 1 . : Quy_định tạm_thời\
\ một_số định mức chi_phí trong xây_dựng cơ_bản lâm_sinh thuộc Dự_án 661 trên\
\ địa_bàn tỉnh Quảng_Bình như sau : \n 1 . Đối_với trồng và chăm_sóc rừng trồng\
\ phòng_hộ , rừng đặc_dụng : \n - Chi_phí trực_tiếp ( nhân_công , vật_tư ) được\
\ xây_dựng trên cơ_sở định mức ban_hành tại Quyết_định số 38 / 2005 / QĐ - BNN\
\ ngày 06 / 7 / 2005 của Bộ Nông_nghiệp và PTNT và đơn_giá trên địa_bàn tỉnh .\
\ \n - Chi_phí phục_vụ được tính theo Phụ_lục kèm theo Quyết_định này . \n 2 .\
\ Đối_với khoanh nuôi xúc_tiến tái_sinh có trồng bổ_sung cây lâm_nghiệp : \n Mức\
\ đầu_tư bình_quân là 2 triệu đồng / ha / 6 năm . Mức đầu_tư cụ_thể cho từng năm\
\ theo Phụ_lục kèm theo Quyết_định này ."
sentences:
- Khi có quyết_định tuyên_bố phá_sản thì doanh_nghiệp phải giải_quyết các khoản
nợ theo thứ tự phân_chia tài_sản như thế_nào ?
- Mức phạt đối_với hành_vi cản_trở trái_phép việc nghiên_cứu khoa_học sử_dụng ngân_sách
nhà nướcđược quy_định như thế_nào ?
- Điều 1 Quyết_định 1788 / QĐ - UBND Quy_định tạm_thời định mức chi_phí trong xây_dựng
- source_sentence: "Điều 14 . Điều_kiện , mức hưởng , trình_tự , thủ_tục và cơ_quan\
\ có trách_nhiệm bảo_đảm kinh_phí khám bệnh , chữa bệnh cho Dân_quân tự_vệ không\
\ tham_gia_bảo_hiểm y_tế nếu bị ốm_đau , bị tai_nạn , bị_thương 1 . Điều_kiện\
\ \n a ) Dân_quân tự_vệ trong thời_gian thực_hiện nhiệm_vụ theo quyết_định điều_động\
\ , huy_động hoặc làm nhiệm_vụ theo kế_hoạch được cấp có thẩm_quyền phê_duyệt\
\ , nếu bị ốm_đau , bị tai_nạn , bị_thương được khám bệnh , chữa bệnh tại các\
\ cơ_sở khám bệnh , chữa bệnh quân , dân y theo quy_định ; \n b ) Dân_quân tự_vệ\
\ không được khám bệnh , chữa bệnh nếu bị ốm_đau , bị tai_nạn , bị_thương khi\
\ : cố_ý tự hủy_hoại sức_khỏe của bản_thân hoặc tai_nạn do mâu_thuẫn của chính\
\ bản_thân với người gây ra tai_nạn mà không liên_quan đến thực_hiện nhiệm_vụ\
\ hoặc tai_nạn do sử_dụng rượu , bia , sử_dụng chất ma_túy , tiền chất ma_túy\
\ hoặc chất gây nghiện khác theo quy_định của pháp_luật . \n 2 . Mức_hưởng \n\
\ Chi_phí khám bệnh , chữa bệnh như mức hưởng bảo_hiểm y_tế cho hạ_sĩ_quan , binh_sĩ\
\ Quân_đội nhân_dân Việt_Nam đang tại_ngũ . Trong thời_gian điều_trị nội_trú được\
\ bảo_đảm tiền ăn bệnh_lý . Trường_hợp Dân_quân tự_vệ đang điều_trị nội_trú ,\
\ nhưng hết thời_gian làm nhiệm_vụ thì được thanh_toán chi_phí khám bệnh , chữa\
\ bệnh và tiền ăn bệnh_lý nhưng tối_đa không quá 15 ngày ; nếu hết 15 ngày bệnh\
\ vẫn chưa ổn_định thì điều_trị đến khi ổn_định và được thanh_toán 100 % tiền\
\ khám , chữa bệnh . \n 3 . Trình_tự giải_quyết \n a ) Dân_quân hoặc người đại_diện\
\ hợp_pháp của dân_quân gửi trực_tiếp hoặc qua bưu_chính , môi_trường điện_tử\
\ đơn đề_nghị thanh_toán tiền khám bệnh , chữa bệnh cho dân_quân kèm theo phiếu\
\ xét_nghiệm , đơn thuốc , hóa_đơn thu tiền , giấy ra viện cho cơ_quan quân_sự\
\ địa_phương . Dân_quân thuộc đơn_vị Dân_quân tự_vệ của cấp nào tổ_chức thì gửi\
\ đơn cho cơ_quan quân_sự địa_phương cấp đó ; trường_hợp không hợp_lệ , trong\
\ thời_hạn 03 ngày làm_việc kể từ ngày nhận được đơn đề_nghị , cơ_quan quân_sự\
\ địa_phương phải có văn_bản hướng_dẫn gửi người nộp đơn để bổ_sung , hoàn_thiện\
\ ; \n b ) Trong thời_hạn 10 ngày làm_việc , kể từ ngày nhận đơn đề_nghị , cơ_quan\
\ quân_sự địa_phương lập 01 bộ hồ_sơ . Tư_lệnh Bộ Tư_lệnh Thủ_đô Hà_Nội , Tư_lệnh\
\ Bộ Tư_lệnh Thành_phố Hồ_Chí_Minh , Chỉ_huy_trưởng Bộ_chỉ_huy \n quân_sự cấp\
\ tỉnh , Chỉ_huy_trưởng Ban chỉ_huy quân_sự cấp huyện trình Chủ_tịch Ủy_ban nhân_dân\
\ cùng cấp quyết_định . Chỉ_huy_trưởng Ban chỉ_huy quân_sự cấp xã báo_cáo Chủ_tịch\
\ Ủy_ban nhân_dân cấp xã trình Chủ_tịch Ủy_ban nhân_dân cấp huyện quyết_định ;\
\ \n c ) Trong thời_hạn 05 ngày làm_việc , kể từ ngày nhận được hồ_sơ trình ,\
\ Chủ_tịch Ủy_ban nhân_dân cấp huyện hoặc Chủ_tịch Ủy_ban nhân_dân cấp tỉnh quyết_định\
\ kinh_phí khám bệnh , chữa bệnh cho dân_quân ; \n d ) Trong thời_hạn 10 ngày\
\ làm_việc , kể từ ngày ra quyết_định , Ủy_ban nhân_dân cấp xã có trách_nhiệm\
\ thực_hiện chi_trả kinh_phí khám bệnh , chữa bệnh cho dân_quân ; nơi không có\
\ đơn_vị hành_chính cấp xã do Ban chỉ_huy quân_sự cấp huyện thực_hiện chi_trả\
\ ; việc chi_trả bằng hình_thức chuyển_khoản hoặc qua đường bưu_chính hoặc trực_tiếp_nhận\
\ ở cấp xã . \n 4 . Hồ_sơ : \n a ) Đơn đề_nghị thanh_toán chi_phí khám bệnh ,\
\ chữa bệnh của dân_quân hoặc người đại_diện hợp_pháp của dân_quân . Mẫu_đơn quy_định\
\ tại Phụ_lục III ban_hành kèm theo Nghị_định này ; \n b ) Phiếu xét_nghiệm ,\
\ đơn thuốc , hóa_đơn thu tiền , giấy xuất_viện ; \n c ) Quyết_định công_dân thực_hiện\
\ nghĩa_vụ tham_gia Dân_quân tự_vệ ; quyết_định điều_động hoặc huy_động hoặc kế_hoạch\
\ thực_hiện nhiệm_vụ được cấp có thẩm_quyền phê_duyệt . \n 5 . Kinh_phí bảo_đảm\
\ thực_hiện chế_độ , chính_sách theo quy_định tại Điều này do Ủy_ban nhân_dân\
\ cấp huyện bảo_đảm đối_với dân_quân do cơ_quan quân_sự địa_phương cấp huyện ,\
\ cấp xã quản_lý ; Ủy_ban nhân_dân cấp tỉnh bảo_đảm kinh_phí đối_với dân_quân\
\ do cơ_quan quân_sự địa_phương cấp tỉnh quản_lý ."
sentences:
- Áp_dụng xuất_xứ hàng_hóa hàng dệt may thế_nào ?
- Trẻ_em là công_dân Việt_Nam được người nước_ngoài nhận nuôi thì có được giữ quốc_tịch
Việt_Nam không ?
- Dân_quân tự_vệ được hưởng kinh_phí khám chữa bệnh khi không tham_gia BHYT phải
thỏa_các điều_kiện nào ?
- source_sentence: "Điều 87 . Nghĩa_vụ của người được hưởng án_treo 1 . Có_mặt theo\
\ giấy triệu_tập và cam_kết việc chấp_hành án theo quy_định tại khoản 1 Điều 85\
\ của Luật này . \n 2 . Thực_hiện nghiêm_chỉnh cam_kết trong việc tuân_thủ pháp_luật\
\ , nghĩa_vụ công_dân , nội_quy , quy_chế của nơi cư_trú , nơi làm_việc , học_tập\
\ ; chấp_hành đầy_đủ hình_phạt bổ_sung , nghĩa_vụ bồi_thường thiệt_hại , trừ trường_hợp\
\ vì lý_do khách_quan được cơ_quan nhà_nước có thẩm_quyền xác_nhận . \n 3 . Chịu\
\ sự giám_sát , giáo_dục của Ủy_ban nhân_dân cấp xã , đơn_vị quân_đội được giao\
\ giám_sát , giáo_dục , cơ_quan thi_hành án hình_sự Công_an cấp huyện , cơ_quan\
\ thi_hành án hình_sự cấp quân_khu nơi cư_trú , nơi làm_việc . \n 4 . Chấp_hành\
\ quy_định tại Điều 92 của Luật này . \n 5 . Phải có_mặt theo yêu_cầu của Ủy_ban\
\ nhân_dân cấp xã hoặc đơn_vị quân_đội được giao giám_sát , giáo_dục , cơ_quan\
\ thi_hành án hình_sự Công_an cấp huyện , cơ_quan thi_hành án hình_sự cấp quân_khu\
\ . \n 6 . Hằng tháng phải báo_cáo bằng văn_bản với Ủy_ban nhân_dân cấp xã , đơn_vị\
\ quân_đội được giao giám_sát , giáo_dục về tình_hình chấp_hành nghĩa_vụ của mình\
\ . Trường_hợp vắng_mặt theo quy_định tại khoản 1 Điều 92 của Luật này thì khi\
\ hết thời_hạn vắng_mặt , người được hưởng án_treo phải báo_cáo về tình_hình chấp_hành\
\ nghĩa_vụ của mình ."
sentences:
- Thẩm_quyền tiếp_nhận , giải_quyết chế_độ cho các trường_hợp F1
- Doanh_nghiệp nước_ngoài có được mua nhà , đất tại Việt_Nam ?
- Nghĩa_vụ thông_báo tình_hình chấp_hành của người được hưởng án_treo được quy_định
như thế_nào ?
- source_sentence: "Căn_cứ khoản 2 Điều 185 Luật Doanh_nghiệp 2020 quy_định chấm_dứt\
\ tư_cách thành_viên hợp danh như sau : \n \n Thành_viên hợp danh có quyền rút\
\ vốn khỏi công_ty nếu được Hội_đồng thành_viên chấp_thuận . Trường_hợp này ,\
\ thành_viên muốn rút vốn khỏi công_ty phải thông_báo bằng văn_bản yêu_cầu rút\
\ vốn chậm nhất là 06 tháng trước ngày rút vốn ; chỉ được rút vốn vào thời_điểm\
\ kết_thúc năm tài_chính và báo_cáo tài_chính của năm tài_chính đó đã được thông_qua\
\ . \n \n \n Theo quy_định trên thì chỉ được rút vốn vào thời_điểm kết_thúc năm\
\ tài_chính và báo_cáo tài_chính của năm tài_chính đó đã được thông_qua ."
sentences:
- Thành_viên hợp danh rút được vốn ra khỏi công_ty vào thời_điểm nào ?
- Dịch_vụ viễn_thông cước trả sau là gì ?
- Cách tính thời_gian giảng_dạy để hưởng phụ_cấp thâm_niên
- source_sentence: 'Tôi làm hộ_lý theo hợp_đồng 68 tại khoa kiểm_soát nhiễm_khuẩn
ở bệnh_viện huyện . Công_việc hàng ngày là xử_lý đồ vải bệnh_nhân và xử_lý_dụng_cụ
y_tế của bệnh_viện . Tôi đang hưởng lương bậc 4 , hệ_số 2,19 . Tôi xin hỏi , theo
Nghị_định 111 / 2022 / NĐ - CP , tôi có được tiếp_tục làm_việc và hưởng các chế_độ
của hợp_đồng 68 nữa không hay tôi phải chuyển sang ký hợp_đồng khác ? Nếu chuyển
sang loại hợp_đồng khác thì lương và các chế_độ sẽ hưởng thế_nào ? Bộ Nội_vụ trả_lời
vấn_đề này như sau : Khoản 1 Điều 13 Nghị_định số111 / 2022 / NĐ - CPquy định
: " Người đang thực_hiện các công_việc hỗ_trợ , phục_vụ theo quy_định tại khoản
1 Điều 4 Nghị_định này nếu chưa chuyển sang ký hợp_đồng lao_động theo quy_định
của Nghị_định số 161 / 2018 / NĐ - CP ngày 29 tháng 11 năm 2018 của Chính_phủ
sửa_đổi , bổ_sung một_số quy_định về tuyển_dụng công_chức , viên_chức , nâng ngạch
công_chức , thăng_hạng viên_chức và thực_hiện chế_độ hợp_đồng một_số loại công_việc
trong cơ_quan hành_chính nhà_nước , đơn_vị sự_nghiệp công_lập ( sau đây viết tắt
là Nghị_định số 161 / 2018 / NĐ - CP ) và cơ_quan , tổ_chức , đơn_vị không ký
hợp_đồng dịch_vụ thì trong thời_hạn 12 tháng kể từ ngày Nghị_định này có hiệu_lực
, cơ_quan , tổ_chức , đơn_vị phải chuyển sang ký hợp_đồng lao_động . Hợp_đồng
lao_động ký_kết phải bảo_đảm quyền , lợi_ích hợp_pháp về tiền_lương , chế_độ bảo_hiểm
xã_hội và các chế_độ khác theo quy_định của pháp_luật . Trường_hợp một trong các
bên không có nhu_cầu thì giải_quyết chế_độ thôi_việc theo quy_định của pháp_luật
" . Như_vậy , trường_hợp bà Trần_Thị_Hoa nếu chưa chuyển sang ký hợp_đồng lao_động
theo quy_định của Nghị_định số161 / 2018 / NĐ - CPthì trong thời_hạn 12 tháng
kể từ ngày Nghị_định số 111 / 2022 / NĐ - CP có hiệu_lực phải chuyển sang ký hợp_đồng
lao_động . Tiền_lương và các chế_độ khác của người lao_động thực_hiện theo quy_định
tại khoản 2 Điều 8 Nghị_định số 111 / 2022 / NĐ - CP.'
sentences:
- Ký hợp_đồng lao_động theo quy_định mới từ 22 / 2 / 2023
- Quy_định về tiêu_chuẩn chuyên_môn của sỹ quan kỹ_thuật điện được quy_định như
thế_nào ?
- Đối_tượng được bổ_nhiệm Phó_Thủ_trưởng cơ_quan quản_lý thi_hành án hình_sự thuộc
Bộ Công_an được quy_định như thế_nào ?
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- cosine_accuracy@1
- cosine_accuracy@3
- cosine_accuracy@5
- cosine_accuracy@10
- cosine_precision@1
- cosine_precision@3
- cosine_precision@5
- cosine_precision@10
- cosine_recall@1
- cosine_recall@3
- cosine_recall@5
- cosine_recall@10
- cosine_ndcg@10
- cosine_mrr@10
- cosine_map@100
model-index:
- name: bkai-fine-tuned-legal
results:
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 768
type: dim_768
metrics:
- type: cosine_accuracy@1
value: 0.36968344721796126
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.4858457676753591
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.5618463254776181
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.7314182122437596
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.36968344721796126
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.16194858922511968
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.11236926509552363
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.07314182122437596
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.36968344721796126
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.4858457676753591
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.5618463254776181
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.7314182122437596
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.5218619998018038
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.458721747426252
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.4687122757309563
name: Cosine Map@100
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 512
type: dim_512
metrics:
- type: cosine_accuracy@1
value: 0.3670338864872403
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.4864035699344582
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.5668665458095106
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.7332310695858318
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.3670338864872403
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.16213452331148606
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.11337330916190211
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.07332310695858317
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.3670338864872403
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.4864035699344582
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.5668665458095106
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.7332310695858318
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.5214562660506156
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.4575318246110334
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.46737592429955493
name: Cosine Map@100
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 256
type: dim_256
metrics:
- type: cosine_accuracy@1
value: 0.365221029145168
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.4843118114628364
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.5608701715241947
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.7293264537721378
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.365221029145168
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.1614372704876121
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.11217403430483891
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.07293264537721378
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.365221029145168
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.4843118114628364
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.5608701715241947
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.7293264537721378
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.5189053364670051
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.4554276705336535
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.46549674883093684
name: Cosine Map@100
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 128
type: dim_128
metrics:
- type: cosine_accuracy@1
value: 0.36731278761678987
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.4855668665458095
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.5607307209594199
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.7255612885232186
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.36731278761678987
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.16185562218193647
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.11214614419188397
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.07255612885232185
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.36731278761678987
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.4855668665458095
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.5607307209594199
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.7255612885232186
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.5180275425139264
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.45544410577878813
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.4654659596012518
name: Cosine Map@100
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 64
type: dim_64
metrics:
- type: cosine_accuracy@1
value: 0.3582485009064287
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.47510807418770046
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.5530609398968066
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.7208199693208758
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.3582485009064287
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.1583693580625668
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.11061218797936133
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.07208199693208757
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.3582485009064287
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.47510807418770046
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.5530609398968066
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.7208199693208758
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.5115186557169926
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.44836820704203273
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.45844332107958174
name: Cosine Map@100
---
# bkai-fine-tuned-legal
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) <!-- at revision 84f9d9ada0d1a3c37557398b9ae9fcedcdf40be0 -->
- **Maximum Sequence Length:** 256 tokens
- **Output Dimensionality:** 768 dimensions
- **Similarity Function:** Cosine Similarity
- **Training Dataset:**
- json
- **Language:** vi
- **License:** apache-2.0
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("KhangLeDuc/ProjectEmbedding")
# Run inference
sentences = [
'Tôi làm hộ_lý theo hợp_đồng 68 tại khoa kiểm_soát nhiễm_khuẩn ở bệnh_viện huyện . Công_việc hàng ngày là xử_lý đồ vải bệnh_nhân và xử_lý_dụng_cụ y_tế của bệnh_viện . Tôi đang hưởng lương bậc 4 , hệ_số 2,19 . Tôi xin hỏi , theo Nghị_định 111 / 2022 / NĐ - CP , tôi có được tiếp_tục làm_việc và hưởng các chế_độ của hợp_đồng 68 nữa không hay tôi phải chuyển sang ký hợp_đồng khác ? Nếu chuyển sang loại hợp_đồng khác thì lương và các chế_độ sẽ hưởng thế_nào ? Bộ Nội_vụ trả_lời vấn_đề này như sau : Khoản 1 Điều 13 Nghị_định số111 / 2022 / NĐ - CPquy định : " Người đang thực_hiện các công_việc hỗ_trợ , phục_vụ theo quy_định tại khoản 1 Điều 4 Nghị_định này nếu chưa chuyển sang ký hợp_đồng lao_động theo quy_định của Nghị_định số 161 / 2018 / NĐ - CP ngày 29 tháng 11 năm 2018 của Chính_phủ sửa_đổi , bổ_sung một_số quy_định về tuyển_dụng công_chức , viên_chức , nâng ngạch công_chức , thăng_hạng viên_chức và thực_hiện chế_độ hợp_đồng một_số loại công_việc trong cơ_quan hành_chính nhà_nước , đơn_vị sự_nghiệp công_lập ( sau đây viết tắt là Nghị_định số 161 / 2018 / NĐ - CP ) và cơ_quan , tổ_chức , đơn_vị không ký hợp_đồng dịch_vụ thì trong thời_hạn 12 tháng kể từ ngày Nghị_định này có hiệu_lực , cơ_quan , tổ_chức , đơn_vị phải chuyển sang ký hợp_đồng lao_động . Hợp_đồng lao_động ký_kết phải bảo_đảm quyền , lợi_ích hợp_pháp về tiền_lương , chế_độ bảo_hiểm xã_hội và các chế_độ khác theo quy_định của pháp_luật . Trường_hợp một trong các bên không có nhu_cầu thì giải_quyết chế_độ thôi_việc theo quy_định của pháp_luật " . Như_vậy , trường_hợp bà Trần_Thị_Hoa nếu chưa chuyển sang ký hợp_đồng lao_động theo quy_định của Nghị_định số161 / 2018 / NĐ - CPthì trong thời_hạn 12 tháng kể từ ngày Nghị_định số 111 / 2022 / NĐ - CP có hiệu_lực phải chuyển sang ký hợp_đồng lao_động . Tiền_lương và các chế_độ khác của người lao_động thực_hiện theo quy_định tại khoản 2 Điều 8 Nghị_định số 111 / 2022 / NĐ - CP.',
'Ký hợp_đồng lao_động theo quy_định mới từ 22 / 2 / 2023',
'Đối_tượng được bổ_nhiệm Phó_Thủ_trưởng cơ_quan quản_lý thi_hành án hình_sự thuộc Bộ Công_an được quy_định như thế_nào ?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.5524, -0.0091],
# [ 0.5524, 1.0000, -0.0801],
# [-0.0091, -0.0801, 1.0000]])
```
<!--
### Direct Usage (Transformers)
<details><summary>Click to see the direct usage in Transformers</summary>
</details>
-->
<!--
### Downstream Usage (Sentence Transformers)
You can finetune this model on your own dataset.
<details><summary>Click to expand</summary>
</details>
-->
<!--
### Out-of-Scope Use
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
-->
## Evaluation
### Metrics
#### Information Retrieval
* Dataset: `dim_768`
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
```json
{
"truncate_dim": 768
}
```
| Metric | Value |
|:--------------------|:-----------|
| cosine_accuracy@1 | 0.3697 |
| cosine_accuracy@3 | 0.4858 |
| cosine_accuracy@5 | 0.5618 |
| cosine_accuracy@10 | 0.7314 |
| cosine_precision@1 | 0.3697 |
| cosine_precision@3 | 0.1619 |
| cosine_precision@5 | 0.1124 |
| cosine_precision@10 | 0.0731 |
| cosine_recall@1 | 0.3697 |
| cosine_recall@3 | 0.4858 |
| cosine_recall@5 | 0.5618 |
| cosine_recall@10 | 0.7314 |
| **cosine_ndcg@10** | **0.5219** |
| cosine_mrr@10 | 0.4587 |
| cosine_map@100 | 0.4687 |
#### Information Retrieval
* Dataset: `dim_512`
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
```json
{
"truncate_dim": 512
}
```
| Metric | Value |
|:--------------------|:-----------|
| cosine_accuracy@1 | 0.367 |
| cosine_accuracy@3 | 0.4864 |
| cosine_accuracy@5 | 0.5669 |
| cosine_accuracy@10 | 0.7332 |
| cosine_precision@1 | 0.367 |
| cosine_precision@3 | 0.1621 |
| cosine_precision@5 | 0.1134 |
| cosine_precision@10 | 0.0733 |
| cosine_recall@1 | 0.367 |
| cosine_recall@3 | 0.4864 |
| cosine_recall@5 | 0.5669 |
| cosine_recall@10 | 0.7332 |
| **cosine_ndcg@10** | **0.5215** |
| cosine_mrr@10 | 0.4575 |
| cosine_map@100 | 0.4674 |
#### Information Retrieval
* Dataset: `dim_256`
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
```json
{
"truncate_dim": 256
}
```
| Metric | Value |
|:--------------------|:-----------|
| cosine_accuracy@1 | 0.3652 |
| cosine_accuracy@3 | 0.4843 |
| cosine_accuracy@5 | 0.5609 |
| cosine_accuracy@10 | 0.7293 |
| cosine_precision@1 | 0.3652 |
| cosine_precision@3 | 0.1614 |
| cosine_precision@5 | 0.1122 |
| cosine_precision@10 | 0.0729 |
| cosine_recall@1 | 0.3652 |
| cosine_recall@3 | 0.4843 |
| cosine_recall@5 | 0.5609 |
| cosine_recall@10 | 0.7293 |
| **cosine_ndcg@10** | **0.5189** |
| cosine_mrr@10 | 0.4554 |
| cosine_map@100 | 0.4655 |
#### Information Retrieval
* Dataset: `dim_128`
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
```json
{
"truncate_dim": 128
}
```
| Metric | Value |
|:--------------------|:----------|
| cosine_accuracy@1 | 0.3673 |
| cosine_accuracy@3 | 0.4856 |
| cosine_accuracy@5 | 0.5607 |
| cosine_accuracy@10 | 0.7256 |
| cosine_precision@1 | 0.3673 |
| cosine_precision@3 | 0.1619 |
| cosine_precision@5 | 0.1121 |
| cosine_precision@10 | 0.0726 |
| cosine_recall@1 | 0.3673 |
| cosine_recall@3 | 0.4856 |
| cosine_recall@5 | 0.5607 |
| cosine_recall@10 | 0.7256 |
| **cosine_ndcg@10** | **0.518** |
| cosine_mrr@10 | 0.4554 |
| cosine_map@100 | 0.4655 |
#### Information Retrieval
* Dataset: `dim_64`
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
```json
{
"truncate_dim": 64
}
```
| Metric | Value |
|:--------------------|:-----------|
| cosine_accuracy@1 | 0.3582 |
| cosine_accuracy@3 | 0.4751 |
| cosine_accuracy@5 | 0.5531 |
| cosine_accuracy@10 | 0.7208 |
| cosine_precision@1 | 0.3582 |
| cosine_precision@3 | 0.1584 |
| cosine_precision@5 | 0.1106 |
| cosine_precision@10 | 0.0721 |
| cosine_recall@1 | 0.3582 |
| cosine_recall@3 | 0.4751 |
| cosine_recall@5 | 0.5531 |
| cosine_recall@10 | 0.7208 |
| **cosine_ndcg@10** | **0.5115** |
| cosine_mrr@10 | 0.4484 |
| cosine_map@100 | 0.4584 |
<!--
## Bias, Risks and Limitations
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
-->
<!--
### Recommendations
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
-->
## Training Details
### Training Dataset
#### json
* Dataset: json
* Size: 57,371 training samples
* Columns: <code>positive</code> and <code>anchor</code>
* Approximate statistics based on the first 1000 samples:
| | positive | anchor |
|:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string |
| details | <ul><li>min: 16 tokens</li><li>mean: 180.36 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 16.49 tokens</li><li>max: 52 tokens</li></ul> |
* Samples:
| positive | anchor |
|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------|
| <code>Điều 3 Quyết_định 44 / 2015 / QĐ - UBND thu quản_lý phí tham_gia đấu_giá quyền khai_thác khoáng_sản Bình_Dương có nội_dung như sau : <br> <br> Điều 3 . Chánh Văn_phòng Ủy_ban nhân_dân Thủ_trưởng các sở , ban , ngành , Chủ_tịch Ủy_ban nhân_dân các huyện , thị_xã , thành_phố và Thủ_trưởng các đơn_vị , tổ_chức , cá_nhân có liên_quan chịu trách_nhiệm thi_hành Quyết_định này</code> | <code>Điều 3 Quyết_định 44 / 2015 / QĐ - UBND thu quản_lý phí tham_gia đấu_giá quyền khai_thác khoáng_sản Bình_Dương</code> |
| <code>Điều 2 Quyết_định 3592 / QĐ - UBND 2020 phổ_biến pháp_luật hòa giải ở cơ_sở Khánh_Hòa có nội_dung như sau : <br> <br> Điều 2 . Quyết_định này có hiệu_lực thi_hành kể từ ngày ký .</code> | <code>Điều 2 Quyết_định 3592 / QĐ - UBND 2020 phổ_biến pháp_luật hòa giải ở cơ_sở Khánh_Hòa</code> |
| <code>Điều 5 . Xác_định chi_phí lập , thẩm_định đồ_án quy_hoạch 1 . Nội_dung , sản_phẩm đồ_án quy_hoạch được quy_định tại Nghị_định quy_định chi_tiết một_số nội_dung về quy_hoạch xây_dựng , Nghị_định về lập , thẩm_định , phê_duyệt và quản_lý quy_hoạch đô_thị , các Nghị_định chuyên_ngành có liên_quan và các văn_bản hướng_dẫn . <br> 2 . Chi_phí lập đồ_án quy_hoạch bao_gồm các chi_phí sau : chi_phí cho những người tham_gia thực_hiện lập đồ_án , các chi_phí khác ( chi_phí mua tài_liệu , số_liệu , bản_đồ , văn_phòng_phẩm , phần_mềm quy_hoạch ( nếu có ) , chi_phí khấu_hao thiết_bị , chi_phí đi_lại , chi_phí lưu_trú , chi_phí hội_nghị , hội_thảo và các khoản chi_phí khác ( nếu có ) ) . <br> 3 . Chi_phí lập đồ_án quy_hoạch xác_định theo định_mức được quy_định tại Thông_tư này chưa bao_gồm chi_phí để thực_hiện các công_việc sau : <br> a ) Lập nhiệm_vụ quy_hoạch . <br> b ) Khảo_sát xây_dựng phục_vụ lập đồ_án quy_hoạch . <br> c ) Mua hoặc lập các bản_đồ địa_hình phục_vụ lập đồ_án quy_hoạch ( nếu có ) . <br> 4 . Chi_phí ...</code> | <code>Chi_phí điều_chỉnh đồ_án quy_hoạch được xác_định như thế_nào ?</code> |
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
```json
{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
768,
512,
256,
128,
64
],
"matryoshka_weights": [
1,
1,
1,
1,
1
],
"n_dims_per_step": -1
}
```
### Evaluation Dataset
#### json
* Dataset: json
* Size: 7,172 evaluation samples
* Columns: <code>positive</code> and <code>anchor</code>
* Approximate statistics based on the first 1000 samples:
| | positive | anchor |
|:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string |
| details | <ul><li>min: 13 tokens</li><li>mean: 181.46 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 16.05 tokens</li><li>max: 38 tokens</li></ul> |
* Samples:
| positive | anchor |
|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------|
| <code>Cơ_quan tôi tổ_chức đấu_thầu rộng_rãi trong nước gói_thầu tư_vấn thiết_kế và thi_công ( hình_thức một giai_đoạn hai túi hồ_sơ ) . Có 3 nhà_thầu A , B , C tham_gia và đều là nhà_thầu liên_danh . Tổ chuyên_gia đánh_giá xong phần hồ_sơ đề_xuất kỹ_thuật và đã trình chủ đầu_tư phê_duyệt danh_sách nhà_thầu đáp_ứng yêu_cầu kỹ_thuật . Ngoài_ra , tổ chuyên_gia còn có thông_báo gửi các nhà_thầu liên_danh về danh_sách nhà_thầu đáp_ứng yêu_cầu kỹ_thuật và nhà_thầu không đáp_ứng yêu_cầu kỹ_thuật . Sau đó có nhà_thầu liên_danh C không đáp_ứng yêu_cầu kỹ_thuật đã kiến_nghị gửi chủ đầu_tư về kết_quả đánh_giá hồ_sơ đề_xuất kỹ_thuật . Tuy_nhiên đơn_vị gửi kiến_nghị đến chủ đầu_tư lại là một thành_viên của liên_danh nhà_thầu C , không phải là nhà_thầu đứng đầu liên_danh . Tôi xin hỏi , trường_hợp này , thành_viên của nhà_thầu liên_danh có được quyền kiến_nghị không ? Chủ đầu_tư phải giải_quyết như thế_nào hay_là đánh_giá tiếp phần đề_xuất tài_chính ? Bộ Kế_hoạch và Đầu_tư trả_lời vấn_đề này như sau : Kho...</code> | <code>Thành_viên liên_danh nhà_thầu có quyền gửi đơn kiến_nghị ?</code> |
| <code>Tôi xin hỏi , người làm công_chức cấp xã như địa_chính , xây_dựng , giao_thông thủy_lợi , tài_chính , ... có được hiểu là làm công_tác quản_lý nhà_nước thuộc phạm_vi quản_lý của huyện không ? Bộ Nội_vụ trả_lời vấn_đề này như sau : Chức_danh công_chức cấp xã được quy_định tại Khoản 3 Điều 61Luật Cán_bộ , công chứcnăm 2008 ( sửa_đổi , bổ_sung năm 2019 ) . Nhiệm_vụ của từng chức_danh công_chức cấp xã được quy_định tại Điều 11 Nghị_định số33 / 2023 / NĐ - CPngày 10 / 6 / 2023 của Chính_phủ quy_định về cán_bộ , công_chức cấp xã và người hoạt_động không chuyên_trách ở cấp xã , ở thôn , tổ dân_phố . Theo đó , công_chức cấp xã làm nhiệm_vụ tham_mưu giúp UBND cấp xã về công_tác lý nhà_nước theo lĩnh_vực chuyên_môn , nghiệp_vụ giao trên phạm_vi địa_bàn cấp xã . Căn_cứ các quy_định nêu trên , công_chức cấp xã là người tham_mưu giúp UBND cấp xã về công_tác quản_lý nhà_nước theo lĩnh_vực chuyên_môn được giao trên địa_bàn cấp xã , không phải làm công_tác quản_lý nhà_nước thuộc phạm_vi cấp huyện .</code> | <code>Công_chức cấp xã làm nhiệm_vụ gì ?</code> |
| <code>Điều 11 . Chế_phẩm sinh_học phải đăng_ký lưu_hành 1 . Chế_phẩm sinh_học sản_xuất trong nước hoặc nhập_khẩu chưa có tên trong Danh_mục chế_phẩm sinh_học trong xử_lý chất_thải tại Việt_Nam . <br> 2 . Chế_phẩm sinh_học có tên trong Danh_mục chế_phẩm sinh_học trong xử_lý chất_thải tại Việt_Nam nhưng có thay_đổi về thành_phần hoặc hàm_lượng các hoạt_chất trong chế_phẩm sinh_học làm ảnh_hưởng đến hiệu_quả xử_lý và tính an_toàn đối_với sức_khỏe con_người và sinh_vật .</code> | <code>Chế_phẩm sinh_học phải đăng_ký lưu_hành bao_gồm những chế_phẩm sinh_học nào ?</code> |
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
```json
{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
768,
512,
256,
128,
64
],
"matryoshka_weights": [
1,
1,
1,
1,
1
],
"n_dims_per_step": -1
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: epoch
- `per_device_train_batch_size`: 52
- `per_device_eval_batch_size`: 52
- `gradient_accumulation_steps`: 12
- `learning_rate`: 3e-05
- `weight_decay`: 0.2
- `max_grad_norm`: 0.65
- `num_train_epochs`: 8
- `lr_scheduler_type`: cosine
- `warmup_ratio`: 0.15
- `fp16`: True
- `load_best_model_at_end`: True
- `group_by_length`: True
- `batch_sampler`: no_duplicates
#### All Hyperparameters
<details><summary>Click to expand</summary>
- `overwrite_output_dir`: False
- `do_predict`: False
- `eval_strategy`: epoch
- `prediction_loss_only`: True
- `per_device_train_batch_size`: 52
- `per_device_eval_batch_size`: 52
- `per_gpu_train_batch_size`: None
- `per_gpu_eval_batch_size`: None
- `gradient_accumulation_steps`: 12
- `eval_accumulation_steps`: None
- `torch_empty_cache_steps`: None
- `learning_rate`: 3e-05
- `weight_decay`: 0.2
- `adam_beta1`: 0.9
- `adam_beta2`: 0.999
- `adam_epsilon`: 1e-08
- `max_grad_norm`: 0.65
- `num_train_epochs`: 8
- `max_steps`: -1
- `lr_scheduler_type`: cosine
- `lr_scheduler_kwargs`: {}
- `warmup_ratio`: 0.15
- `warmup_steps`: 0
- `log_level`: passive
- `log_level_replica`: warning
- `log_on_each_node`: True
- `logging_nan_inf_filter`: True
- `save_safetensors`: True
- `save_on_each_node`: False
- `save_only_model`: False
- `restore_callback_states_from_checkpoint`: False
- `no_cuda`: False
- `use_cpu`: False
- `use_mps_device`: False
- `seed`: 42
- `data_seed`: None
- `jit_mode_eval`: False
- `bf16`: False
- `fp16`: True
- `fp16_opt_level`: O1
- `half_precision_backend`: auto
- `bf16_full_eval`: False
- `fp16_full_eval`: False
- `tf32`: None
- `local_rank`: 0
- `ddp_backend`: None
- `tpu_num_cores`: None
- `tpu_metrics_debug`: False
- `debug`: []
- `dataloader_drop_last`: False
- `dataloader_num_workers`: 0
- `dataloader_prefetch_factor`: None
- `past_index`: -1
- `disable_tqdm`: False
- `remove_unused_columns`: True
- `label_names`: None
- `load_best_model_at_end`: True
- `ignore_data_skip`: False
- `fsdp`: []
- `fsdp_min_num_params`: 0
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
- `fsdp_transformer_layer_cls_to_wrap`: None
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
- `parallelism_config`: None
- `deepspeed`: None
- `label_smoothing_factor`: 0.0
- `optim`: adamw_torch_fused
- `optim_args`: None
- `adafactor`: False
- `group_by_length`: True
- `length_column_name`: length
- `project`: huggingface
- `trackio_space_id`: trackio
- `ddp_find_unused_parameters`: None
- `ddp_bucket_cap_mb`: None
- `ddp_broadcast_buffers`: False
- `dataloader_pin_memory`: True
- `dataloader_persistent_workers`: False
- `skip_memory_metrics`: True
- `use_legacy_prediction_loop`: False
- `push_to_hub`: False
- `resume_from_checkpoint`: None
- `hub_model_id`: None
- `hub_strategy`: every_save
- `hub_private_repo`: None
- `hub_always_push`: False
- `hub_revision`: None
- `gradient_checkpointing`: False
- `gradient_checkpointing_kwargs`: None
- `include_inputs_for_metrics`: False
- `include_for_metrics`: []
- `eval_do_concat_batches`: True
- `fp16_backend`: auto
- `push_to_hub_model_id`: None
- `push_to_hub_organization`: None
- `mp_parameters`:
- `auto_find_batch_size`: False
- `full_determinism`: False
- `torchdynamo`: None
- `ray_scope`: last
- `ddp_timeout`: 1800
- `torch_compile`: False
- `torch_compile_backend`: None
- `torch_compile_mode`: None
- `include_tokens_per_second`: False
- `include_num_input_tokens_seen`: no
- `neftune_noise_alpha`: None
- `optim_target_modules`: None
- `batch_eval_metrics`: False
- `eval_on_start`: False
- `use_liger_kernel`: False
- `liger_kernel_config`: None
- `eval_use_gather_object`: False
- `average_tokens_across_devices`: True
- `prompts`: None
- `batch_sampler`: no_duplicates
- `multi_dataset_batch_sampler`: proportional
- `router_mapping`: {}
- `learning_rate_mapping`: {}
</details>
### Training Logs
| Epoch | Step | Training Loss | Validation Loss | dim_768_cosine_ndcg@10 | dim_512_cosine_ndcg@10 | dim_256_cosine_ndcg@10 | dim_128_cosine_ndcg@10 | dim_64_cosine_ndcg@10 |
|:-------:|:-------:|:-------------:|:---------------:|:----------------------:|:----------------------:|:----------------------:|:----------------------:|:---------------------:|
| 1.0 | 92 | 0.5777 | 0.1919 | 0.4327 | 0.4327 | 0.4285 | 0.4231 | 0.3973 |
| 2.0 | 184 | 0.1552 | 0.1167 | 0.5138 | 0.5103 | 0.5068 | 0.5022 | 0.4873 |
| 3.0 | 276 | 0.0768 | 0.1053 | 0.5156 | 0.5139 | 0.5093 | 0.5081 | 0.4955 |
| 4.0 | 368 | 0.0571 | 0.0954 | 0.5184 | 0.5184 | 0.5164 | 0.5120 | 0.5010 |
| 5.0 | 460 | 0.0491 | 0.0854 | 0.5191 | 0.5196 | 0.5156 | 0.5168 | 0.5049 |
| 6.0 | 552 | 0.0421 | 0.0839 | 0.5215 | 0.5227 | 0.5187 | 0.5183 | 0.5088 |
| **7.0** | **644** | **0.0352** | **0.0834** | **0.5219** | **0.5215** | **0.5189** | **0.518** | **0.5115** |
* The bold row denotes the saved checkpoint.
### Framework Versions
- Python: 3.10.12
- Sentence Transformers: 5.1.2
- Transformers: 4.57.1
- PyTorch: 2.9.0+cu128
- Accelerate: 1.11.0
- Datasets: 4.4.1
- Tokenizers: 0.22.1
## Citation
### BibTeX
#### Sentence Transformers
```bibtex
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
```
#### MatryoshkaLoss
```bibtex
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
```
#### MultipleNegativesRankingLoss
```bibtex
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
```
<!--
## Glossary
*Clearly define terms in order to be accessible across audiences.*
-->
<!--
## Model Card Authors
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
-->
<!--
## Model Card Contact
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
--> |