SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder

This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("truong1301/bi_encoder_vifactcheck_1")
# Run inference
sentences = [
    'Cần " vá " lỗ_hổng luật BHXH như thế_nào để người dân đóng BHXH nhiều năm mà công_ty phá_sản vẫn được hưởng chế_độ ? \n',
    'TPO - Từ thực_trạng một_số người dân đóng BHXH mấy năm liền nhưng khi công_ty phá_sản lại không được hưởng một chế_độ gì , vị chuyên_gia đề_nghị cần “ vá ” những lỗ_hổng của luật để đồng_cảm với những đóng_góp của người lao_động , đồng_thời xử_lý những người_làm sai để đảm_bảo công_bằng xã_hội . Ngày 28 / 3 , Ủy_ban Mặt_trận Tổ_quốc ( MTTQ ) Việt_Nam TPHCM tổ_chức hội_nghị phản_biện xã_hội dự_thảo Nghị_quyết quy_định mức hỗ_trợ chi_phí thuê nhà ở tạm_cư cho hộ gia_đình , cá_nhân trong thời_gian chờ bố_trí nhà ở , đất ở tái_định_cư trên địa_bàn TPHCM và Luật Bảo_hiểm xã_hội ( sửa_đổi ) . Nêu ý_kiến xoay quanh dự_thảo Luật BHXH ( sửa_đổi ) , Luật_sư Nguyễn Minh_Trí , Hội_viên Hội Luật_gia quận Bình_Thạnh nhìn_nhận , bản_chất Luật BHXH thể_hiện tính ưu_việt , quan_tâm chăm_sóc đời_sống người lao_động sau một thời_gian_tham_gia quá_trình lao_động và đến tuổi mất_sức lao_động . Ông Trí đề_nghị cần căn_cứ trên tổng_lương của người lao_động và dựa vào tình_hình kinh_tế – xã_hội nước ta để xác_định mức đóng BHXH phù_hợp và cạnh_tranh hơn nhằm thu_hút nguồn vốn đầu_tư nước_ngoài , đảm_bảo sự bình_ổn và tăng_trưởng quỹ BHXH. Mặt_khác , ông Trí cũng cho rằng , cần có chế_tài đối_với hành_vi vi_phạm BHXH. Theo ông , hiện_nay phổ_biến hai hành_vi chính . Một là , doanh_nghiệp có đóng BHXH cho người lao_động nhưng đóng không đủ về mặt lượng và không đóng đủ mức tiền_lương người lao_động thực nhận theo quy_định . Hai là , doanh_nghiệp không quan_tâm thực_hiện đóng BHXH cho người lao_động theo quy_định , đặc_biệt là trích tiền_lương của người lao_động nhưng không nộp ( chiếm_dụng tiền BHXH ) . " Vá " lỗ_hổng của Luật BHXH Ông Châu_Văn Hai , thành_viên Ban Tư_vấn Dân_chủ - Pháp_luật Ủy_ban MTTQ Việt_Nam quận 11 nêu thực_tế một_số công_dân đóng BHXH mấy năm liền nhưng khi công_ty phá_sản họ lại không được hưởng một chế_độ gì . Ông đề_nghị cần “ vá ” những lỗ_hổng như_vậy của luật trong lần sửa_đổi này . “ Chúng_ta phải cố_gắng làm_sao để đồng_cảm , thương lấy người dân đã đóng bảo_hiểm cũng như xử_lý người_làm sai để đảm_bảo công_bằng xã_hội ” , ông Hai bày_tỏ . Dẫn một_số điều của dự_thảo , Phó_chủ_tịch Ủy_ban MTTQ Việt_Nam quận Tân_Bình Lê_Thị Thu_Trà cho rằng , việc một_số nội_dung quy_định cụ_thể số tiền bảo_hiểm là điều bất hợp_lý bởi một luật tồn_tại 10 , 20 năm và lâu hơn nữa , dẫn đến những ảnh_hưởng nhất_định đến quyền_lợi người dân về sau . Bà Trà đề_nghị , nên quy ra con_số tương_đối theo tỉ_lệ phần_trăm ( % ) mức lương được hưởng của từng nội_dung . Đồng_tình , bà Nguyễn_Thị_Thu_Trang ( Ủy_ban MTTQ Việt_Nam quận 3 ) cho rằng nên đưa ra một tỷ_lệ khung làm căn_cứ thực_hiện để không phải điều_chỉnh luật về sau và tỷ_lệ này phải thích_đáng , phù_hợp . Ngoài_ra cũng tính_toán quỹ lương hưu BHXH hợp_lý với trường_hợp người lao_động muốn về hưu có được mức lương cao hơn , nhằm khuyến_khích , tạo động_lực cho người lao_động . Liên_quan đến mức giá hỗ_trợ thuê nhà ở tạm_cư , bà Trang nhìn_nhận , việc tham_khảo mức giá chưa xuất_phát từ phía người dân ( đối_tượng chịu sự tác_động ) mà tạm_thời chỉ dừng ở chính_quyền , do đó cần khảo_sát lại , trong đó cần nói rõ với UBND các quận , huyện phải lấy ý_kiến của từng đối_tượng chịu sự tác_động để tạo sự đồng thuận của người dân khi HĐND ban_hành nghị_quyết này . Tiếp_thu các ý_kiến phản_biện , góp_ý của các chuyên_gia , đại_biểu , Phó_giám_đốc Sở Lao_động – Thương_binh và Xã_hội TPHCM Huỳnh Lê Như_Trang cho biết , từ tổng_hợp của Ủy_ban MTTQ Việt_Nam TPHCM , sở sẽ báo_cáo UBND TPHCM và gửi Bộ LĐ - TB & XH để hoàn_thiện Luật BHXH ( sửa_đổi ) nhằm mục_tiêu thực_hiện luật BHXH cho toàn dân với mục_tiêu đảm_bảo_an_sinh xã_hội một_cách tốt nhất . Chủ_tịch Ủy_ban MTTQ Việt_Nam TPHCM Trần_Kim Yến cho biết , cơ_quan này sẽ làm đầu_mối tiếp_nhận thêm các ý_kiến góp_ý của các chuyên_gia trước khi có tham_mưu trực_tiếp cho lãnh_đạo UBND TPHCM trình HĐND thông_qua nghị_quyết hỗ_trợ chi_phí thuê nhà ở tạm_cư và Luật BHXH ( sửa_đổi ) . Thông_tin tại hội_nghị , Phó_Chủ_tịch Ủy_ban MTTQ Việt_Nam TPHCM cho biết , khi thu_hồi đất và bàn_giao mặt_bằng cho chủ đầu_tư để thực_hiện các dự_án thì thành_phố đã chuẩn_bị đủ quỹ nhà ở , đất ở tái_định_cư . Để hỗ_trợ , tạo điều_kiện người bị thu_hồi đất được đảm_bảo về chỗ ở , ổn_định đời_sống và sản_xuất , UBND TPHCM đã ban_hành Quyết_định số 10 / 2020 / QĐ ngày 10 / 4 / 2020 ( điều_chỉnh , bổ_sung tại Quyết_định số 18 / 2022 / QĐ ngày 9 / 6 / 2022 ) áp_dụng chính_sách về hỗ_trợ chi_phí thuê nhà tạm_cư . Trong khi đó , Luật Bảo_hiểm xã_hội 2014 đã đi vào cuộc_sống , khẳng_định_tính đúng_đắn của chính_sách , chế_độ BHXH theo nguyên_tắc đóng - hưởng , đáp_ứng nguyện_vọng của đông_đảo người lao_động , bảo_đảm an_sinh xã_hội và hội_nhập quốc_tế . Quá_trình thực_hiện Luật BHXH 2014 cho thấy cần_thiết phải sửa_đổi nhằm thể_chế_hóa quan_điểm , chính_sách của Đảng , bảo_đảm tính thống_nhất , đồng_bộ của hệ_thống pháp_luật ; khắc_phục những tồn_tại , hạn_chế , bất_cập trong thực_tiễn thi_hành . Theo bà Hương , dự_thảo Luật BHXH ( sửa_đổi ) đã thể_chế_hóa các quan_điểm chỉ_đạo , mục_tiêu , nội_dung cải_cách , nhiệm_vụ và giải_pháp chủ_yếu của Nghị_quyết số 28 - NQ / TW về cải_cách chính_sách BHXH ; thể_chế_hóa các nhiệm_vụ , giải_pháp liên_quan trực_tiếp đến việc hoàn_thiện chính_sách , pháp_luật về an_sinh xã_hội của Văn_kiện Đại_hội đại_biểu toàn_quốc lần thứ XIII của Đảng ...',
    '( Chinhphu . vn ) - Chiều 10 / 3 , tại Trụ_sở Chính_phủ , Thủ_tướng Phạm_Minh Chính đã tiếp bà Samantha_Power , Tổng_Giám_đốc Cơ_quan Phát_triển quốc_tế Hoa_Kỳ ( USAID ) . Thủ_tướng Phạm_Minh Chính tiếp bà Samantha_Power , Tổng_Giám_đốc USAID - Ảnh : VGP / Nhật_Bắc Thủ_tướng Phạm_Minh Chính hoan_nghênh chuyến thăm Việt_Nam của Tổng_Giám_đốc Samantha_Power , khẳng_định Việt_Nam sẵn_sàng cùng Hoa_Kỳ tiếp_tục thúc_đẩy quan_hệ Đối_tác toàn_diện , đi vào chiều sâu , hiệu_quả , thực_chất trên nguyên_tắc Hoa_Kỳ luôn ủng_hộ một Việt_Nam_mạnh , độc_lập , thịnh_vượng và tôn_trọng độc_lập , chủ_quyền , toàn_vẹn lãnh_thổ , thể_chế chính_trị của nhau , phù_hợp với lợi_ích của nhân_dân hai nước và đóng_góp cho hòa bình , hợp_tác , phát_triển ở khu_vực và thế_giới . Thủ_tướng trân_trọng chuyển lời thăm_hỏi của Tổng_Bí_thư Nguyễn Phú_Trọng , Chủ_tịch nước Võ Văn Thưởng , Chủ_tịch Quốc_hội Vương_Đình Huệ và cá_nhân Thủ_tướng đến Tổng_thống , Chủ_tịch Hạ_viện , Thượng_viện Hoa_Kỳ . Thủ_tướng nhấn_mạnh quan_hệ kinh_tế , thương_mại , đầu_tư là một trụ_cột quan_trọng trong quan_hệ hai nước , hoan_nghênh USAID tiếp_tục tăng ngân_sách hỗ_trợ phát_triển cho Việt_Nam , đề_nghị USAID tiếp_tục đẩy_mạnh hỗ_trợ Việt_Nam khắc_phục hậu_quả chiến_tranh , đặc_biệt là tẩy độc da_cam / dioxin , rà phá bom mìn ; đẩy_mạnh hợp_tác trong ứng_phó với biến_đổi khí_hậu , y_tế , giáo_dục , phát_triển nguồn nhân_lực chất_lượng cao , hỗ_trợ Trường Đại_học Fulbright Việt_Nam trở_thành trung_tâm đào_tạo tầm_cỡ khu_vực ; thúc_đẩy chuyển_đổi xanh , chuyển_đổi số . Tổng_Giám_đốc USAID Samantha Power cam_kết sẽ tiếp_tục thúc_đẩy hợp_tác , hỗ_trợ Việt_Nam , nhất_là trong những lĩnh_vực Thủ_tướng đã cho ý_kiến - Ảnh : VGP / Nhật_Bắc_Bà Samantha_Power khẳng_định đã có một chuyến thăm Việt_Nam rất thành_công , ấn_tượng . Tổng_Giám_đốc USAID cảm_ơn Chính_phủ , các bộ , ngành , địa_phương của Việt_Nam đã hợp_tác chặt_chẽ với USAID để triển_khai hiệu_quả các dự_án do Hoa Kỳ_tài_trợ , đồng_thời cam_kết sẽ tiếp_tục thúc_đẩy hợp_tác , hỗ_trợ Việt_Nam , nhất_là trong những lĩnh_vực Thủ_tướng đã cho ý_kiến . Hai bên cũng trao_đổi về hợp_tác ứng_phó với biến_đổi khí_hậu . Bà Samantha_Power khẳng_định đây là vấn_đề ưu_tiên hàng_đầu của Chính_quyền Tổng_thống Biden và cũng là một trong những nội_dung mà USAID ưu_tiên thúc_đẩy hợp_tác với Việt_Nam . Thủ_tướng Phạm_Minh Chính_đề_nghị USAID ưu_tiên hỗ_trợ giảm_thiểu tác_hại của biến_đổi khí_hậu tại Đồng_bằng sông Cửu_Long , khu_vực chịu ảnh_hưởng biến_đổi khí_hậu nặng_nề nhất tại Việt_Nam . Hà_Văn',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000,  0.7090, -0.1094],
#         [ 0.7090,  1.0000, -0.0497],
#         [-0.1094, -0.0497,  1.0000]])

Training Details

Training Dataset

Unnamed Dataset

  • Size: 5,012 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 9 tokens
    • mean: 26.3 tokens
    • max: 64 tokens
    • min: 66 tokens
    • mean: 252.74 tokens
    • max: 256 tokens
  • Samples:
    anchor positive
    Phó_Thủ_tướng Trần_Hồng_Hà thay_mặt Chính_phủ và Thủ_tướng Chính_phủ đã chúc_mừng những đơn_vị nào vì tổ_chức thành_công Liên_hoan Truyền_hình toàn_quốc sau 2 năm gián_đoạn do COVID - 19 ?
    ( Chinhphu . vn ) - Đây là mong_muốn , gửi_gắm của Phó_Thủ_tướng Trần_Hồng_Hà đến những người_làm truyền_hình tại lễ bế_mạc Liên_hoan Truyền_hình toàn_quốc lần thứ 41 , tối 18 / 3 , tại TP. Hải_Phòng . Phó_Thủ_tướng Trần_Hồng_Hà : Các tác_phẩm truyền_hình đã vun_đắp , làm_giàu cho nền văn_hóa Việt_Nam tiên_tiến , đậm_đà bản_sắc dân_tộc , góp_phần tạo_dựng môi_trường văn_hóa lành_mạnh và xây_dựng con_người Việt_Nam nhân_cách , trách_nhiệm , hội_nhập - Ảnh : VGP / Minh_Khôi Tham_dự lễ bế_mạc còn có Bí_thư Trung_ương Đảng , Trưởng Ban Tuyên_giáo Trung_ương Nguyễn_Trọng_Nghĩa , lãnh_đạo các bộ , ngành Trung_ương , địa_phương , đại_diện các đài_truyền_hình , đơn_vị sản_xuất chương_trình truyền_hình , cùng đông_đảo cán_bộ , phóng_viên , biên_tập_viên , nghệ_sĩ , diễn_viên hoạt_động trong lĩnh_vực truyền_hình … Thay_mặt Chính_phủ , Thủ_tướng Chính_phủ , Phó_Thủ_tướng Trần_Hồng_Hà chúc_mừng Đài_Truyền_hình Việt_Nam , Đài_truyền_hình các tỉnh , thành_phố trên cả nước , các đơn_vị sản_xuất truyề...
    Tô Văn_Hải đã làm gì liên_quan đến việc đổ và chôn lấp chất_thải rắn trái_phép ra môi_trường ?
    Ngày 24 / 3 , Cơ_quan Cảnh_sát điều_tra Công_an tỉnh Bình_Dương cho biết , đơn_vị vừa thực_hiện lệnh bắt bị_can để tạm giam đối_với Tô Văn_Hải ( sinh năm 1970 , hộ_khẩu thường_trú xã Phước_Hòa , huyện Phú_Giáo ) để điều_tra làm rõ tội “ Gây ô_nhiễm môi_trường ” theo điểm d khoản 3 Điều 235 , Bộ_luật Hình_sự . Theo đó , Tô Văn_Hải là người trực_tiếp điều_hành , quản_lý Cơ_sở nuôi_trồng thủy_sản Thăng_Tiến đã có hành_vi cho phép người khác đổ , thải chất_thải rắn thông_thường ra môi_trường tại thửa đất thuộc Cơ_sở nuôi_trồng thủy_sản Thăng_Tiến ( xã Phước_Hòa , huyện Phú_Giáo ) . Sau đó , Hải tiến_hành chôn , lấp tổng khối_lượng 642.070 kg chất_thải mà không được cơ_quan nhà_nước có thẩm_quyền cho phép . Hành_vi của Tô_Văn Hải phạm vào tội “ Gây ô_nhiễm môi_trường ” theo điểm d khoản 3 Điều 235 Bộ_luật Hình_sự : “ Chôn , lấp , đổ , thải ra môi_trường trái pháp_luật chất_thải rắn thông_thường 500.000 kilogam trở lên ” . Ngày 21 / 3 / 2023 , Cơ_quan Cảnh_sát điều_tra Công_an tỉnh Bình_Dươn...
    SAWACO thông_báo tạm ngưng cung_cấp_nước khi nào và để làm gì ?
    ( PLO ) - Theo Tổng_Công_ty Cấp_nước Sài_Gòn ( SAWACO ) việc cúp nước là để thực_hiện công_tác bảo_trì , bảo_dưỡng định_kỳ Nhà_máy nước Tân_Hiệp . SAWACO cho biết đây là phương_án để đảm_bảo cung_cấp nước_sạch an_toàn , liên_tục phục_vụ cho người dân TP. Vì_vậy , SAWACO thông_báo tạm ngưng cung_cấp_nước để thực_hiện công_tác nêu trên . Thời_gian thực_hiện dự_kiến từ 22 giờ ngày 25 - 3 ( thứ_bảy ) đến 4 giờ ngày 26 - 3 ( chủ_nhật ) . Các khu_vực tạm ngưng cung_cấp_nước gồm quận 6 , 8 , 12 , Gò_Vấp , Tân_Bình , Tân_Phú , Bình_Tân và huyện Hóc_Môn , Bình_Chánh . SAWACO cho biết do điều_kiện đặc_thù của vùng cung_cấp_nước nên thời_gian phục_hồi nước trên mạng_lưới cấp_nước tại một_số nơi xa nguồn sẽ chậm hơn so với mốc thời_gian chính nêu trên . Theo đó , để hạn_chế đến mức thấp nhất ảnh_hưởng đến sinh_hoạt của người dân , SAWACO đã có phương_án tăng_cường cấp_nước bằng xe_bồn tại các khu_vực trọng_yếu ; điều_tiết hỗ_trợ từ mạng truyền_tải , theo_dõi chặt_chẽ diễn_biến trên mạng_lưới cấp_n...
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 1024,
        "gather_across_devices": false
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 723 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 723 samples:
    anchor positive
    type string string
    details
    • min: 9 tokens
    • mean: 26.21 tokens
    • max: 64 tokens
    • min: 66 tokens
    • mean: 251.87 tokens
    • max: 256 tokens
  • Samples:
    anchor positive
    Vua hề Charlie_Chaplin và vua Na Uy Harald V có từng ở khách_sạn Saigon_Morin không , vào thời_gian nào và với mục_đích gì ?
    Saigon_Morin , khách_sạn 4 sao hàng_đầu tại Huế , kỷ_niệm 122 năm ra_đời tối 26.3 , là một trong những khách_sạn lâu_đời nhất Việt_Nam với " bảng_vàng " danh_sách các yếu nhân và nguyên_thủ quốc_gia từng lưu_trú . Khách_sạn có 4 mặt_tiền thuộc các giao_lộ Lê_Lợi - Hùng Vương , Hoàng_Hoa_Thám - Trương_Định ( TP. Huế , Thừa_Thiên - Huế ) bên cạnh cầu Trường Tiền với " view " sông Hương thơ_mộng , Phó_chủ_tịch thường_trực UBND tỉnh Thừa_Thiên - Huế , ông Nguyễn Thanh_Bình ( phải ) , trao cờ đơn_vị dẫn_đầu thi_đua có nhiều đóng_góp cho du_lịch của tỉnh cho ông Trần_Văn_Lâm , Tổng_giám_đốc Saigon_Morin , tại lễ kỷ_niệm 122 năm HƯƠNG GIANG Khách_sạn ra_đời vào năm 1901 khi ông Henri Bogaert , chủ nhà_máy gạch ngói Long_Thọ , cho khởi_công xây_dựng và lấy tên là " Grand Hotel de Hue " . Ngoài việc phục_vụ du_khách , Saigon_Morin còn đảm_nhiệm vai_trò " nhà_khách " của Chính_phủ Nam_triều và Chính_phủ bảo_hộ , cơ_quan Trung_kỳ . Khách_sạn nhanh_chóng trở_thành trung_tâm thương_mại , văn_hóa và...
    Mặc_dù nhiều chi_bộ chỉ mua báo đảng mà không đọc và áp_dụng nội_dung , liệu công_tác mua và đọc báo Đảng vẫn đạt hiệu_quả cao ?
    ( Chinhphu . vn ) - Bí_thư Trung_ương Đảng , Trưởng Ban Tuyên_giáo Trung_ương Nguyễn_Trọng_Nghĩa khẳng_định , trong thời_đại bùng_nổ thông_tin như hiện_nay thì vai_trò của báo giấy , của các tờ báo , tạp_chí của Đảng vẫn giữ nguyên giá_trị , thậm_chí có giá_trị cao hơn và phải phát_huy giá_trị ấy . Trưởng Ban Tuyên_giáo Trung_ương Nguyễn_Trọng Nghĩa phát_biểu chỉ_đạo Hội_nghị - Ảnh : VGP / Vũ_Phong Sáng 10 / 4 , tại TPHCM , Báo Nhân_dân , Tạp_chí Cộng_sản phối_hợp với Thành_ủy TPHCM và Tổng_công_ty Bưu_điện Việt_Nam tổ_chức Hội_nghị tiếp_tục thực_hiện Chỉ_thị số 11 của Bộ Chính_trị về tích_cực đổi_mới , nâng cao năng_lực định_hướng , hiệu_quả tuyên_truyền_gắn với việc mua , đọc , làm theo báo , tạp_chí của Đảng . Trưởng Ban Tuyên_giáo Trung_ương Nguyễn_Trọng_Nghĩa ; Tổng_Biên_tập Báo Nhân_dân Lê_Quốc_Minh ; Phó_Bí_thư Thành_ủy TPHCM Nguyễn Văn Hiếu ; Phó_Tổng_Biên_tập Tạp_chí Cộng_sản Nguyễn_Ngọc_Hà chủ_trì Hội_nghị . Cùng dự Hội_nghị còn có các đại_biểu đến từ các ban , bộ , ngành Tru...
    Công_ty TNHH Mua_bán nợ DSP có mua các khoản nợ mà khách_hàng đã vay không ?
    ( NLĐO ) - Sau khi mua khoản nợ từ Công_ty Mirae_Asset , các đối_tượng Công_ty TNHH Mua_bán nợ DSP đã nhắn_tin , gọi điện chửi_bới , đe_dọa hoặc cắt ghép ảnh của khách vay , người_thân , đồng_nghiệp của khách vay vào các hình_ảnh đồi trụy rồi đăng lên các trang mạng xã_hội để bôi_nhọ Ngày 25 - 3 , nguồn tin cho biết Cơ_quan Cảnh_sát điều_tra Công_an TP Hà_Nội đang điều_tra vụ án hình_sự Cưỡng_đoạt tài_sản xảy ra trên địa_bàn TP Hà_Nội và một_số tỉnh , TP trên cả nước . Công_an TP HCM khám_xét Công_ty Mirae Asset Cảnh_sát xác_định Công_ty TNHH Mua_bán nợ DSP , địa_chỉ : Tầng 4 , Chung_cư Lữ_Gia , số 70 Lữ_Gia , phường 15 , quận 11 , TP HCM , mua các khoản nợ mà khách_hàng đã vay của Công_ty Tài_chính TNHH MTV Mirae Asset Việt_Nam ( Mã_số doanh_nghiệp : 0311132506 ; địa_chỉ 91 Pasteur , phường Bến_Nghé , quận 1 , TP HCM ) và một_số tổ_chức tín_dụng khác nhưng không có khả_năng trả . Sau khi có các thông_tin khách_hàng và các thông_tin khoản nợ từ Công_ty Mirae_Asset , các đối_tượng sử_dụ...
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 1024,
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • num_train_epochs: 5
  • warmup_ratio: 0.1
  • warmup_steps: 50
  • fp16: True
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 50
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss
0.6369 100 0.212 -
1.2739 200 0.1337 -
1.9108 300 0.0879 0.0774
2.5478 400 0.066 -
3.1847 500 0.0469 -
3.8217 600 0.0357 0.071
4.4586 700 0.0249 -
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 5.1.0
  • Transformers: 4.51.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.5.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
-
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for truong1301/bi_encoder_vifactcheck_1

Finetuned
(45)
this model

Papers for truong1301/bi_encoder_vifactcheck_1