Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup
Paper • 2101.06983 • Published • 2
How to use truong1301/bi_encoder_vinum with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("truong1301/bi_encoder_vinum")
sentences = [
"Nguyễn_Đức_Thắng và Trần_Xuân_Bách là 2 học_sinh nhận được huy_chương bạc trong cuộc thi .",
"Theo các đại_lý Hyundai , Venue sẽ bán ra cuối 2023 , bên cạnh hai cái tên khác lần đầu_vào thị_trường Việt là Custo và Palisade . Dải_sản_phẩm gầm cao của Hyundai tại Việt_Nam sẽ trải dài từ nhỏ ( cỡ A ) đến lớn ( cỡ E ) với những cái tên lần_lượt là Venue , Creta , Tucson , Santa_Fe và Palisade . \n Hyundai Venue là sản_phẩm toàn_cầu của hãng xe Hàn_Quốc , chia_sẻ nền_tảng khung gầm với mẫu xe anh_em Kia_Sonet . Doanh_số Venue trên toàn_cầu chủ_yếu đến từ Ấn_Độ với khoảng 70 % thị_phần . \n Kích_thước dài , rộng , cao của Hyundai Venue là 4.040 mm , 1.770 mm , 1.585 mm , chiều dài cơ_sở 2.520 mm . Những thông_số tương_tự của Toyota_Raize là 4.030 x 1.710 x 1.605 mm , chiều dài cơ_sở 2.525 mm . Sonet là 4.120 x 1.790 x 1.642 mm , chiều dài cơ_sở 2.500 mm . \n Hyundai trang_bị nhiều tùy_chọn động_cơ cho Venue . Tùy_thị_trường , xe có các lựa_chọn như máy xăng 1.2 , tăng áp 1.0 hoặc máy dầu 1.5 với công_suất lần_lượt 83 mã_lực , 120 mã_lực và 116 mã_lực . Hộp_số sàn 5 cấp , 6 cấp hoặc tự_động 7 cấp ly hợp kép . Bên cạnh đó là máy xăng 1.6 công_suất 121 mã_lực . \n Tại Việt_Nam , đối_thủ Kia_Sonet do Trường Hải lắp_ráp và phân_phối dùng máy 1.5 công_suất 113 mã_lực . Toyota_Raize trang_bị_động_cơ tăng áp 1.0 công_suất 98 mã_lực . \n Sự góp_mặt của Venue giúp khách_hàng Việt có thêm lựa_chọn ở phân khúc xe gầm cao_giá rẻ đang thu_hút nhiều hãng xe tham_chiến . Xu_hướng chuyển_dịch từ hatchback cỡ A lên SUV cùng kích_cỡ dần rõ nét hơn ở Việt_Nam . Sau Raize và Sonet , thị_trường mới có thêm chiếc VF 5 Plus thuần điện của VinFast . Nhỏ hơn những mẫu xe này còn có Hongguang Mini EV đã bán và VF 3 ra_mắt vào năm sau . \n Venue chưa phải là mẫu SUV nhỏ nhất của hãng xe Hàn_Quốc khi còn có Exter , Casper . \n",
"Tiến_Minh vẫn giữ được độ dẻo_dai của cựu_số 4 thế_giới , khi thắng Tiến_Tuấn chỉ sau khoảng 40 phút thi_đấu trong trận chung_kết chiều 2 / 9 . Tay_vợt 22 tuổi nhỉnh hơn ở những tình_huống đập cầu hay phông cầu , còn đàn_anh mạnh ở các pha bỏ_nhỏ hoặc phán_đoán tình_huống . Tiến_Minh biết cách bỏ cầu khi cảm_thấy Tiến_Tuấn phông cầu quá lực và đi ra ngoài . Trận_đấu kết_thúc với cú đập cầu của tay_vợt trẻ đi ra ngoài . \n Tiến_Minh lần thứ 15 vô_địch giải cầu_lông cá_nhân quốc_gia , trong đó có kỷ_lục 11 năm liền đăng_quang giai_đoạn 2002 - 2013 . Chuỗi này chỉ dừng ở năm 2014 bởi anh không tham_dự . Sau đó , anh vô_địch quốc_gia thêm bốn lần nữa năm 2017 , 2019 , 2020 và 2023 . Điều đặc_biệt là trong 20 năm qua , Tiến_Minh mỗi khi dự giải đều vào chung_kết . \n Chặng đường tới chung_kết của tay_vợt 40 tuổi năm nay khó_khăn hơn , trong đó có thất_bại trước chính Tiến_Tuấn ở vòng bảng . Trước đó , Tiến_Minh lần_lượt vượt qua Đồng_Quang_Huy và Vũ Hải_Đăng ở vòng_loại , để vào bảng B cùng Tiến_Tuấn , Lê_Minh_Sơn và Phan Phúc_Thịnh . Tay_vợt từng đoạt HC đồng thế_giới thắng hai đối_thủ yếu hơn , rồi thua Tiến_Tuấn nhưng vẫn vào bán_kết với vị_trí nhì bảng . \n Tại bán_kết tối 1 / 9 , Tiến_Minh gặp tay_vợt số một Việt_Nam Nguyễn Hải_Đăng , nhưng anh thắng chỉ sau hai hiệp với tỷ_số 21 - 18 , 21 - 18 . Ở trận bán_kết còn lại , Tiến_Tuấn hạ tay_vợt chủ nhà Trần_Quốc_Khánh 22 - 20 , 21 - 15 . Tái_ngộ tại chung_kết , Tiến_Minh đòi nợ Tiến_Tuấn thành_công để đăng_quang ở tuổi 40 . \n Theo bảng thứ tự cầu_lông thế_giới ( BWF ) , Tiến_Minh đang là tay_vợt số ba Việt_Nam sau Nguyễn Hải_Đăng và Lê_Đức_Phát . Tuy_nhiên Đức_Phát không được xếp hạt_giống tại giải , vì_thế anh không may khi sớm đụng Hải_Đăng và dừng bước trước khi tới vòng bảng . \n Giải cầu_lông cá_nhân quốc_gia 2023 diễn ra tại Nhà thi_đấu Bắc_Giang từ 29 / 8 đến 2 / 9 . Các tay_vợt sẽ đấu_loại trực_tiếp để chọn tám người vào vòng bảng , chia làm hai bảng , mỗi bảng bốn người . Từ đó họ đấu vòng_tròn để chọn ra bốn tay_vợt vào bán_kết . \n Ở đơn nữ , Nguyễn_Thùy_Linh thắng dễ Trần_Thị_Phương_Thúy 21 - 12 , 21 - 13 để tiếp_tục thống_trị nội_dung này . Tại bán_kết , Thùy_Linh hạ Vũ_Thị_Trang - cựu số một Việt_Nam và cũng là vợ Nguyễn_Tiến_Minh . \n Các tay_vợt hàng_đầu Việt_Nam sẽ nghỉ_ngơi trước khi dự giải Việt_Nam Mở_rộng từ 12 / 9 đến 17 / 9 tại TP HCM. Đây là giải duy_nhất tại Việt_Nam thuộc hệ_thống BWF World Tour , cấp Super 100 . \n",
"Ngày 2 / 9 , Bộ Giáo_dục và Đào_tạo cho biết em Nguyễn_Ngọc_Đăng_Khoa , học_sinh lớp 11 , trường THPT chuyên Khoa_học Tự_nhiên , Đại_học Quốc_gia Hà_Nội , giành huy_chương vàng . \n Hai huy_chương bạc thuộc về Trần_Xuân_Bách , lớp 12 trường chuyên Khoa_học Tự_nhiên và Nguyễn_Đức_Thắng , học_sinh lớp 11 , trường THPT chuyên Hùng Vương , Phú_Thọ . Nguyễn_Quang_Minh , lớp 12 , trường chuyên Khoa_học Tự_nhiên , giành huy_chương đồng . \n Với thành_tích này , đội_tuyển Olympic Tin_học Việt_Nam đứng trong nhóm 9 quốc_gia và vùng lãnh_thổ đạt kết_quả cao nhất , sau đội Trung_Quốc , Mỹ , Nhật_Bản , Hàn_Quốc , Israel ... \n Kỳ thi Olympic quốc_tế lần thứ 35 năm 2023 được tổ_chức từ ngày 28 / 8 đến 4 / 9 tại thành_phố Szeged , Hungary , với 351 thí_sinh đến từ 89 quốc_gia và vùng lãnh_thổ . \n Kỳ thi có hai ngày thi chính_thức . Trong mỗi ngày thi , các thí_sinh lập_trình trên máy_tính trong 5 giờ và giải 3 bài_toán . \n Theo ban tổ_chức , 178 thí_sinh đoạt huy_chương , trong đó 30 huy_chương vàng , 58 bạc và 90 đồng , chiếm tỷ_lệ 50,7 % số thí_sinh tham_dự . 40 em khác được tặng bằng khen . \n Bộ Giáo_dục và Đào_tạo đánh_giá đề thi năm nay khó hơn các năm trước và có một_số dạng bài_toán lạ , đòi_hỏi khả_năng vận_dụng kiến_thức linh_hoạt và sự sáng_tạo cao của thí_sinh . \n Năm_ngoái , đội_tuyển Việt_Nam dự thi trực_tuyến , giành một huy_chương vàng và ba huy_chương bạc . Chủ_nhân tấm huy_chương vàng là Trần_Xuân_Bách , khi đó học lớp 11 trường THPT chuyên Khoa_học Tự_nhiên . \n"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("truong1301/bi_encoder_vinum")
# Run inference
sentences = [
'Madison và Christine đã ra_sức tìm manh_mối để kết_tội kẻ tình_nghi Chris_Buonocore đến năm 2018 .',
'Năm 2013 , Madison_Conradis , nhân_viên tiếp_thị ở Florida , phát_hiện những bức ảnh " nóng " cô từng chụp khi làm người_mẫu bị rò_rỉ trên mạng . Madison đoán kẻ xấu đã xâm_nhập trang_web riêng_tư của nhiếp_ảnh gia và đánh_cắp chúng . \n Kẻ xấu lập các tài_khoản Facebook nặc_danh và " khủng_bố " cô . Chúng yêu_cầu cô gửi thêm ảnh nếu không muốn bị tiếp_tục phát_tán hình_ảnh nhạy_cảm khác . Sự_cố khiến Madison gặp hàng_loạt phiền_toái trong cuộc_sống . Khách_hàng bắt_đầu bàn_tán sau lưng . Một đồng_nghiệp cũng nhận được ảnh của cô trong hộp_thư . Thậm_chí , nhóm hacker còn quấy_rối tài_khoản Instagram của cha cô . \n Năm 2016 , Madison vượt qua mặc_cảm và hẹn_hò với Jeffrey_Geiger , một đồng_nghiệp ở công_ty đối_tác . Trong lần cả hai nghỉ_mát tại quần_đảo Florida_Keys , cô thử đăng một ảnh lên Snapchat sau thời_gian dài tránh xa mạng xã_hội . Tuy_nhiên , ngay sáng hôm sau , Madison nhận được tin nhắn từ tài_khoản Facebook của kẻ kia : " Có_vẻ các người đang trải qua một kỳ nghỉ thú_vị nhỉ " . \n Cho rằng mình bị theo_dõi qua ứng_dụng Snapchat , Madison nhanh_chóng chụp màn_hình những người đã tương_tác với bài đăng . Sau khi lọc 39 lượt xem , cô thấy một kẻ tình_nghi là Christopher_Buonocore , bạn cũ từ thời_đại_học , từng tham_dự đám_cưới của người chị Christine . Dù_vậy , Madison vẫn chưa thể khởi_kiện Buonocore do không đủ bằng_chứng . \n Cuối 2017 , cô bị sốc khi phát_hiện chính người_tình Geiger tiếp_tay cho kẻ xấu . Lần này , Christine cũng trở_thành nạn_nhân vì từng nhờ Geiger sao_chép dữ_liệu riêng_tư trên đĩa CD sang nền_tảng lưu_trữ Dropbox . Trước_tòa , Geiger nói được nhóm tin_tặc liên_hệ nhưng không biết chúng là ai . Đồng_thời , người này giải_thích việc chia_sẻ ảnh nóng của hai chị_em là nhằm tạo niềm tin với kẻ xấu để lật_tẩy chúng sau_này . \n Cơ_quan_chức_năng quyết_định không khởi_tố Jeffrey_Geiger do chưa thể chứng_minh người này muốn hãm_hại hai chị_em Madison . \n Đến năm 2018 , Madison và Christine vẫn cố_gắng tìm chứng_cứ để buộc kẻ tình_nghi Chris_Buonocore chịu trách_nhiệm trước pháp_luật . Sau nhiều ngày theo_dõi trên một trang Deep Web , họ nhận thấy tài_khoản tên Kik_Messenger thường_xuyên đăng ảnh nóng của hai chị_em cùng bốn phụ_nữ khác . Nhóm nạn_nhân mới đều quen Buonocore . Trong đó , hai người là bạn gái , một người là bạn thời thơ_ấu , người còn lại là họ_hàng và bị phát_tán ảnh riêng_tư từ lúc 14 tuổi . \n Nhờ phát_hiện này , Madison thuyết_phục cảnh_sát chuyển sự_việc cho cơ_quan điều_tra liên_bang . Đồng_thời , các đơn_vị cung_cấp dịch_vụ Internet và quản_trị viên trang_web cũng hợp_tác để tìm IP kẻ xấu . Kết_quả , đến tháng 7 / 2019 , FBI triệt_phá thành_công đường_dây tội_phạm . \n Tài_liệu tại tòa_án cho thấy , trong 7 năm , Buonocore sử_dụng tin nhắn văn_bản , số điện_thoại giả , tài_khoản mạng xã_hội để tấn_công mạng và đe_dọa phụ_nữ , bao_gồm trẻ vị thành_niên . Ngoài hàng nghìn ảnh nhạy_cảm , Buonocore cũng công_khai tên_tuổi , địa_chỉ nhà của nạn_nhân nhằm lôi_kéo nhiều người tham_gia đường_dây . Một_số trường_hợp , Buonocore khuyến_khích các thành_viên lên kế_hoạch xâm_hại thân_thể hoặc tống_tiền nạn_nhân . \n Theo Washington_Post , kẻ chủ_mưu Buonocore lấy lý_do sức_khỏe tâm_thần và lý_lịch trong_sạch để yêu_cầu ngồi_tù dưới 41 tháng . Tuy_nhiên , tháng 11 / 2021 , thẩm_phán Thomas Barber ra phán_quyết 15 năm tù_giam , nhiều hơn gần 4 năm so với đề_xuất của công_tố_viên . " Đây không phải là một vụ tấn_công mạng đơn_thuần " , ông nói . \n',
'Cách TP HCM 100 - 200 km có nhiều điểm du_lịch phù_hợp kỳ nghỉ 2 / 9 năm nay . Các hoạt_động trekking , cắm trại cho du_khách cơ_hội thả mình vào thiên_nhiên sau những ngày ở thành_phố khói bụi , chi_phí không quá đắt_đỏ . Tuy_nhiên , các điểm đến này không thích_hợp với du_khách ưa sự tiện_nghi . \n Anh Nguyễn_Hiển , hướng_dẫn_viên một công_ty du_lịch ở TP HCM , gợi_ý 5 điểm du_lịch thiên_nhiên gần thành_phố . Du_khách có_thể tham_khảo cho chuyến đi một ngày hai đêm với kinh_phí tiết_kiệm . \n Cách TP HCM 148 km \n Chi_phí : 1 - 3 triệu đồng \n Vườn quốc_gia Cát_Tiên thuộc huyện Tân_Phú , tỉnh Đồng_Nai . Thời_gian di_chuyển bằng xe_máy hoặc ôtô từ TP HCM tới đây khoảng 3 giờ . Bàu_Sấu là vùng đầm lầy nằm ở phía nam vườn quốc_gia , là nơi sinh_sống của cá_sấu Xiêm , một loài cá_sấu nước_ngọt Đông_Nam_Á . \n Hai ngày là vừa đủ để thăm_thú Cát_Tiên với chi_phí dưới 3 triệu đồng . Tùy nhu_cầu , du_khách có_thể lưu_trú ở homestay , resort hoặc cắm trại một đêm trước ngày trekking xuyên rừng . Ngoài_ra , nhiều du_khách cũng lựa_chọn đạp xe khám_phá khu rừng thay_vì trekking . Các hoạt_động thú_vị ở Cát_Tiên có_thể kể đến đi thuyền " săn " cá_sấu trên vùng đầm lầy Bàu_Sấu , check - in cây cổ_thụ , xem thú đêm . Cát_Tiên là nơi duy_nhất ở Việt_Nam , bạn có_thể nhìn thấy động_vật hoang_dã ngay trong môi_trường tự_nhiên . \n Cách TP HCM 192 km \n Chi_phí : 1 - 2 triệu đồng \n Suối La_Ngâu nằm ở thượng_nguồn sông La_Ngà , được bao_bọc bởi rừng Tánh_Linh . Nơi này sở_hữu cảnh_quan nguyên_sơ , yên_tĩnh , là địa_điểm lý_tưởng cho những ai muốn ngắt kết_nối với thế_giới ảo . Du_khách tới đây chủ_yếu tham_gia hoạt_động cắm trại quanh suối . Tắm suối , chèo kayak là hoạt_động được yêu thích . Nên ra suối vào buổi sáng , trời mát_mẻ , nắng không quá gắt . Từ 17h hàng ngày nước ở thượng_nguồn thường đổ về nhiều , nên tránh ở gần bờ suối . \n Có hai hình_thức là dựng lều tại các bãi tự_phát hoặc cắm trại tiện_nghi với dịch_vụ có sẵn ( glamping ) . Anh Đỗ_Hiếu , chủ khu cắm trại Boo_Camp , thuộc La_Ngâu chia_sẻ hiện khu_vực này chỉ có hai điểm kinh_doanh dịch_vụ cắm trại có giấy_phép hoạt_động , còn lại là các bãi tự_phát . Chi_phí cắm trại dịch_vụ trọn_gói có_giá từ 650.000 đồng mỗi khách một đêm , đã bao_gồm các bữa ăn . Du_khách cần đặt chỗ trước nếu dự_định cắm trại dịch_vụ . Càng gần ngày lễ , lượng lều trống view đẹp càng ít . \n Cách TP HCM 190 km \n Chi_phí : 1 - 3 triệu đồng \n Vườn quốc_gia ( VQG ) Bù_Gia_Mập ở xã Phú_Nghĩa , huyện Bù_Gia_Mập , phía đông bắc tỉnh Bình_Phước , diện_tích hơn 25.000 ha . \n Đến VQG , du_khách có_thể trải nghiệm trekking , ngắm nhìn những cánh rừng lồ_ô , cây họ dầu và nhiều loài cây đặc_trưng khác của khu rừng chuyển_tiếp từ Tây_Nguyên xuống vùng Đông_Nam_Bộ ; tham_quan trung_tâm cứu_hộ bảo_tồn và phát_triển sinh_vật , tìm_hiểu tập_tính sinh_thái và những đặc_điểm thú_vị của các loài linh_trưởng và một_số loài động_vật của VQG. \n Các tour trekking VQG trọn_gói có_giá khoảng 2,5 triệu đồng , du_khách chỉ cần chuẩn_bị đồ_dùng cá_nhân cần_thiết trước khi lên_đường . Trong khi đó , trekking tự_túc chi_phí tiết_kiệm hơn nhưng bạn phải mang vác đồ_đạc suốt quá_trình di_chuyển , đòi_hỏi kinh_nghiệm đi rừng , thể_lực và sức_bền tốt . \n Cách TP HCM 237 km \n Chi_phí : 1 - 2 triệu đồng \n Mũi Yến thuộc xã Hòa_Thắng , huyện Bắc_Bình , tỉnh Bình_Thuận , cách khu du_lịch Bàu_Trắng khoảng 4 km . Địa_điểm này còn hoang_sơ và chưa có các dịch_vụ du_lịch . \n Mũi Yến có địa_hình đồi thoai_thoải , những mũi_đất nhô ra biển Hòa_Thắng . Vì chưa phát_triển du_lịch , lại cách xa khu dân_cư 15 - 20 km , hoạt_động cắm trại ở đây đều là tự_túc . \n Du_khách không thường_xuyên du_lịch dã_ngoại có_thể thuê lều , các đồ_dùng cắm trại kèm theo . Chi_phí thuê lều , nệm hơi , ghế_ngồi , quạt tích điện , đèn , dụng_cụ nấu_ăn cho 2 người trong 2 ngày khoảng 600.000 - 700.000 đồng . Đồ ăn đem theo có_thể chuẩn_bị sẵn hoặc bạn có_thể mua đồ tươi_sống tại các vựa hải_sản ở Hòa_Thắng . \n Đường vào Mũi Yến khá khó đi , nhiều dốc cát , đá_dăm , đá_tảng , nên di_chuyển bằng ôtô hai cầu nếu tay_lái không đủ vững . \n Cách TP HCM 80 km \n Chi_phí : 1 - 2 triệu đồng \n Sau khi đến hồ Dầu_Tiếng , du_khách có_thể qua bến thuyền ở ngã ba Bờ Hồ , gần nhà_thờ Suối Đá , thị_trấn Dương Minh_Châu . Đây là bến thuyền duy_nhất chở khách ra đảo Nhím . Bạn có_thể gửi ôtô , xe_máy tại nhà dân ở gần bến_tàu . Sau đó khi tới đảo , mọi người tiếp_tục trekking , đi bộ hoặc đi xe trâu kéo . Bạn lưu số của lái tàu để liên_hệ khi về . \n Nếu không mang đồ ăn , bạn có_thể đặt_hàng người dân trên đảo các món gà ta , cá_lăng , rau rừng , khoai_lang , khoai_mì nướng ... Chi_phí cho một người khoảng 500.000 đồng mỗi đêm , đã bao_gồm phí thuê thuyền khứ_hồi giá khoảng 1,5 triệu đồng , chở 10 - 15 khách . \n',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.6322, 0.0179],
# [ 0.6322, 1.0000, -0.0044],
# [ 0.0179, -0.0044, 1.0000]])
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Võ_sĩ người Việt_Nam Thạch_Kim_Tuấn , một người từng đoạt ba huy_chương vàng hạng cân 56kg . |
Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này . |
Việt_Nam đã vô_địch ở Arab_Saudi , khi Ngô_Sơn_Đỉnh giành cả ba HC bạc và về nhì . |
Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này . |
Đô cử duy_nhất của Việt_Nam_Gia_Thành vừa đoạt HC vàng SEA_Games ba kỳ liên_tiếp cũng ở hạng cân 55kg . |
Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này . |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 1024,
"gather_across_devices": false
}
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Nhật_Bản và Việt_Nam đã có cuộc tranh_đấu khi đội Nhật chiến_thắng ở 15 - 11 . |
Ở bán_kết , Nhật_Bản tốn sức khi phải thi_đấu năm set và thua Thái_Lan 2 - 3 . Họ cũng có ít thời_gian để nghỉ_ngơi hơn do thi_đấu sau Việt_Nam . Dù thua Trung_Quốc 0 - 3 , việc chỉ thi_đấu ba set giúp các học_trò của HLV Nguyễn_Tuấn_Kiệt phần_nào giữ được thể_lực . |
Dennis_Schroder , Franz_Wagner và Daniel_Theis là ba cầu_thủ có đóng_góp lớn_lao trong việc giúp Đức thắng cuộc . |
Kỳ World_Cup thứ hai liên_tiếp , Mỹ không_thể vào chung_kết . Đây được xem là kết_quả đáng thất_vọng với cường_quốc bóng_rổ số một thế_giới . Với việc thua Đức lần đầu sau bảy lần chạm_trán ở World_Cup và Olympic , Mỹ sẽ phải đấu trận tranh vị_trí thứ ba với Canada vào Chủ_nhật 10 / 9 . Cùng ngày , trong lần đầu_vào chung_kết , Đức sẽ gặp Serbia . |
Từ nhà chị Hằng đến trường phải mất khoảng thời_gian là gần 50 phút với phương_tiện là xuồng . |
Tại Hà_Nội , đường_phố nhộn_nhịp từ 6h30 khi gần 2,3 triệu học_sinh các cấp đi khai_giảng . Đây là địa_phương có số học_sinh và trường , lớp nhiều nhất cả nước . |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 1024,
"gather_across_devices": false
}
eval_strategy: stepsper_device_train_batch_size: 32per_device_eval_batch_size: 32learning_rate: 2e-05weight_decay: 0.01num_train_epochs: 5warmup_ratio: 0.1warmup_steps: 50fp16: Trueload_best_model_at_end: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 5max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 50log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | Validation Loss |
|---|---|---|---|
| 1.1905 | 100 | 0.5895 | - |
| 2.3810 | 200 | 0.2979 | - |
| 3.5714 | 300 | 0.1551 | 0.2772 |
| 4.7619 | 400 | 0.0906 | - |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
Base model
bkai-foundation-models/vietnamese-bi-encoder