Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup
Paper
•
2101.06983
•
Published
•
1
This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("truong1301/bi_encoder_viwiki")
# Run inference
sentences = [
'Có phải số lượng sinh viên tốt nghiệp ngành khoa học, công nghệ, kỹ thuật và toán học của Mỹ cao gấp đôi so với Trung Quốc, mặc dù dân số Trung Quốc hơn Mỹ 4,2 lần?\n',
'Bên cạnh Huawei, việc công ty thiết bị viễn thông lớn thứ hai Trung Quốc là ZTE bị đẩy vào tình trạng khó khăn sau khi bị Mỹ cấm vận công nghệ cho thấy Trung Quốc vẫn còn phụ thuộc Mỹ rất lớn về một số công nghệ. Trên tạp chí Forbes, ông Jean Baptiste Su, Phó Chủ tịch công ty nghiên cứu thị trường công nghệ Atherton Research (Mỹ) cho rằng khó khăn của ZTE sau lệnh cấm vận công nghệ của Mỹ cho thấy hầu như tất cả các công ty lớn của Trung Quốc hiện đang phụ thuộc lớn vào các công nghệ của Mỹ. Các công ty lớn của Trung Quốc từ Baidu, Alibaba, Tencent, Xiaomi, Didi Chuxing cho đến Ngân hàng Trung Quốc (BOC), Ngân hàng Công thương Trung Quốc (ICBC), các công ty viễn thông China Mobile, China Telecom, tập đoàn dầu khí nhà nước Trung Quốc Petro China, hãng ô tô nhà nước SAIC... đều dựa vào công nghệ, linh kiện, phần mềm hoặc tài sản sở hữu trí tuệ của các công ty nước ngoài như Apple, Google, Intel, Qualcomm, Cisco, Micron, Microsoft... Tác giả cho rằng một lệnh cấm bán công nghệ Mỹ cho các công ty Trung Quốc có thể làm suy sụp nền kinh tế Trung QuốcTheo một bài phân tích của Bloomberg, bên cạnh một số lĩnh vực không sánh được với Mỹ thì Trung Quốc cũng có những thế mạnh riêng để phát triển trong tương lai, như quy mô dân số, số người dùng internet, việc Huawei là hãng mạnh nhất về phát triển của công nghệ 5G mà các nhà mạng toàn cầu mới bắt đầu triển khai. Năm 2016, Trung Quốc có 4,7 triệu sinh viên tốt nghiệp các ngành khoa học, công nghệ, kỹ thuật và toán học gần đây, trong khi Mỹ chỉ có 568.000 (dân số Trung Quốc gấp 4,2 lần dân số Mỹ, tính theo tỷ lệ dân số thì chỉ số này của Trung Quốc cao hơn 2 lần so với Mỹ). Chuỗi lắp ráp, sản xuất tại Trung Quốc nhìn chung vẫn nhỉnh hơn Mỹ về mặt tổng sản lượng trong nhiều ngành công nghiệp và luôn có chi phí thấp hơn Mỹ. Chiến tranh lạnh về công nghệ ngày càng tăng tiến giữa Trung Quốc và Mỹ sẽ rất khó tìm bên chiến thắng rõ ràng.',
'Cơ quan lập pháp dân cử của Nhật Bản là Quốc hội (国会, Kokkai), đặt trụ sở tại Chiyoda, Tokyo. Quốc hội hoạt động theo cơ chế lưỡng viện, trong đó Hạ viện (衆議院 (Chúng Nghị viện), Shūgiin) có 465 ghế, được cử tri bầu chọn sau mỗi bốn năm hoặc sau khi giải tán, và Thượng viện (参議院 (Tham Nghị viện), Sangiin) có 245 ghế, được cử tri bầu chọn cho nhiệm kỳ sáu năm và cứ mỗi ba năm được bầu lại một nửa số thành viên. Quyền bầu cử theo nguyên tắc phổ thông đầu phiếu thuộc về mọi công dân Nhật Bản trên 18 tuổi không phân biệt nam-nữ, trong đó áp dụng phương thức bỏ phiếu kín tại tất cả đơn vị bầu cử. Các nghị sĩ quốc hội chủ yếu là người của Đảng Dân chủ Tự do có khuynh hướng bảo thủ. Đảng Dân chủ Tự do đã liên tiếp giành thắng lợi trong các cuộc tổng tuyển cử kể từ năm 1955, ngoại trừ hai giai đoạn từ năm 1993–1994 và từ năm 2009–2012. Đảng này chiếm 262 ghế trong Chúng Nghị viện và 113 ghế trong Tham Nghị viện.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.4291, -0.0117],
# [ 0.4291, 1.0000, -0.0461],
# [-0.0117, -0.0461, 1.0000]])
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Vì sao chế độ quân chủ chuyên chế nhà Thanh không thể bảo vệ Trung Quốc trước sự xâm lược của phương Tây và chủ nghĩa tư bản? |
Cuối thời nhà Thanh, do sự lạc hậu về khoa học công nghệ, Trung Quốc bị các nước phương Tây (Anh, Đức, Nga, Pháp, Bồ Đào Nha) và cả Nhật Bản xâu xé lãnh thổ. Các nhà sử học Trung Quốc gọi thời kỳ này là Bách niên quốc sỉ (100 năm đất nước bị làm nhục). Chế độ quân chủ chuyên chế đã tỏ ra quá già cỗi, hoàn toàn bất lực trong việc bảo vệ đất nước chống lại chủ nghĩa tư bản phương Tây. Điều này gây bất bình trong đội ngũ trí thức Trung Quốc, một bộ phận kêu gọi tiến hành cách mạng lật đổ chế độ quân chủ chuyên chế của nhà Thanh, thành lập một kiểu nhà nước mới để canh tân đất nước. Năm 1911, cách mạng Tân Hợi nổ ra, hoàng đế cuối cùng của Trung Quốc là Phổ Nghi buộc phải thoái vị. |
Cuộc đảo chính lật đổ nền quân chủ Yemen và thành lập Cộng hòa Ả Rập Yemen có phải là nguyên nhân dẫn đến nội chiến ở nước này không? |
1962: Khủng hoảng tên lửa Cuba. Algérie giành độc lập. Cái chết của Marilyn Monroe. Chiến tranh Indonesia- Malaysia. Một cuộc đảo chính lật đổ nền quân chủ và thành lập nước Cộng hòa Ả Rập Yemen dẫn tới cuộc nội chiến tại nước này. Chiến tranh Trung-Ấn. |
Năm 1956, sau khi Pháp rút quân khỏi Việt Nam, ai là người lãnh đạo Quốc gia Việt Nam? |
Năm 1954 - Hiệp định Genève quy định lấy vĩ tuyến 17 làm ranh giới quân sự tạm thời (bao gồm cả trên đất liền và trên biển). Quần đảo Hoàng Sa nằm ở phía Nam vĩ tuyến 17, được giao cho chính quyền Liên Hiệp Pháp quản lý. Năm 1956, sau khi Pháp hoàn tất rút quân khỏi Việt Nam, Quốc gia Việt Nam (quốc trưởng Bảo Đại đứng đầu) đứng ra quản lý. |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 1024,
"gather_across_devices": false
}
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Liệu sự bất bình đẳng giới giữa con trai và con gái có phải là một vấn đề nghiêm trọng, đặc biệt là ở Ấn Độ không? |
Phá thai nếu sinh con gáiNhiều gia đình ở Ấn Độ bị áp lực bởi truyền thống trao của hồi môn cho con gái trước khi về nhà chồng, hoặc bị mất danh dự do con gái xấu xí, hoặc đã bị hãm hiếp mà không lấy được chồng, bởi vậy họ không hề muốn sinh con gái. Ngược lại, con trai là người duy trì dòng tộc và mang lại tiền bạc từ của hồi môn của vợ. Kết quả là, việc phá thai nếu chẩn đoán là con gái xảy ra phổ biến ở khắp nơi, kể cả ở thành phố và các gia đình có giáo dục. Cách phá thai phổ biến nhất là ăn một số loại thảo dược. Nếu sinh con rồi, họ có thể dìm con trong sữa cho chết ngạt, hoặc cho con ăn thức ăn quá lớn để chết vì nghẹn, thậm chí chôn sống con. |
Sự kiện ly khai của họ Nguyễn và việc chúa Trịnh đem quân đánh vào năm 1627 đã dẫn đến thời kỳ Trịnh-Nguyễn phân tranh kéo dài hơn 40 năm phải không? |
Biết rằng họ Nguyễn ly khai, không chịu thần phục nữa, tháng 3 năm 1627, chúa Trịnh mang quân đi đánh họ Nguyễn. Sự kiện này đánh dấu sự chia tách hoàn toàn cả về lý thuyết và thực tế của xứ Thuận Quảng tức Đàng Trong của Chúa Nguyễn với Đàng Ngoài của Chúa Trịnh. Nó cũng tạo ra thời kỳ Trịnh-Nguyễn phân tranh kéo dài 45 năm, từ 1627 đến 1672, với 7 cuộc đại chiến của 2 bên. Dân tình quá khổ cực, chán nản, hai họ Trịnh, Nguyễn phải ngừng chiến, lấy sông Gianh làm ranh giới chia cắt lãnh thổ, miền Nam sông Gianh–Rào Nan thuộc quyền chúa Nguyễn, được gọi là Đàng Trong. |
Kiến trúc ở Kyoto, Uji có phải là một trong những công trình mang đậm nét sử thi về lịch sử cố đô Kyoto không? |
Các công trình kiến trúc lịch sử cố đô Kyoto nằm rải rác 17 địa điểm trong đó ba công trình ở Kyoto, Ujin thuộc phủ Kyoto và Otsu ở huyện Shiga. Gồm có 3 chùa phật giáo, 3 đền Thần đạo và một lâu đài. Riêng 38 cơ sở kiến trúc được chính phủ liệt vào danh sách Di sản quốc gia, 160 kiến trúc khác vào danh sách Các công trình văn hóa quan trọng. Tám khu vườn thắng cảnh đặc biệt và bốn với Thắng cảnh đẹp. Công nhận năm 1994. |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 1024,
"gather_across_devices": false
}
eval_strategy: stepsper_device_train_batch_size: 32per_device_eval_batch_size: 32learning_rate: 2e-05weight_decay: 0.01num_train_epochs: 5warmup_ratio: 0.1warmup_steps: 50fp16: Trueload_best_model_at_end: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 5max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 50log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | Validation Loss |
|---|---|---|---|
| 0.1927 | 100 | 0.3333 | - |
| 0.3854 | 200 | 0.2494 | - |
| 0.5780 | 300 | 0.2223 | 0.1975 |
| 0.7707 | 400 | 0.2037 | - |
| 0.9634 | 500 | 0.1883 | - |
| 1.1561 | 600 | 0.1791 | 0.1547 |
| 1.3487 | 700 | 0.1387 | - |
| 1.5414 | 800 | 0.1362 | - |
| 1.7341 | 900 | 0.1324 | 0.1313 |
| 1.9268 | 1000 | 0.1218 | - |
| 2.1195 | 1100 | 0.0969 | - |
| 2.3121 | 1200 | 0.0814 | 0.1127 |
| 2.5048 | 1300 | 0.09 | - |
| 2.6975 | 1400 | 0.0859 | - |
| 2.8902 | 1500 | 0.083 | 0.1069 |
| 3.0829 | 1600 | 0.0722 | - |
| 3.2755 | 1700 | 0.054 | - |
| 3.4682 | 1800 | 0.0446 | 0.1004 |
| 3.6609 | 1900 | 0.0553 | - |
| 3.8536 | 2000 | 0.059 | - |
| 4.0462 | 2100 | 0.0517 | 0.0920 |
| 4.2389 | 2200 | 0.0303 | - |
| 4.4316 | 2300 | 0.0362 | - |
| 4.6243 | 2400 | 0.0352 | 0.0891 |
| 4.8170 | 2500 | 0.033 | - |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
Base model
bkai-foundation-models/vietnamese-bi-encoder