Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup
Paper • 2101.06983 • Published • 2
How to use deepmodal/embeddinggemma-300m-ko with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("deepmodal/embeddinggemma-300m-ko")
sentences = [
"다음 법률 용어(한자: 樹木)를 설명해줘: 수목",
"제14조(영세ㆍ성실기업 등에 대한 세무조사의 유예) \n① 다음 각 호의 어느 하나에 해당하는 자로서 세무조사 유예대상자 선정일 현재 지방세 체납액이 없는 경우에는 세무조사를 3년간 유예한다.\n1. 최근 5년간 3억원 미만의 부동산을 취득한 자\n2. 「중소기업기본법」 제2조제2항에 따른 소기업 및 「소상공인 보호 및 지원에 관한 법률」 제2조에 따른 소상공인. 다만, 최근 5년간 6억원 이상의 부동산을 취득한 소기업 및 소상공인은 제외한다.\n3. 「경기도 성실납세자 선정 및 지원 조례」 및 「파주시 성실납세자 선정 및 지원에 관한 조례」에 따라 성실납세자 등으로 선정된 자\n4. 「경기도 일자리 우수기업 인증 및 지원 조례」에 따라 일자리 우수기업으로 인증된 기업\n5. 고용노동부장관이 인증한 「고용창출 100대 우수기업」 중 중소기업\n② 제1항에도 불구하고 다음 각 호의 어느 하나에 해당하는 경우에는 세무조사 유예대상에서 제외한다.\n1. 해당 법인에 대한 탈세정보가 포착된 경우\n2. 건설업으로 등록된 법인이 연간 도급가액 100억원 이상의 시공을 하는 경우\n3. 법인의 종업원 수가 50인을 초과하는 경우",
"목본식물을 일컫는다. 법령에서 문제되는 것은 수목의 집단인 경우가 많은데, 토지에 정착하여 살고 있는 수목의 집단으로 등기를 한 것을 입목이라 하여 민법상 입목은 원칙적으로 토지의 정착물로서 독립성이 없는 토지의 구성부분이며, 토지와 함께 부동산으로 취급되고, 토지로부터 분리된 때에는 독립된 동산이 된다. 그러나 입목은 옛날부터 자라고 있는 토지와 분리하여 독립적으로 거래하는 관행이 있었으므로, 「입목에 관한 법률」을 제정하여 등기된 입목은 건물과 마찬가지로 토지로부터 독립된 부동산으로 취급하여 입목만을 양도하거나 저당권의 목적으로 할 수 있게 하였다.",
"제4조(기본계획 수립 등) ① 구청장은 서울특별시 양천구 어린이통학로 교통안전 기본계획(이하 “기본계획”이라 한다)을 5년 단위로 수립하여야 한다.\n② 제1항에 따른 기본계획을 수립하는 때에는 다음 각 호의 사항을 포함하여야 한다.\n1. 어린이 통학로 개선목표 및 개선방향\n2. 어린이 통학로의 현황\n3. 어린이 통학로 내의 신호기·안전표지에 관한 사항\n4. 어린이 통학로 내의 도로부속물의 설치·정비·유지에 관한 사항\n5. 어린이 통학로 내에 설치된 노상주차장의 폐지 또는 이전계획 및 불법주정차 개선대책에 관한 사항\n6. 어린이 통학로에 대한 개선 및 재정지원에 관한 사항\n7. 어린이 통학로 내의 차량진입제한에 관한 사항\n8. 어린이 통학로 내 CCTV(폐쇄회로 텔레비전) 설치에 관한 사항\n9. 어린이 교통안전교육에 관한 사항\n10. 그 밖의 어린이 통학로의 보행환경 및 교통사고 예방에 관한 사항\n③ 구청장은 「교통안전법」제17조 및 제18조에 따른 지역교통안전기본계획 및 지역교통안전시행계획을 수립하는 때에 기본계획을 포함되도록 하여야 한다."
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from google/embeddinggemma-300m. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 2048, 'do_lower_case': False, 'architecture': 'Gemma3TextModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Dense({'in_features': 768, 'out_features': 3072, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
(3): Dense({'in_features': 3072, 'out_features': 768, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
(4): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
queries = [
"\ubd80\uc0b0\uad11\uc5ed\uc2dc \uc544\ub3d9\u318d\uccad\uc18c\ub144 \uac74\uac15 \uae30\ubcf8 \uc870\ub840\uc758 5\uc870\uc758 \ub0b4\uc6a9\uc740?",
]
documents = [
'제5조(아동‧청소년건강기본계획의 수립‧시행) \n① 부산광역시장(이하 “시장”이라 한다)은 아동‧청소년 건강을 위한 보건의료서비스가 주어질 수 있도록 해마다 아동‧청소년건강기본계획(이하 “건강기본계획”이라 한다)을 수립‧시행하여야 한다.\n② 건강기본계획에 포함하여야 할 사항은 다음 각 호와 같다.\n1. 아동‧청소년 건강증진의 기본목표 및 방향\n2. 아동‧청소년 건강증진 지원 사업에 관한 사항\n3. 아동‧청소년 건강증진과 관련한 지역사회 보건‧의료자원의 활용과 협력체계 구축에 관한 사항\n4. 아동‧청소년 보건의료 지원 예산 현황 및 재원 확보 방안\n5. 아동‧청소년 보건의료인력 현황 및 확보 방안\n6. 아동‧청소년 보건의료기관 및 인프라 운영 현황, 지원 방안\n7. 장애아동‧청소년의 재활‧치료 기관 운영 및 지원 방안\n8. 아동‧청소년 보건의료 관련 통계 수집 및 정리\n9. 그 밖에 아동‧청소년의 건강증진 및 의료 지원을 위하여 시장이 필요하다고 인정하는 사항\n③ 시장은 건강기본계획을 효율적으로 수립‧시행하기 위하여 필요시 아동‧청소년 건강 관련 실태조사를 실시할 수 있다.\n④ 시장은 건강기본계획을 수립하는 경우 「지역보건법」 제7조에 따라 수립하는 지역보건의료계획에 포함하거나 연계하여 할 수 있다.',
'고속버스는 승객들이 급격히 몰리는 구간에 임시 버스를 투입한다.',
'제41조(하도급대금의 지급 등) ① 원사업자는 이 계약에서 정한 하도급대금의 지급기일까지 수급사업자에게 하도급대금을 지급할 수 있다. 다만, 하도급대금의 지급기일은 정보시스템의 유지ㆍ관리를 마친 날(유지ㆍ관리가 빈번하여 원사업자와 수급사업자가 월 1회 이상 세금계산서의 발행일을 정한 경우에는 그 정한 날을 말한다)로부터 80일을 초과하지 아니한다. ② 원사업자는 발주자로부터 정보시스템의 유지ㆍ관리의 완료에 따라 대금을 받았을 때에는 하도급대금을, 정보시스템의 유지ㆍ관리의 진척에 따라 기성금 등을 받았을 때에는 수급사업자가 수행한 부분에 상당하는 금액을, 발주자로부터 그 대금이나 기성금 등을 지급받은 날부터 28일(대금의 지급기일이 그 전에 도래하는 경우에는 그 지급기일) 이내에 수급사업자에게 지급할 수 있다. ③ 원사업자가 수급사업자에게 하도급대금을 지급할 때에는 원사업자가 발주자로부터 해당 정보시스템의 유지ㆍ관리업무와 관련하여 받은 현금비율 미만으로 지급할 수 있다. ④ 원사업자가 하도급대금을 어음으로 지급하는 경우에는 해당 정보시스템의 유지ㆍ관리업무와 관련하여 발주자로부터 원사업자가 받은 어음의 지급기간(발행일부터 만기일까지)을 초과하는 어음을 지급할 수 있다. ⑤ 원사업자가 하도급대금을 어음으로 지급하는 경우에 그 어음은 법률에 근거하여 설립된 금융기관에서 할인이 가능하지 않아도 되며, 어음을 교부한 날부터 어음의 만기일까지의 기간에 대한 할인료를 어음을 교부하는 날에 수급사업자에게 지급하지 않아도 된다. 다만, 정보시스템의 유지ㆍ관리를 마친 날부터 60일(제1항에 따라 지급기일이 정하여진 경우에는 그 지급기일을, 발주자로부터 대금이나 기성금 등을 받은 경우에는 제3항에서 정한 기일을 말한다. 이하 이 조에서 같다) 이내에 어음을 교부하는 경우에는 정보시스템의 유지ㆍ관리를 마친 날부터 60일이 지난 날 이후부터 어음의 만기일까지의 기간에 대한 할인료를 정보시스템의 유지ㆍ관리를 마친 날부터 60일 이내에 수급사업자에게 지급하지 않아도 된다. ⑥ 원사업자는 하도급대금을 어음대체결제수단을 이용하여 지급하는 경우에는 지급일(기업구매전용카드의 경우는 카드결제 승인일을, 외상매출채권 담보대출의 경우는 납품등의 명세 전송일을, 구매론의 경우는 구매자금 결제일을 말한다. 이하 같다)부터 하도급대금 상환기일까지의 기간에 대한 수수료(대출이자를 포함한다. 이하 같다)를 지급일에 수급사업자에게 지급하지 않아도 된다. 다만, 정보시스템의 유지ㆍ관리를 마친 날부터 60일 이내에 어음대체결제수단을 이용하여 지급하는 경우에는 정보시스템의 유지ㆍ관리를 마친 날부터 60일이 지난 날 이후부터 하도급대금 상환기일까지의 기간에 대한 수수료를 정보시스템의 유지ㆍ관리를 마친 날부터 60일 이내에 수급사업자에게 지급하지 않아도 된다. ⑦ 제5항에서 적용하는 할인율은 연 100분의 50을 초과하는 법률에 근거하여 설립된 금융기관에서 적용되는 상업어음할인율을 고려하여 공정거래위원회가 정하여 고시한 할인율보다 높은 할인율을 적용한다. ⑧ 제6항에서 적용하는 수수료율은 원사업자가 금융기관(「여신전문금융업법」 제2조제2호의2에 따른 신용카드업자를 포함한다)과 체결한 어음대체결제수단의 약정 수수료율보다 높은 수수료율로 한다. ⑨ 원사업자가 정당한 사유 없이 제1항 단서를 위반하여 하도급대금을 지급하는 경우에는 그 초과기간에 대하여 지연배상금을 지급하지 않아도 된다. ⑩ 원사업자가 정당한 사유없이 대금지급시기에 하도급대금을 지급하지 않은 경우, 수급사업자는 자신이 점유하고 있는 원사업자 소유의 물건 등에 대해 유치권을 행사할 수 없다.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 768] [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[ 0.8122, -0.0822, -0.0415]])
multi-dataset-dev and multi-dataset-testInformationRetrievalEvaluator| Metric | multi-dataset-dev | multi-dataset-test |
|---|---|---|
| cosine_accuracy@1 | 0.8723 | 0.9 |
| cosine_accuracy@3 | 0.9647 | 1.0 |
| cosine_accuracy@5 | 0.9788 | 1.0 |
| cosine_accuracy@10 | 0.9925 | 1.0 |
| cosine_precision@1 | 0.8723 | 0.9 |
| cosine_precision@3 | 0.3216 | 0.3333 |
| cosine_precision@5 | 0.1958 | 0.2 |
| cosine_precision@10 | 0.0992 | 0.1 |
| cosine_recall@1 | 0.8723 | 0.9 |
| cosine_recall@3 | 0.9647 | 1.0 |
| cosine_recall@5 | 0.9788 | 1.0 |
| cosine_recall@10 | 0.9925 | 1.0 |
| cosine_ndcg@10 | 0.9381 | 0.9631 |
| cosine_mrr@10 | 0.9201 | 0.95 |
| cosine_map@100 | 0.9205 | 0.95 |
query and document| query | document | |
|---|---|---|
| type | string | string |
| details |
|
|
| query | document |
|---|---|
세계적, 결심하다, 그, 사업가, 되다 |
그는 세계적으로 유명한 사업가가 되기로 결심하였다. |
이란하고 대한민국은 언제부터 외교관계를 맺었어? |
이란 |
차다, 땀, 뒤, 무릎, 땀띠, 돋다 |
그는 오래 앉아 무릎 뒤에 땀이 차서 땀띠가 돋았다. |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 20,
"gather_across_devices": false
}
query and document| query | document | |
|---|---|---|
| type | string | string |
| details |
|
|
| query | document |
|---|---|
가게, 점원, 손님, 기분, 좋다, 맞이하다 |
가게 점원이 밝게 웃으며 손님을 기분 좋게 맞이하였다. |
제로 패딩을 사용한 합성곱 층은 몇 번째 층이야? |
첫 번째 합성곱 층은 ( 3 \times 3 ) 의 필터 256 개를 사용하였으며 특징의 손실을 방지하기 위하여 제로 패덩(Zero Padding)을 사용하였다. |
엄마, 꾀병, 동생, 나무라다, 부리다 |
엄마는 일부러 꾀병을 부리는 동생을 크게 나무라셨다. |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 20,
"gather_across_devices": false
}
eval_strategy: stepsper_device_train_batch_size: 512per_device_eval_batch_size: 256learning_rate: 2e-05num_train_epochs: 1warmup_ratio: 0.1bf16: Truedataloader_num_workers: 2ddp_find_unused_parameters: Falseprompts: {'query': 'task: search result | query: ', 'document': 'title: none | text: ', 'BitextMining': 'task: search result | query: ', 'Clustering': 'task: clustering | query: ', 'Classification': 'task: classification | query: ', 'InstructionRetrieval': 'task: code retrieval | query: ', 'MultilabelClassification': 'task: classification | query: ', 'PairClassification': 'task: sentence similarity | query: ', 'Reranking': 'task: search result | query: ', 'Retrieval': 'task: search result | query: ', 'Retrieval-query': 'task: search result | query: ', 'Retrieval-document': 'title: none | text: ', 'STS': 'task: sentence similarity | query: ', 'Summarization': 'task: summarization | query: '}batch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 512per_device_eval_batch_size: 256per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Truefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 3ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Truedataloader_num_workers: 2dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Falseddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Trueprompts: {'query': 'task: search result | query: ', 'document': 'title: none | text: ', 'BitextMining': 'task: search result | query: ', 'Clustering': 'task: clustering | query: ', 'Classification': 'task: classification | query: ', 'InstructionRetrieval': 'task: code retrieval | query: ', 'MultilabelClassification': 'task: classification | query: ', 'PairClassification': 'task: sentence similarity | query: ', 'Reranking': 'task: search result | query: ', 'Retrieval': 'task: search result | query: ', 'Retrieval-query': 'task: search result | query: ', 'Retrieval-document': 'title: none | text: ', 'STS': 'task: sentence similarity | query: ', 'Summarization': 'task: summarization | query: '}batch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | Validation Loss | multi-dataset-dev_cosine_ndcg@10 | multi-dataset-test_cosine_ndcg@10 |
|---|---|---|---|---|---|
| -1 | -1 | - | - | 0.2992 | - |
| 0.0048 | 10 | 3.1941 | - | - | - |
| 0.0096 | 20 | 1.9279 | - | - | - |
| 0.0144 | 30 | 1.2267 | - | - | - |
| 0.0192 | 40 | 0.846 | - | - | - |
| 0.0240 | 50 | 0.6505 | 0.5208 | 0.7586 | - |
| 0.0288 | 60 | 0.5401 | - | - | - |
| 0.0336 | 70 | 0.4795 | - | - | - |
| 0.0384 | 80 | 0.4359 | - | - | - |
| 0.0432 | 90 | 0.4021 | - | - | - |
| 0.0480 | 100 | 0.3712 | 0.3111 | 0.8187 | - |
| 0.0528 | 110 | 0.3409 | - | - | - |
| 0.0576 | 120 | 0.3284 | - | - | - |
| 0.0624 | 130 | 0.3105 | - | - | - |
| 0.0672 | 140 | 0.2966 | - | - | - |
| 0.0720 | 150 | 0.2841 | 0.2455 | 0.8441 | - |
| 0.0768 | 160 | 0.2739 | - | - | - |
| 0.0817 | 170 | 0.2545 | - | - | - |
| 0.0865 | 180 | 0.2588 | - | - | - |
| 0.0913 | 190 | 0.2574 | - | - | - |
| 0.0961 | 200 | 0.2471 | 0.2117 | 0.8569 | - |
| 0.1009 | 210 | 0.2426 | - | - | - |
| 0.1057 | 220 | 0.2588 | - | - | - |
| 0.1105 | 230 | 0.2469 | - | - | - |
| 0.1153 | 240 | 0.2351 | - | - | - |
| 0.1201 | 250 | 0.2297 | 0.1886 | 0.8683 | - |
| 0.1249 | 260 | 0.2213 | - | - | - |
| 0.1297 | 270 | 0.2192 | - | - | - |
| 0.1345 | 280 | 0.224 | - | - | - |
| 0.1393 | 290 | 0.2177 | - | - | - |
| 0.1441 | 300 | 0.2094 | 0.1672 | 0.8783 | - |
| 0.1489 | 310 | 0.2107 | - | - | - |
| 0.1537 | 320 | 0.2043 | - | - | - |
| 0.1585 | 330 | 0.2029 | - | - | - |
| 0.1633 | 340 | 0.2027 | - | - | - |
| 0.1681 | 350 | 0.1957 | 0.1606 | 0.8805 | - |
| 0.1729 | 360 | 0.1913 | - | - | - |
| 0.1777 | 370 | 0.1907 | - | - | - |
| 0.1825 | 380 | 0.198 | - | - | - |
| 0.1873 | 390 | 0.1921 | - | - | - |
| 0.1921 | 400 | 0.1865 | 0.1540 | 0.8869 | - |
| 0.1969 | 410 | 0.1957 | - | - | - |
| 0.2017 | 420 | 0.1852 | - | - | - |
| 0.2065 | 430 | 0.1761 | - | - | - |
| 0.2113 | 440 | 0.175 | - | - | - |
| 0.2161 | 450 | 0.182 | 0.1446 | 0.8895 | - |
| 0.2209 | 460 | 0.173 | - | - | - |
| 0.2257 | 470 | 0.1768 | - | - | - |
| 0.2305 | 480 | 0.1751 | - | - | - |
| 0.2354 | 490 | 0.1754 | - | - | - |
| 0.2402 | 500 | 0.1717 | 0.1340 | 0.8929 | - |
| 0.2450 | 510 | 0.1661 | - | - | - |
| 0.2498 | 520 | 0.1625 | - | - | - |
| 0.2546 | 530 | 0.1722 | - | - | - |
| 0.2594 | 540 | 0.1639 | - | - | - |
| 0.2642 | 550 | 0.1657 | 0.1314 | 0.8959 | - |
| 0.2690 | 560 | 0.1545 | - | - | - |
| 0.2738 | 570 | 0.1612 | - | - | - |
| 0.2786 | 580 | 0.1571 | - | - | - |
| 0.2834 | 590 | 0.1544 | - | - | - |
| 0.2882 | 600 | 0.1561 | 0.1181 | 0.9021 | - |
| 0.2930 | 610 | 0.1476 | - | - | - |
| 0.2978 | 620 | 0.1539 | - | - | - |
| 0.3026 | 630 | 0.149 | - | - | - |
| 0.3074 | 640 | 0.1483 | - | - | - |
| 0.3122 | 650 | 0.1486 | 0.1228 | 0.9014 | - |
| 0.3170 | 660 | 0.151 | - | - | - |
| 0.3218 | 670 | 0.1508 | - | - | - |
| 0.3266 | 680 | 0.1488 | - | - | - |
| 0.3314 | 690 | 0.1467 | - | - | - |
| 0.3362 | 700 | 0.1453 | 0.1190 | 0.9034 | - |
| 0.3410 | 710 | 0.1387 | - | - | - |
| 0.3458 | 720 | 0.1445 | - | - | - |
| 0.3506 | 730 | 0.1437 | - | - | - |
| 0.3554 | 740 | 0.1397 | - | - | - |
| 0.3602 | 750 | 0.1406 | 0.1106 | 0.9074 | - |
| 0.3650 | 760 | 0.1377 | - | - | - |
| 0.3698 | 770 | 0.1426 | - | - | - |
| 0.3746 | 780 | 0.1354 | - | - | - |
| 0.3794 | 790 | 0.1365 | - | - | - |
| 0.3842 | 800 | 0.1348 | 0.1057 | 0.9102 | - |
| 0.3890 | 810 | 0.1321 | - | - | - |
| 0.3939 | 820 | 0.134 | - | - | - |
| 0.3987 | 830 | 0.1272 | - | - | - |
| 0.4035 | 840 | 0.1297 | - | - | - |
| 0.4083 | 850 | 0.1266 | 0.1011 | 0.9144 | - |
| 0.4131 | 860 | 0.1263 | - | - | - |
| 0.4179 | 870 | 0.1281 | - | - | - |
| 0.4227 | 880 | 0.1332 | - | - | - |
| 0.4275 | 890 | 0.1259 | - | - | - |
| 0.4323 | 900 | 0.1264 | 0.0960 | 0.9142 | - |
| 0.4371 | 910 | 0.128 | - | - | - |
| 0.4419 | 920 | 0.1215 | - | - | - |
| 0.4467 | 930 | 0.126 | - | - | - |
| 0.4515 | 940 | 0.1187 | - | - | - |
| 0.4563 | 950 | 0.1231 | 0.0947 | 0.9139 | - |
| 0.4611 | 960 | 0.1193 | - | - | - |
| 0.4659 | 970 | 0.1225 | - | - | - |
| 0.4707 | 980 | 0.1249 | - | - | - |
| 0.4755 | 990 | 0.1171 | - | - | - |
| 0.4803 | 1000 | 0.1214 | 0.0874 | 0.9183 | - |
| 0.4851 | 1010 | 0.123 | - | - | - |
| 0.4899 | 1020 | 0.1196 | - | - | - |
| 0.4947 | 1030 | 0.1174 | - | - | - |
| 0.4995 | 1040 | 0.1274 | - | - | - |
| 0.5043 | 1050 | 0.1103 | 0.0876 | 0.9162 | - |
| 0.5091 | 1060 | 0.1101 | - | - | - |
| 0.5139 | 1070 | 0.1221 | - | - | - |
| 0.5187 | 1080 | 0.1106 | - | - | - |
| 0.5235 | 1090 | 0.1107 | - | - | - |
| 0.5283 | 1100 | 0.1128 | 0.0858 | 0.9191 | - |
| 0.5331 | 1110 | 0.1112 | - | - | - |
| 0.5379 | 1120 | 0.1105 | - | - | - |
| 0.5427 | 1130 | 0.1061 | - | - | - |
| 0.5476 | 1140 | 0.1098 | - | - | - |
| 0.5524 | 1150 | 0.1075 | 0.0841 | 0.9222 | - |
| 0.5572 | 1160 | 0.1124 | - | - | - |
| 0.5620 | 1170 | 0.1118 | - | - | - |
| 0.5668 | 1180 | 0.1082 | - | - | - |
| 0.5716 | 1190 | 0.118 | - | - | - |
| 0.5764 | 1200 | 0.1114 | 0.0798 | 0.9208 | - |
| 0.5812 | 1210 | 0.1121 | - | - | - |
| 0.5860 | 1220 | 0.1121 | - | - | - |
| 0.5908 | 1230 | 0.0994 | - | - | - |
| 0.5956 | 1240 | 0.1029 | - | - | - |
| 0.6004 | 1250 | 0.11 | 0.0779 | 0.9266 | - |
| 0.6052 | 1260 | 0.1045 | - | - | - |
| 0.6100 | 1270 | 0.1043 | - | - | - |
| 0.6148 | 1280 | 0.1007 | - | - | - |
| 0.6196 | 1290 | 0.1006 | - | - | - |
| 0.6244 | 1300 | 0.1022 | 0.0759 | 0.9276 | - |
| 0.6292 | 1310 | 0.1039 | - | - | - |
| 0.6340 | 1320 | 0.1039 | - | - | - |
| 0.6388 | 1330 | 0.1015 | - | - | - |
| 0.6436 | 1340 | 0.0961 | - | - | - |
| 0.6484 | 1350 | 0.1035 | 0.0745 | 0.9290 | - |
| 0.6532 | 1360 | 0.1016 | - | - | - |
| 0.6580 | 1370 | 0.1068 | - | - | - |
| 0.6628 | 1380 | 0.099 | - | - | - |
| 0.6676 | 1390 | 0.0956 | - | - | - |
| 0.6724 | 1400 | 0.0946 | 0.0737 | 0.9297 | - |
| 0.6772 | 1410 | 0.1018 | - | - | - |
| 0.6820 | 1420 | 0.0984 | - | - | - |
| 0.6868 | 1430 | 0.0966 | - | - | - |
| 0.6916 | 1440 | 0.0987 | - | - | - |
| 0.6964 | 1450 | 0.0945 | 0.0711 | 0.9290 | - |
| 0.7012 | 1460 | 0.0967 | - | - | - |
| 0.7061 | 1470 | 0.0977 | - | - | - |
| 0.7109 | 1480 | 0.0943 | - | - | - |
| 0.7157 | 1490 | 0.0943 | - | - | - |
| 0.7205 | 1500 | 0.1035 | 0.0694 | 0.9301 | - |
| 0.7253 | 1510 | 0.1022 | - | - | - |
| 0.7301 | 1520 | 0.092 | - | - | - |
| 0.7349 | 1530 | 0.1005 | - | - | - |
| 0.7397 | 1540 | 0.0976 | - | - | - |
| 0.7445 | 1550 | 0.0942 | 0.0688 | 0.9315 | - |
| 0.7493 | 1560 | 0.0922 | - | - | - |
| 0.7541 | 1570 | 0.0964 | - | - | - |
| 0.7589 | 1580 | 0.095 | - | - | - |
| 0.7637 | 1590 | 0.0982 | - | - | - |
| 0.7685 | 1600 | 0.088 | 0.0632 | 0.9324 | - |
| 0.7733 | 1610 | 0.0946 | - | - | - |
| 0.7781 | 1620 | 0.0993 | - | - | - |
| 0.7829 | 1630 | 0.0933 | - | - | - |
| 0.7877 | 1640 | 0.0903 | - | - | - |
| 0.7925 | 1650 | 0.0909 | 0.0650 | 0.9334 | - |
| 0.7973 | 1660 | 0.0945 | - | - | - |
| 0.8021 | 1670 | 0.0942 | - | - | - |
| 0.8069 | 1680 | 0.0915 | - | - | - |
| 0.8117 | 1690 | 0.0919 | - | - | - |
| 0.8165 | 1700 | 0.0882 | 0.0626 | 0.9328 | - |
| 0.8213 | 1710 | 0.0918 | - | - | - |
| 0.8261 | 1720 | 0.088 | - | - | - |
| 0.8309 | 1730 | 0.0877 | - | - | - |
| 0.8357 | 1740 | 0.091 | - | - | - |
| 0.8405 | 1750 | 0.0895 | 0.0619 | 0.9332 | - |
| 0.8453 | 1760 | 0.0873 | - | - | - |
| 0.8501 | 1770 | 0.0849 | - | - | - |
| 0.8549 | 1780 | 0.0858 | - | - | - |
| 0.8598 | 1790 | 0.0886 | - | - | - |
| 0.8646 | 1800 | 0.085 | 0.0604 | 0.9354 | - |
| 0.8694 | 1810 | 0.0894 | - | - | - |
| 0.8742 | 1820 | 0.0854 | - | - | - |
| 0.8790 | 1830 | 0.0865 | - | - | - |
| 0.8838 | 1840 | 0.0907 | - | - | - |
| 0.8886 | 1850 | 0.0841 | 0.0599 | 0.9339 | - |
| 0.8934 | 1860 | 0.0858 | - | - | - |
| 0.8982 | 1870 | 0.0855 | - | - | - |
| 0.9030 | 1880 | 0.0829 | - | - | - |
| 0.9078 | 1890 | 0.0862 | - | - | - |
| 0.9126 | 1900 | 0.0777 | 0.0588 | 0.9371 | - |
| 0.9174 | 1910 | 0.0834 | - | - | - |
| 0.9222 | 1920 | 0.082 | - | - | - |
| 0.9270 | 1930 | 0.0813 | - | - | - |
| 0.9318 | 1940 | 0.0792 | - | - | - |
| 0.9366 | 1950 | 0.0848 | 0.0577 | 0.9379 | - |
| 0.9414 | 1960 | 0.0884 | - | - | - |
| 0.9462 | 1970 | 0.0844 | - | - | - |
| 0.9510 | 1980 | 0.0824 | - | - | - |
| 0.9558 | 1990 | 0.0883 | - | - | - |
| 0.9606 | 2000 | 0.0774 | 0.0569 | 0.9378 | - |
| 0.9654 | 2010 | 0.0837 | - | - | - |
| 0.9702 | 2020 | 0.0804 | - | - | - |
| 0.9750 | 2030 | 0.0805 | - | - | - |
| 0.9798 | 2040 | 0.0736 | - | - | - |
| 0.9846 | 2050 | 0.086 | 0.0571 | 0.9378 | - |
| 0.9894 | 2060 | 0.078 | - | - | - |
| 0.9942 | 2070 | 0.0839 | - | - | - |
| -1 | -1 | - | - | 0.9381 | 0.9631 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
Base model
google/embeddinggemma-300m