Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 13
This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("naucica77/bge-m3-finetuned-ict")
# Run inference
sentences = [
'미국 정부가 2023년에 발표한 새로운 국가 사이버 보안 전략에서 강조한 주요 목표와 핵심 요소에는 어떤 것들이 있는가?',
'25 Ⅱ. ICT 이슈 Top10 \n ⑧미국, 사이버보안 강화에 박차 \n 미국 정부 기관, 해킹 피해 대응 강화\n• 미국의 여러 기업과 정부기관이 MOVEIt 파일 공유 소프트웨어의 취약점을 이용한 사이버 \n공격을 당함. 도난당한 데이터의 민감도에 대한 구체적인 정보는 아직 명확하지 않으나 , 이 \n사건은 최근 몇 년간 발생한 연방기관의 세 번째 주요 침해 사례임\n• 이러한 사건들은 정부기관 내에서 사이버 보안 프로토콜의 긴급한 재평가를 촉발하며 , 정교한 \n사이버 적대자로부터 민감한 정보를 보호하기 위한 강력한 사이버 보안 조치의 필요성을 강조함 . \n사이버 보안 및 인프라 보안국 (CISA) 은 이러한 해킹의 범위를 적극적으로 조사하며 , 연방기관이 \n받는 영향을 파악하고 적시에 조치를 취할 수 있도록 지원함\n 미국, 새로운 국가 사이버 보안 전략 발표\n• 백악관은 2023년 3월, 증가하는 사이버 위협에 대한 국가 방어를 강화하기 위해 새로운 국가 \n사이버 보안 전략을 공개함 . 이 전략은 병원, 에너지 시설 등 핵심 인프라를 보호하고 , 디지털 \n생태계 위협에 대응하기 위해 UN과의 협력을 강화함 . 조 바이든 (Joe Biden) 미국 대통령은 \n일상과 국가 안보를 뒷받침하는 디지털 인프라에 대한 신뢰의 중요성을 강조하며 , 공격보다 \n방어가 용이한 탄력적인 디지털 생태계를 구축하는 전략의 목표를 강조함\n• 이 전략은 사이버 위협 해결을 위한 5개의 핵심을 제시함 . 여기에는 핵심 기반 시설 방어, 위협 \n행위자 교란, 보안 및 회복력을 촉진하기 위한 시장 세력 형성, 회복력 있는 미래에 대한 투자, \n국제 파트너십 구축이 포함됨 . 책임 소재를 대규모 조직으로 재조정하고 강력한 협업과 보안 \n기술, 인력 개발에 대한 장기 투자로 국가 사이버보안을 강화하려는 행정부의 의지를 내포함\n 빅테크 기업, 클라우드 보안 강화 조치\n• 최근 미국 정부 관리들의 이메일이 해킹된 사건에 대응하여 , 아마존 , 구글, 마이크로소프트 등 \n주요 클라우드 서비스 제공업체들은 투명성을 높이고 보안 조치를 강화하라는 압박을 받음. \n특히 마이크로소프트는 중국 정부와 연계된 스파이 작전으로 인해, 마이크로소프트 네트워크의 \n취약점을 악용하여 민감한 이메일 계정에 접근한 사건으로 인해 정밀 조사를 받음. 이 사건은 \n보안 프로토콜의 재평가와 유사한 침해를 방지하기 위해 보다 엄격한 조치의 도입을 촉발함\n• 이에 미국 사이버 보안 및 인프라 보안국 (CISA) 은 사이버 보안 문제를 해결하기 위한 민관 \n협업의 중요성을 강조하며 , 이 사건을 조사 중임. 더 큰 투명성과 강화된 보안 관행으로의 \n이동은 클라우드 제공업체가 사이버 위협에 대한 방어에서 사이버 보안의 공유 책임 모델로의 \n광범위한 전환을 반영함',
'8 Ⅰ. ICT 국가 산업 현황\n 2.ICT 정부기구\n ③ 국가과학기술위원회 (NSTC) \n 미국 국가과학기술위원회 (NSTC)\n• 국가과학기술위원회 (National Science and Technology Council) 는 1993년 설립되었으며 \n백악관 산하의 자문기구로 역할을 담당하고 있음\n• 국가과학기술위원회의 기능은 ① 과학기술정책 결정과정의 조정 ② 과학기술정책결정 프로그램의 \n목표 지원 ③ 연방정부 전반에 대한 과학기술정책 의제 통합에 기여 ④ 과학기술 분야의 연방 \n정책 및 프로그램 개발 구현 ⑤ 과학기술분야의 국제협력 강화가 포함됨\n• 국가과학기술 위원회는 최근 ‘외국 인재 채용 프로그램 ’과 ‘STEM 교육을 통한 컴퓨팅 능력 \n구축’ 관련 가이드라인을 발간했으며 , ‘연방 사이버보안 연구 및 개발 전략 계획’을 발행함\n[표 4] 미국 국가과학기술위원회 (NSTC)\n구분 내용\n주요 인사아라티 프라바카르\n(Arati Prabhakar)\n백악관 과학기술정책실 (OSTP) 국장\n주요 소식‘외국 인재 채용 프로그램 ’ 지침 발행 ‣ 반도체 및 과학법에 의거해 발행\n‣ 프로그램에 대한 정의, 금지 사항 등 정리\n‘연방 사이버보안 \n연구 및 개발 전략 계획’ 발행‣ 사이버보안 관련 연구 자금 지원과 개발 \n우선순위에 대한 업데이트 지침 제공\n‣ NCS 관련 중요 목표 및 속성 식별\n‘STEM 교육을 통한 컴퓨팅 능력 구축’ \n가이드 발행‣ STEM 교육으로 컴퓨터 활용 능력을 \n육성한 모범 사례를 식별·장려\n주요\n산하 조직\n출처 : 국가과학기술위원회',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
sentence_0 and sentence_1| sentence_0 | sentence_1 | |
|---|---|---|
| type | string | string |
| details |
|
|
| sentence_0 | sentence_1 |
|---|---|
미국 의료진이 AI 기술 도입에 대해 긍정적으로 평가하는 주된 이유는 무엇인가? |
22 Ⅱ. ICT 이슈 Top10 |
구글의 인공지능 챗봇이 바드(Bard)에서 제미나이(Gemini)로 리브랜딩되면서 추가된 주요 기능과 기술적 발전은 무엇인가? |
18 Ⅱ. ICT 이슈 Top10 |
한-미 FTA가 최초로 발효된 연도와 이후 개정 의정서가 발효된 연도를 각각 쓰시오. |
15 Ⅰ. ICT 국가 산업 현황 |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
per_device_train_batch_size: 6per_device_eval_batch_size: 6num_train_epochs: 2multi_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 6per_device_eval_batch_size: 6per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 2max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthproject: huggingfacetrackio_space_id: trackioddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: noneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Trueprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robin@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
BAAI/bge-m3