Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 12
This is a sentence-transformers model finetuned from zbum/klue-roberta-base-klue-sts. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'RobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'혁신로펌 1위로 선정된 법무법인이 속한 나라는?',
'국내 최고 로펌인 김앤장 법률사무소가 아시아·태평양 지역의 대표적 ‘혁신로펌’으로 인정받았다.영국 경제지 파이낸셜타임스(FT)는 최근 아시아·태평양 지역 로펌 가운데 기업 금융 관련 ‘혁신로펌’(Asia·Pacific Innovative Lawyers 2014) 순위에서 김앤장을 7위로, 태평양을 11위로 선정했다고 발표했다. FT의 혁신로펌 순위는 그동안 유럽과 미국이 대상이었으며, 아시아·태평양 지역 로펌을 대상으로 선정한 것은 이번이 처음이다. 혁신로펌 1~6위는 호주 중국 인도 일본 싱가포르 로펌이 차지했으며, 한국 로펌 가운데는 김앤장이 최고 점수를 받았다.김앤장은 특히 MBK가 사모펀드로는 처음으로 보험회사(ING생명보험)를 인수할 수 있도록 한 과정과 한국주택금융공사가 미 달러화와 원화 등 2종의 통화로 채권(커버드본드)을 발행할 수 있도록 구조를 짜는 과정이 혁신적이고 탁월해 높은 점수를 받았다. 주택금융공사가 발행한 이 채권은 세계적 신용평가기관인 무디스로부터 Aa1등급을 받았다. 이는 대한민국의 국가신용등급 Aa3보다 두 단계 높은 것이다.',
'버러 마켓은 수요일과 목요일에 아침 10시부터 오후 5시까지, 토요일에 아침 8시부터 오후 5시까지 장이 열린다. 도매시장은 매주 평일 오전 2시부터 오전 8시까지 문을 연다.\n\n현재 버러 마켓은 런던 브리지 남단 서더크 대성당 바로 넘쪽의 서더크 가와 버러 하이 가에 위치해 있으나, 원래는 런던브리지 끝쪽에 바로 맞닿아 있었다. 버러 마켓이 처음으로 문헌상에 등장한 것은 1276년이나, 시장 자체는 1014년경 "혹은 그 옛날부터" 생겨났다는 주장도 있다. 그때 처음 생기고 나서 하이 가의 세인트마거릿 교회 남단 방향으로 시장의 위치가 조금씩 이동했다. 1550년 시티오브런던은 에드워드 4세 국왕으로부터 서더크 지역의 모든 시장을 운영하는 왕실 특허를 받았으며, 1671년 찰스 2세가 이를 다시 공식적으로 확인했다. 하지만 시장의 위치 특성상 교통 혼잡을 일으키기 일쑤여서 1754년 의회법에 따라 철거되었다. \n\n옛 버러 마켓을 철거하도록 한 의회법은 그대신 지역 주민들에게 새로운 자리에 다른 시장을 꾸리도록 허가했고, 1756년 로체스터 야드 지역 부지 (약 18,000m²)에 버러 마켓이 다시 장을 열기 시작했다 19세기에는 풀 오브 런던의 강 부두와 가깝다는 지리적 이점으로 런던을 대표하는 식료품 시장이 되었다',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.7025, -0.0572],
# [ 0.7025, 1.0000, -0.0011],
# [-0.0572, -0.0011, 1.0000]])
EmbeddingSimilarityEvaluator| Metric | Value |
|---|---|
| pearson_cosine | 0.8123 |
| spearman_cosine | 0.8208 |
sentence_0 and sentence_1| sentence_0 | sentence_1 | |
|---|---|---|
| type | string | string |
| details |
|
|
| sentence_0 | sentence_1 |
|---|---|
취득세 인상에 동의한 정당의 이름은? |
지난 8월28일 이후 기존 취득세율로 소유권 이전 등기를 마친 주택 소유자도 취득세 영구 인하 혜택을 받을 수 있을 전망이다. 3일 새누리당과 기획재정부, 안전행정부 등에 따르면 정부와 여당은 8·28 전·월세 안정화 대책을 위해 발표한 취득세 영구 인하 시점을 발표 당일부터 적용하기로 가닥을 잡은 것으로 알려졌다. 당정은 4일 오전 국회에서 이 같은 내용의 취득세 인하 대책(지방세법 개정안)에 합의한 뒤 야당인 민주당 측에 공식 통보할 계획이다. 민주당도 지방세수 보전 대책이 제대로 마련된다면 연내 소급 시행하는 것이 바람직하다는 입장이다.취득세 영구 인하 방안은 △6억원 이하 2%→1% △6억원 초과~9억원 이하 2%→2% △9억원 초과는 4%→3%로 각각 조정하는 데 초점이 맞춰져 있다. 부동산 경기 침체로 거래가 부진한 가운데 치솟는 전세 수요를 매매 수요로 돌림으로써 시장을 활성화하고 서민 주거난을 해소하자는 취지다. 8·28 대책 이후 거래된 전체 주택의 90% 이상이 6억원 이하 주택이라는 점을 감안하면 2%의 취득세율로 매매계약을 체결한 대부분의 거래가 1%의 취득세율을 소급 적용받을 수 있을 것으로 예상된다. 예를 들어 지난달 5억원짜리 아파트를 매입해 등기를 마친 사람은 종전 기준으로 매입액의 2%인 1000만원을 취득세로 납부했지만 세율이 2%에서 1%로 낮아지는 지방세법 소급 적용으로 500만원을 돌려받을 수 있게 된다. 정부 관계자는 “부동산 경기를 살리지 않고서는 최근 지표상으로 호전되고 있는 경기 회복세를 뒷받침하기 어렵다는 데 당정이 인식을 같이했다”며 “야당이 소급적용 방안을 받아들일 수 있도록 충분히 협의를 해나가겠다”고 말했다. |
사천 SPP조선의 올해 배 수주량은? |
“정말 조선 경기가 살아난 게 맞는가 봅니다. 가격을 깎으려는 발주는 아예 받아주지를 않으니까요.”(이봉철 SPP조선 전무)지난 4월 STX조선해양이 채권단관리를 신청할 때까지만 해도 중소형 조선사들의 회생은 쉽지 않아 보였다. 현대중공업 등 대형사들이 물량을 싹쓸이해갔기 때문이다. 그러나 최근 중국 중소형 조선사들의 구조조정 등으로 수주가 잇따르고 있다.○사천 SPP조선의 ‘틈새 성공’경남 사천 SPP조선에 들어서자 철판을 자르고, 용접하는 소리로 귀가 먹먹해졌다. 가로 300m, 세로 90m 크기의 도크에는 5만t급 중형과 10만t급 대형 석유화학제품운반(PC)선이 한 척씩 건조되고 있었다. 건조 시간을 단축하기 위해 주말에도 근무하고 있었다. 수주 물량이 쏟아져 납기를 최대한 앞당겨야 하기 때문이다. 이 조선소는 올 들어 지금까지 총 36척의 PC선을 수주해 2016년 상반기까지 일감을 확보했다. 지난해 전체 수주(27척)보다 많다. 황찬국 SPP조선 생산기획 부장은 “수주 예약까지 모두 차서 도크를 빨리 비워야 하는 상황”이라며 “도크에서 PC선을 조립해 바다로 내보내는 데까지 80일 걸리던 것을 60일로 단축했다”고 말했다.가격 할인을 해주며 수주하던 작년과는 정반대 현상까지 나타나고 있다. SPP조선 관계자는 “석 달 전까지만 해도 3400만달러 하던 중형 PC선 한 척을 이제는 3700만달러 이상 줘야 만들어줄 수 있다고 으름장을 놓고 있다”고 전했다. SPP조선은 컨테이너선 등 다양한 선박을 만들다가 2010년 채권단관리에 들어가면서 틈새시장인 PC선에 집중했다. ○통영 성동조선의 뚝심 결실경남 통영 성동조선해양에서는 완성을 앞둔 중형 컨테이너선이 먼저 눈에 들어왔다. 하지만 절단공장이 조용한 것을 비롯해 큰 활기를 찾아보기 힘들었다. 지난해 수주가 5척에 그쳐 일감이 없기 때문이다. 수주가 적었던 것은 시황 침체 속에 ‘저가 수주’를 하지 않았기 때문이다. 강양수 성동조선 영업팀 상무는 “도크를 놀리는 것은 큰 부담이었지만 저가 수주는 적자만 ... |
앨런 쿨먼이 듀폰에 오기 전 근무했던 회사 이름은 무엇인가? |
미국 최대 석유화학업체 듀폰의 첫 여성 최고경영자(CEO)인 엘런 쿨먼 회장(사진)이 전격 사퇴했다. 2008년 글로벌 금융위기의 고비를 넘기고, 행동주의 헤지펀드의 회사 분할 요구에 맞서 213년 역사의 듀폰을 지켜냈지만 실적 부진의 책임에서 벗어나지는 못했다.듀폰은 5일(현지시간) 쿨먼 회장이 회장 및 CEO직을 그만두기로 했다고 발표했다. 후임은 정해지지 않았으며 당분간 에드워드 브린 사외이사가 임시 CEO직을 맡는다고 회사 측은 설명했다.쿨먼 회장은 제너럴일렉트릭(GE)을 거쳐 1988년 듀폰에 입사했다. 입사 21년 만인 2009년 1월 글로벌 금융위기 여파로 회사가 어려움을 겪자 ‘구원투수’ 역할을 맡아 CEO가 됐다. 당시 전체 인력의 15%를 줄이는 등 대대적인 구조조정과 비용절감을 통해 회사를 정상화시키며 미국을 대표하는 여성 기업인으로 부상했다.지난 5월에는 기업사냥꾼 넬슨 펠츠가 이끄는 헤지펀드 트라이언파트너스가 12명의 등기임원 중 4명을 자신이 추천하는 인물로 교체할 것을 요구했지만 이를 거부한 채 정기 주주총회에서 위임장 대결까지 벌여 이를 물리쳤다. 당시 쿨먼 회장은 강력한 카리스마로 월가 뮤추얼펀드 등 장기투자자들의 지지를 이끌어내면서 듀폰을 벼랑 끝 위기에서 구해냈다는 평가를 받았다.월스트리트저널 등은 달러화 강세와 신흥국 경기 둔화로 인한 실적 부진을 쿨먼 회장의 사임 배경으로 꼽았다. 듀폰 주가는 올 들어 27% 급락했으며 시가총액도 446억달러 감소했다. 듀폰은 이날 쿨먼 회장의 사퇴와 함께 올해 주당순이익(EPS)을 3.10달러에서 2.70달러로 낮췄다. 또 내년 말까지 13억달러의 지출을 줄이는 비용절감 계획도 발표했다.쿨먼 회장은 이날 발표한 성명서에서 “지금은 새로운 지도자를 통해 변화 속도를 높이고 새로운 기회를 잡기 위한 투자를 확대할 적기”라고 강조했다고 포브스는 전했다. 듀폰 주가는 이날 쿨먼 회장의 사퇴 발표 후 시간외 거래에서 6% 급등했다. 뉴욕=이심기 특파원 |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
num_train_epochs: 1batch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 8per_device_eval_batch_size: 8per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robinrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | spearman_cosine |
|---|---|---|---|
| -1 | -1 | - | 0.8208 |
| 0.2279 | 500 | 0.1061 | - |
| 0.4558 | 1000 | 0.0844 | - |
| 0.6837 | 1500 | 0.0803 | - |
| 0.9116 | 2000 | 0.078 | - |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}