Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 13
This is a sentence-transformers model finetuned from kammbo/klue-roberta-base-klue-sts. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
"사이퍼즈' 부문의 우승 상금은?",
'㈜넥슨(대표 이정헌)은 11월 23일부터 인기 온라인게임 ‘던전앤파이터(이하 던파)’와 ‘사이퍼즈’의 공동 온라인 e스포츠 대회 ‘레벨업 X 던전앤파이터&사이퍼즈 : 언택트 토너먼트(이하 언택트 토너먼트)’ 시즌2를 개최한다. 올해 두 번째 시즌으로 진행되는 ‘언택트 토너먼트’는 현장 관람객 없이 LVUP.GG 트위치 채널 ‘사이퍼즈’ 공식 유튜브 채널을 통해 각각 생중계된다. 11월 23일부터 12월 2일 2주간 총 4회에 걸쳐 진행되며, 20시부터 ‘던파’와 ‘사이퍼즈’ 리그가 동시에 시작된다. 참가자 모집은 오는 11월 5일부터 16일까지이며, LVUP.GG 페이지에서 신청할 수 있다. 총 상금 1,950만 원 규모의 ‘던파’ 부문은 게임 내 3대3 PvP 방식의 ‘대장전’ 모드로 16강 토너먼트 경기가 진행된다. 우승팀에는 900만 원의 상금이, 준우승팀에는 600만 원의 상금이 주어진다. 총 상금 1,320만 원 규모로 진행되는 ‘사이퍼즈’ 부문은 6인 1팀 구성, 5대5 공성전 모드로 8강 토너먼트 경기가 펼쳐진다. 우승팀과 준우승팀에는 600만 원, 360만원의 상금을 각각 제공한다.',
'맥도날드는 이색 디저트 메뉴 ‘타로 파이’가 출시 후 100만 개 이상의 판매량을 돌파하며 큰 인기를 얻고 있다고 밝혔다. 맥도날드의 타로 파이는 부드럽고 달콤한 연보랏빛 크림과 타로 알갱이의 고소한 맛이 일품인 디저트 메뉴로, 해외 여행객들 사이에서 현지에서 반드시 먹어봐야 할 이색 메뉴로 입소문을 타며 국내 출시 요청이 쇄도했던 메뉴다. 지난 9월 국내에서 처음 출시된 이래 약 5주 만에 100만 개 이상 판매되는 등 큰 호응을 얻으며 인기 메뉴로 등극했다. 맥도날드는 더 오랜 기간 동안 타로 파이를 즐기고 싶다는 고객의 성원에 보답하고자 당초 11월 4일까지 한정 판매 예정이었던 타로 파이의 판매 기간을 12월 30일까지 연장하기로 했다. 특히 타로 파이는 따뜻하면서도 달콤한 타로 필링과 바삭바삭 부서지는 파이가 환상적인 조화를 이뤄 추워진 날씨에 한층 잘 어울리는 간식으로, 커피와 잘 어울린다는 고객들의 호평을 얻고 있다. 이에 맥도날드는 이 같은 고객의 목소리를 적극 반영해 오는 11월 12일부터 25일까지 모든 커피 메뉴 구매 시 타로 파이를 단 500원에 제공하는 특별 행사를 진행할 예정이다. 단, 맥딜리버리는 제외된다. 맥도날드 관계자는 “타로 파이에 대한 뜨거운 고객 성원에 보답하기 위해 올해 말까지 만나 보실 수 있도록 판매 기간을 연장했다”며 “쌀쌀한 날씨에 버거와 함께 간편하고 든든하게 드시기 좋은 따뜻한 타로 파이로 ‘천원의 행복’을 즐겨 보시기 바란다”고 밝혔다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
EmbeddingSimilarityEvaluator| Metric | Value |
|---|---|
| pearson_cosine | 0.8431 |
| spearman_cosine | 0.843 |
sentence_0 and sentence_1| sentence_0 | sentence_1 | |
|---|---|---|
| type | string | string |
| details |
|
|
| sentence_0 | sentence_1 |
|---|---|
대만 아수스에 탑재된 한컴 오피스의 프로그램명은? |
데스크톱PC 기반의 소프트웨어와 게임이 모바일로 옮겨가고 있다. 스마트폰 등 모바일 기기를 활용한 인터넷 이용이 크게 늘어나고 있어서다. 반면 모바일 애플리케이션(앱·응용프로그램)으로 좋은 반응을 얻은 서비스는 가입자 확대를 위해 PC로 사업을 확장하고 있다. 전문가들은 “스마트폰과 PC에서 동시에 서비스를 이용하고 싶어하는 사람이 늘면서 업체들이 영역을 가리지 않고 대응에 나서고 있는 것”이라며 “PC 강자는 모바일로, 모바일 강자는 PC로 경계를 허물고 사업을 확대하고 있다”고 설명했다.○곰플레이어 등 모바일 시장 침투PC에서 각종 동영상을 구동하는 ‘곰플레이어’로 유명한 그래텍은 최근 들어 모바일 사업을 대폭 강화하고 있다. 지난달 동영상 서비스인 ‘곰TV’의 모바일 버전을 선보인 데 이어 곰플레이어 앱도 안드로이드폰과 아이폰용으로 잇달아 출시했다. 회사 관계자는 “모바일 곰TV는 화면을 재구성하고 영화 방송 등 콘텐츠를 대폭 늘렸다”며 “PC와 모바일 앱이 부드럽게 연동되도록 해 이용자가 어느 플랫폼에서나 자유롭게 콘텐츠를 즐길 수 있도록 했다”고 말했다. 그래텍은 LG유플러스와 손잡고 클라우드 서비스도 선보였다. 모바일 곰플레이어 이용자들이 LG유플러스의 ‘U플러스 박스’에 미디어 파일을 올려놓고 언제든 내려받아 즐길 수 있도록 한 것이다. 또 PC와 모바일을 연동하는 ‘곰브릿지’ 서비스를 통해 미디어 파일을 손쉽게 관리할 수 있도록 했다. 토종 문서 프로그램 ‘아래아한글’로 유명한 한글과컴퓨터도 모바일 전략을 강화하고 있다. 올초에는 안드로이드 태블릿PC용으로 개발한 ‘한컴 오피스’를 삼성전자 모바일 기기(갤럭시탭 프로, 갤럭시노트 프로 등)에 기본으로 탑재해 해외 시장 공략에도 적극 나서고 있다. 한컴은 또 별도의 오피스 소프트웨어를 내려받지 않아도 웹브라우저나 클라우드 서버에서 바로 사용할 수 있는 ‘씽크프리’ 프로그램으로 좋은 반응을 얻고 있다. 이 제품은 삼성전자 LG전자 팬택 등 국내 업체는 물론 일본 도시바, 대만 아수스 등의 모바일 기기... |
모든 신규 이용자들이 혜택을 받아볼 수 있는 날은? |
쏘카(대표 박재욱)가 네이버파이낸셜(대표 최인혁)과 제휴, 쏘카 이용 시 ‘네이버페이’로도 결제할 수 있도록 했다. 네이버페이는 3천만명 이상이 사용하는 국내 대표 간편결제 서비스로, 네이버 ID만 있으면 공인인증서, 보안카드 등 복잡하고 번거로운 인증 절차를 거치지 않아도 안전한 환경에서 쉽고 간단하게 결제할 수 있다. 쏘카는 네이버페이 도입을 기념해 최대 9천원을 네이버페이 포인트로 돌려주는 페이백 이벤트를 진행한다. 우선, 쏘카는 내달 12일까지 네이버페이로 1만원 이상 첫 결제를 진행하는 선착순 2만명에게 네이버페이 포인트 3천원을 지급한다. 같은 기간 네이버페이로 누적 결제 금액 6만원을 달성하는 1만명에게는 네이버페이 포인트 6천원을 추가 지급한다. 단, 3천원 페이백 이벤트에 해당하는 최초 결제 금액은 누적 금액 합산에서 제외된다. 포인트는 내달 27일 일괄 지급하며, 적립된 포인트는 다양한 사용처에서 현금과 동일하게 사용할 수 있다. 박유석 쏘카 사업제휴총괄은 “이용자들의 편의성과 접근성 향상을 위해 간편결제 서비스를 도입하게 됐다”며 “앞으로도 이용자들이 보다 쉽고 편리하게 쏘카를 이용할 수 있는 환경을 구축하기 위해 여러 파트너사와 협력을 이어 나갈 것”이라고 말했다. |
서울 아파트의 3.3m² 당 가격은 얼마인가? |
수직증축 리모델링이 활성화되기 위해서는 풀어야 할 문제도 적지 않다는 게 전문가들의 지적이다. 대표적인 게 주택 가격 회복과 공사비 절감이다. 리모델링을 통해 늘어나는 아파트를 분양해 사업 비용을 줄여야 하는데 집값이 오르지 않으면 부담이 커질 수밖에 없어서다. 한국건설산업연구원에 따르면 수직증축 리모델링 이후 3.3㎡당 아파트값이 이전보다 400만원 이상 올라야 사업 추진이 가능할 것으로 조사됐다. 3.3㎡당 시세가 1600만원인 아파트의 수직증축 리모델링 사업성을 분석한 결과 리모델링 후 3.3㎡당 2000만원까지는 올라야 공사비를 제외하고 이익을 낼 수 있다는 것이다. 실제 일반분양을 통해 공사비를 줄이려면 기존 아파트값이 3.3㎡당 1600만원 이상은 돼야 사업성이 있을 것으로 건설업계는 추산하고 있다. 집값이 비싼 서울과 분당 등 수도권 일부 신도시를 제외하고는 당장 리모델링 추진이 쉽지 않다.기존 주민들이 거주하면서 리모델링 공사를 진행하는 ‘비이주 공사방식’ 등 다양한 신기술과 사업관리 방식의 개발이 시급하다는 지적도 많다. 현재와 같이 골조만 남기는 방식의 리모델링을 추진한다면 일반분양을 통한 비용 절감을 감안해도 가구당 부담금은 1억원을 웃돈다.가구 수 증가에 따른 도로와 주차장 부족 문제도 해결해야 할 숙제다. 정부도 이 같은 주거 여건 악화를 우려해 대도시의 경우 지방자치단체가 리모델링 기본계획을 수립하도록 했다. 그러나 이 과정에서 일조권과 용적률 등 사업비와 밀접한 규제들이 강화될 가능성이 높다. 리모델링업계 관계자는 “일조권과 용적률 기준 등이 정해져 있어 법률이 정한 15%까지 늘어난 일반분양 혜택을 전부 누릴 수 있는 단지는 많지 않을 것”이라고 지적했다. 이 때문에 전문가들은 재테크 차원의 투자적 개념보다는 노후한 주택을 정비해 사용 가치를 높이는 방식으로 접근해야 한다고 입을 모은다. 윤영선 건설산업연구원 연구위원은 “필요한 부분만 고치고 확대하는 맞춤형과 부분 증축형 또는 대수선형 방식의 리모델링을 추진할 필요가 있다”고 설명... |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
per_device_train_batch_size: 16per_device_eval_batch_size: 16num_train_epochs: 1batch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 16per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robin| Epoch | Step | Training Loss | spearman_cosine |
|---|---|---|---|
| -1 | -1 | - | 0.8430 |
| 0.4558 | 500 | 0.1565 | - |
| 0.9116 | 1000 | 0.118 | - |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}