SentenceTransformer based on shangrilar/klue-roberta-base-klue-sts

This is a sentence-transformers model finetuned from shangrilar/klue-roberta-base-klue-sts. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: shangrilar/klue-roberta-base-klue-sts
Maximum Sequence Length: 512 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'RobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '자베스의 초기 시집에 전혀 영향을 주지 않았던 것은 무엇인가?',
    '1912년 4월 16일 에드몽 자베스는 이집트 카이로에서 이탈리아계 유대인으로 태어나 명문가에서 고전적적인 방식으로 프랑스어 교육을 받으며 자랐다. 제2차 중동 전쟁이 발발하고 5년 뒤 1930년 처음으로 파리를 방문한다. 1935년, 프랑스 시인 막스 자코브를 만났으며, 이후 폴 엘뤼아르와 가까이 지내는 등, 공식적으로 초현실주의 그룹에 속하지는 않았으나 초현실주의 작가들에게 자신의 시적 역량을 인정받았다.\n그는 프랑스 문인 앙드레 지드, 앙리 미쇼, 필리프 수포 등과 교분을 맺었고, 1957년 나세르가 정권을 잡은 이집트를 떠나 프랑스로 이주한 뒤, 1967년 프랑스 국적을 취득하였다. 같은 해 몬트리올에서 열리는 세계 박람회에서 장 폴 사르트르, 알베르 카뮈, 클로드 레비스트로스와 함께 네 명의 프랑스 작가 중 하나로 선정되는 영예를 안았다. 프랑스에 정착한 후로 파울 첼란, 미셸 드세르토, 이브 본푸아, 에마뉘엘 레비나스 등 당대의 지성과 교류하였으며, 1972년에는 비평가상을, 1986년에는 레지옹 도뇌르 훈장을, 1987년에는 프랑스 시인상을 수상하였다.\n\n자베스의 초기 시집에서는 초현실주의의 영향을 매우 뚜렷히 볼 수 있다. 또한 프랑스에서 살며 독일어로 글을 쓴 유대인 작가 파울 첼란이 그러하였듯이, 자베스의 언어는 아우슈비츠 이후의 잔인한 현실에 대한 인식을 반영한다. 그는 블랑쇼와 비슷하면서도 다른 방법으로 문학의 한계, 언어의 한계에 도전했다. 이집트에서 태어난 유대인 자베스는 사막, 책, 이방인, 모래, 유대인, 공허, 우물 등을 존재나 언어의 은유로 즐겨 사용했다. 자베스의 사상은 유대인으로서의 경전 독해와 깊은 관련 하에 인간의 본질을 찾는 데 있다. 인간은 본질적으로 유배지의 백성으로, 그런 인간에게 거처는 주어지지 않았다는 것. 그리고 그런 의미에서 "인간은 모두 유대인이다"라고 자베스는 말한다. 자베스는 자크 데리다, 모리스 블랑쇼, 에마뉘엘 레비나스 등과 깊은 교우관계를 맺었으며, 레비나스는 "진정한 시인은 거처가 없다"며 자베스를 높이 평가하였다. 또 유대계 미국 작가인 폴 오스터는 "대부분이 기독교 신자인 이 세상에서 모든 시인은 유대인이다."라는 마리나 츠베타예바의 말을 전거로 들며, "이런 정신이 자베스 작품의 정중앙에 놓여 있는 핵이고 그로부터 모든 것이 흘러나온다. 자베스가 볼 때, 먼저 글쓰기 자체를 문제 삼지 않고서는 대학살에 관한 것은 아무것도 쓸 수가 없다. 언어를 극한까지 밀어붙이려면 작가는 자신을 의심의 유배지, 불확실성의 사막으로 추방시켜야 한다."고 말하기도 하였다.',
    '타스만 빙하는 미나렛트 피크의 남쪽 경사면에서, 그 정상이 빙하에서 불과 5 km 거리에 있는 쿡 산의 동쪽면을 따라 남쪽으로 흐르고 있다. 이 빙하는 머치슨 빙하의 녹은 얼음물이 도중에 부딪치지 않고, 이 녹은 얼음물은 모렌인의 외부에서 타스만 빙하 곁으로 흘러들기 위해 방향을 바꿀 때까지 동북에서 흘러 내리고 있다.\n\n두 빙하에서 흘러내린 물이 타스만 빙하의 끝 부분에 있는 타스만 호수에 쌓인 후 남쪽으로 흐르고, 가까운 후커 빙하와 뮬러 빙하에서 흘러나오는 물로 타스 강 넓은 골짜기에 합류해서 더 커진 흐름이 푸카키 호수로 남쪽으로 흐른다. 그 흐름은 결국 와이타키 강에 들어가 오마르의 북쪽에서 태평양으로 흘러간다.\n\n서던 알프스 산맥의 서쪽에서 동쪽으로 뮬러 빙하, 후커 빙하 그리고 타스만 빙하가 함께 있지만, 그들의 빙하는 1990년에서 2000년경 10년에 사이에 크게 후퇴했다. 종단이 확대된 호수 (빙하의 상류에 있는 모레인) 하얀 얼음의 후퇴, 얼음이 얇아 져서 모레인 벽 높이가 올라간 것에 주목한다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6576, 0.0189],
#         [0.6576, 1.0000, 0.0366],
#         [0.0189, 0.0366, 1.0000]])

Evaluation

Metrics

Semantic Similarity

Evaluated with EmbeddingSimilarityEvaluator

Metric	Value
pearson_cosine	0.8067
spearman_cosine	0.8159

Training Details

Training Dataset

Unnamed Dataset

Size: 17,552 training samples
Columns: sentence_0 and sentence_1
Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1
type string string
details
min: 8 tokens
mean: 17.61 tokens
max: 35 tokens

min: 255 tokens
mean: 435.56 tokens
max: 512 tokens

	sentence_0	sentence_1
type	string	string
details	min: 8 tokens mean: 17.61 tokens max: 35 tokens	min: 255 tokens mean: 435.56 tokens max: 512 tokens

Samples:

sentence_0	sentence_1
`피핀2세가 가장 먼저 되찾은 땅은?`	852년 9월 피핀 2세는 가스코뉴의 백작 산초 2세 산시온에게 갔다가 그에게 체포되어 동생 샤를과 함께 서프랑크의 대머리 카를 2세에게 넘겨졌다. 피핀2세는 수아송의 세인트 메다르(Saint Médard) 수도원에 감금되었다. 피핀 2세를 체포한 공로로 카를 2세는 가스코뉴의 백작 산초 2세 산시온을 공작으로 승격시켰다. 이때 독일인 루트비히와 대머리 카를 2세와 전쟁을 벌였고, 청년 루트비히를 보내 대머리 카를 2세와 교전하였다. 전쟁은 855년 청년 루트비히가 리모(Limoges) 지역 일대를 되찾을 때까지 계속되었다. 이때 독일인 루트비히는 자신의 아들 청년 루트비히를 아키텐으로 보내 피핀 2세와 샤를을 탈출시키게 했다. 청년 루트비히는 피핀 2세의 탈출 소식을 확인한 후에 바이에른으로 퇴각하였다. 854년 형제 샤를과 함께 세인트 메다르 수도원에서 탈출에 성공한 피핀 2세는 대머리 카를 2세에 맞서 싸울 바이킹 족 용병을 고용하였다. 피핀은 자신의 옛 영토에 바이킹 족의 정착을 주도했다. 대머리 카를 2세의 아들 유아왕 샤를은 군사를 이끌고 푸아티에 지역을 공격하였다. 855년 10월 라모에서 열린 아키텐의 귀족회의에서 유아왕 샤를을 아키텐 왕으로 선정하였다. 그러나 피핀 2세는 자신의 옛 영토인 루아르 계곡과 푸아티에, 앙굴렘, 페리, 리모, 클레르몽, 부르주 등을 차례로 회복하였고, 대머리 카를 2세는 피핀 2세를 진압하려고 힘썼다. 859년 피핀 2세는 로베르 강철공 및 브리튼의 주교 솔로몬 등과 동맹을 맺었다. 다시 카를과의 전투를 시작했으나 작은 승리를 몇번 거두었다. 이후 그는 바이킹 족에게 의탁하며 떠돌이 생활을 하였다. 864년 무렵 피핀 2세가 바이킹 족에 가입해서 바이킹이 된 것으로 기독교 사회에 확산되었으며, 기독교식 예배 대신, 바이킹 족의 하나로 살며 바이킹의 신을 숭배했다는 소문이 돌았다. 그는 툴루즈 지역을 공격할 때 바이킹 족에 합류되었다. 그러나 피핀은 툴루즈 지역을 공략하던 중, 카를 2세의 추격자에 의해 사로잡혔...
`기업에서 오픈프라이즈를 활용할 수 있는 분야는?`	소비자에게 무료로 제품을 나눠주는 경품추첨 서비스가 나왔다. 정보기술(IT) 벤처기업 ‘오션스피이플’은 무료 경품 추첨 ‘오픈프라이즈’ 서비스를 시작한다고 14일 발표했다. 소비자들은 스마트폰 애플리케이션(앱·응용프로그램)을 내려받아 관심있는 신제품이나 서비스에 응모해 직접 이용해볼 수 있다. 기업은 이를 통해 마케팅 효과를 거둘 수 있다.경품에 응모하려면 앱을 내려받아 회원 가입을 한 뒤 지급받은 포인트인 ‘큐브’를 사용하면 된다. 다양한 신상품과 서비스에 중복 응모할 수 있으며 큐브는 상품 후기를 달거나 설문에 답하는 등 앱 내에서 특정 활동을 하면 적립할 수 있다. 각 상품마다 응모가 마감되기 전까지 타이머가 작동하는 등 게임 요소도 가미했다.오션스피이플은 자사 상품을 알리려는 기업이 이 서비스를 마케팅 수단으로 사용할 수 있다고 설명했다. 신제품 출시 직후 짧은 기간 내에 다수의 소비자에게 제품을 노출할 수 있으며 현물 투자 방식이기 때문에 비용을 절감할 수 있다는 것이다. 한 가지 상품이나 서비스를 8주간 노출할 수 있다.김상훈 오션스피이플 대표는 “기존 소셜커머스는 과도한 할인 가격에 상품을 제공해 소비자 만족도가 떨어지고 판매자의 이미지도 동반 추락하는 단점이 있었다”며 “소비자에게 무료로 제품을 제공해 만족도를 끌어올리는 한편 기업은 신상품 출시 때 효율적인 마케팅 수단으로 이용할 수 있다”고 소개했다.
`15일날 서울반도체의 1주당 가격은 얼마인가?`	발광다이오드(LED) 전문기업 서울반도체(사장 이정훈·사진)가 주가 관리를 위해 자사주를 매입하기로 했다. 이 회사가 자사주를 매수해 주가관리에 나서기는 상장 후 처음이다.서울반도체는 15일 이사회를 열고 100억원어치 자사주를 매입하기로 결정했다. 이날 종가 1만9400원을 기준으로 하면 51만여주를 살 수 있다. 전체 발행 주식 수의 0.9% 정도다. 서울반도체 관계자는 “기업 가치에 비해 주가가 낮다고 판단해 자사주를 매입하기로 했다”고 설명했다. 지난해 4월 5만원에 육박했던 서울반도체 주가는 최근 2만원 밑으로 내려왔다. 2002년 코스닥시장에 상장한 서울반도체는 지금까지 한 번도 자사주를 매입하지 않았다. 2008년 글로벌 금융위기 때 주가가 폭락했어도 주가 부양을 위한 별도의 대책을 내놓지 않았다.그만큼 최근 상황을 심각하게 받아들인다는 얘기다. 서울반도체의 실적은 최근 급속히 나빠졌다. 지난해 6년 만에 처음 적자를 냈다. 하반기로 갈수록 악화돼 4분기 적자 규모만 300억원을 넘었다. 이정훈 서울반도체 사장은 지난 2월 기업설명회(IR) 자리에서 “중국 업체들의 저가 LED 공세로 세계 LED시장의 경쟁이 치열하지만 특허경쟁력을 바탕으로 올 1분기에는 손익분기점 수준을 맞출 것”이라고 했다. 하지만 증권가에서는 이 말을 있는 그대로 받아들이지 않고 있다. 상황이 나쁘기 때문이다.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 16
per_device_eval_batch_size: 16
num_train_epochs: 1
batch_sampler: no_duplicates
multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: no
prediction_loss_only: True
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1
num_train_epochs: 1
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.0
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: round_robin
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Epoch	Step	Training Loss	spearman_cosine
-1	-1	-	0.8159
0.4558	500	0.1604	-
0.9116	1000	0.1113	-

Framework Versions

Python: 3.11.13
Sentence Transformers: 5.1.0
Transformers: 4.55.1
PyTorch: 2.6.0+cu124
Accelerate: 1.10.0
Datasets: 4.0.0
Tokenizers: 0.21.4

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

Downloads last month: 19

Safetensors

Model size

0.1B params

Tensor type

F32

Model tree for yj512/klue-roberta-base-klue-sts-mrc

Base model

shangrilar/klue-roberta-base-klue-sts

Finetuned

(6)

this model

Papers for yj512/klue-roberta-base-klue-sts-mrc

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

Paper • 1908.10084 • Published Aug 27, 2019 • 12

Efficient Natural Language Response Suggestion for Smart Reply

Paper • 1705.00652 • Published May 1, 2017

Evaluation results

Pearson Cosine on Unknown
self-reported

0.807
Spearman Cosine on Unknown
self-reported

0.816