SentenceTransformer based on HJUNN/klue_roberta-base-klue-sts

This is a sentence-transformers model finetuned from HJUNN/klue_roberta-base-klue-sts. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: HJUNN/klue_roberta-base-klue-sts
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'RobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '국토부 관계자에 따를면, 마지막 리츠 상장이 있었던 해는?',
    '올해 영업인가를 받는 리츠(부동산투자회사)가 국내에 리츠가 도입된 2001년 이후 연간 최다일 것으로 전망됐다.22일 국토교통부에 따르면 올해 영업인가를 받은 리츠는 24개, 자산 규모로는 7조여원이다. 이로써 지금까지 설립된 리츠는 총 118개, 자산 규모는 16조4000억원으로 늘어났다.국토부는 올 들어 이미 인가가 난 24곳에다 ‘기업형 임대주택(뉴 스테이) 리츠’ 등 영업인가를 신청한 4곳(자산 약 1조원)과 신청 예정인 11~15곳(약 3조원 추정)을 더하면 올해 새로 세워질 리츠는 총 40여개(약 11조원 추정)에 달할 것으로 전망했다. 지금까지는 2011년 32개 리츠 신설이 가장 많았다.올해 영업인가를 받은 리츠(24개)를 투자 종류별로 보면 주택이 13개, 물류 7개, 업무빌딩 2개, 상업시설 2개 등이었다. 주택 중에선 공공임대주택과 뉴 스테이에 투자하는 리츠가 4개씩이다. 물류창고 등에 투자하는 물류 리츠가 2013년과 지난해 각각 1개에 불과했던 것과 비교하면 올해 급증하는 추세다. 국토부 관계자는 “현재 주식시장에 상장된 리츠가 4개에 불과하고 2011년 이후 신규 상장한 리츠는 전무하다”며 “공모·상장을 통해 대형 리츠를 육성할 계획이라고 말했다”고 말했다.',
    '상자 속 입자(particle in a box) 또는 무한 퍼텐셜 우물(infinite potential well)은 양자역학에서 다루는 가장 기본적인 문제 중의 하나로, 입자가 무한히 깊은 퍼텐셜 우물에 갇혀 있어 나가지 못하는 시스템을 말한다. 여기에서 입자가 벽과 충돌할 땐 에너지와 운동량이 모두 보존되는 완전 탄성 충돌이 일어난다고 가정한다. 고전역학적인 관점에서 이 문제를 보면 단순히 입자가 등속 직선 운동을 하고 벽에 부딪치면 튕겨 나오는 결과를 얻지만, 양자역학적으로 이 문제를 접근하면 수많은 다른 사실들이 나타난다.\n\n이 문제는 다른 양자역학에서 등장하는 문제들에 비해 비교적 매우 쉽게 풀리면서, 동시에 많은 양자역학적 기초 개념들이 어떻게 등장하는지 쉽게 보여줄 수 있기 때문에, 처음 양자역학을 배울 때 가장 먼저 소개되는 문제이기도 하다.\n\n만약 이 문제를 고전역학적 관점에서 뉴턴의 운동 법칙들을 사용해 풀면 직관적이고 예측 가능한 결과가 나온다. 하지만 양자역학적 관점에서 슈뢰딩거 방정식을 사용하면 에너지 상태가 양자화되어 있다는 것이나 우물 안의 각 지점에서 입자를 발견할 확률이 서로 다르다는 것 등 전혀 직관적이지 않은 결과가 나온다. 심지어는 입자가 발견될 확률이 0인 지점도 있다. 우리가 흔히 일상에서 경험하는 상황이나 고전역학의 관점에 전혀 부합하지 않는 결과가 나오는 것이다. 하지만 이런 결과들이 결국 사실임이 여러 실험을 통해 증명되었다.\n\n우리는 3차원 세계에 살고 있기 때문에 이 문제를 실제 상황에 적용하려면 3차원 상자 속 입자 문제를 푸는 것이 가장 좋다. 그러나 더 기본적인 관점에서부터 접근하기 위해 먼저 1차원 상자 속 입자 문제를 풀고, 그 다음 이를 다차원으로 일반화한다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000,  0.7355, -0.0996],
#         [ 0.7355,  1.0000, -0.0739],
#         [-0.0996, -0.0739,  1.0000]])

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.8153
spearman_cosine 0.8238

Training Details

Training Dataset

Unnamed Dataset

  • Size: 17,552 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 7 tokens
    • mean: 17.64 tokens
    • max: 35 tokens
    • min: 242 tokens
    • mean: 441.05 tokens
    • max: 512 tokens
  • Samples:
    sentence_0 sentence_1
    지주회사를 '일감 몰아주기 규제'에 휘말리게 한 거래방식은? 정부가 한동안 ‘바람직한 기업 지배구조’로 권장하던 지주회사가 ‘규제의 덫’에 걸렸다. 최근 잇달아 만들어진 경제민주화 관련 규제가 지주회사 체제를 갖춘 기업에 더 큰 피해를 주고 있어서다. 지주회사로 전환한 기업 사이에선 “지주사로 전환하라고 할 때는 언제고, 이제 와서 규제하느냐”는 불만이 커지고 있다. 21일 재계에 따르면 공정거래위원회가 내년 2월부터 시행하는 ‘일감 몰아주기 규제’ 대상 122개사 가운데 LG GS 두산 CJ 부영 코오롱 한진중공업 동부 대성 세아그룹 지주회사 12곳이 포함됐다. ‘일감 몰아주기 규제’는 총수 일가 지분이 30% 이상인 대기업 계열사 가운데 내부 거래 규모가 연간 매출의 12% 이상이면서 거래 규모가 200억원 이상인 곳이 대상이다. 총수 일가가 많은 지분을 보유한 특정 계열사에 일감을 몰아주는 관행을 막겠다는 게 규제 도입 취지다. 문제는 이 규제가 총수 일가의 보유 지분, 거래 비중만 따지다 보니 지주회사들까지 모두 규제 대상에 포함된다는 데 있다. 이와 관련, 정부는 순환출자의 문제점을 보완하기 위해 1997년부터 주요 그룹에 지주회사 전환을 권장했다. 지주회사로 전환하면 자회사 지분을 40%(비상장사는 20%) 이상 의무적으로 보유해야 한다. 또 지주회사는 사업을 직접 하는 경우가 아니면 자회사에서 상표권 수익이나 부동산 임대 수익을 받아 이익을 창출한다. 그런데 일감 몰아주기 규제는 이 같은 경우에도 예외 없이 적용된다. 예를 들어 LG그룹 지주회사인 (주)LG는 공정위의 일감 몰아주기 규정에 따르면 내부거래 비중이 56.6%로 규제 대상이다. 그런데 내부거래 가운데 자회사에서 받는 상표권 수익이 64%(2231억원), 부동산 임대 수익이 15.7%(546억원)다. 재계 관계자는 “지주회사 특성상 어쩔 수 없는 내부거래가 있는데, 그것까지 총수 일가의 사익을 추구하기 위한 일감 몰아주기로 보는 건 말이 안 된다”고 꼬집었다. 상법 개정안도 지주회사들이 더 큰 피해를 보는 구조다. 법무부는 지난 7월 자산 2조원...
    공개공지에서 판촉행위를 금지하는 근거로 영세상인들을 들은 지방은? 2009년 개정된 건축법 시행령은 일정 규모 이상의 건축물을 지을 때 의무적으로 만들어야 하는 공터인 공개공지에서 연간 최장 60일간 문화행사나 기업의 판촉활동을 허용토록 했다. 그러나 전주시 구미시 김해시 등 전국 66개 지방자치단체에서는 판촉활동이 여전히 ‘불가’하다. 시행령에서 이 내용을 지자체 조례에 담도록 했으나 이를 반영하지 않아서다. 박근혜 대통령이 ‘끝장 토론’까지 열면서 규제 개혁에 강력한 드라이브를 걸고 있지만 지방 규제는 여전한 것으로 나타났다. 23일 안전행정부와 지자체에 따르면 지자체나 지방의회가 법령에서 위임한 내용을 조례로 만들지 않아 규제로 작용하고 있는 대표적인 사례는 공개공지 내 기업 판촉활동 제한 등 16건에 달했다. ▶관련기사 A5면 풀뿌리 민주주의 확산 차원에서 법령 등에서 지방에 위임한 내용이 조례에 담기지 않거나 자의적인 해석으로 법 취지에 어긋나는 조례가 만들어지고 있는 것이다. 공개공지 내 기업 판촉활동 제한과 관련, 전주시는 “공개공지를 갖춘 대규모 건물이 대부분 백화점과 대형마트 등이어서 판촉활동을 허용하면 인근 소규모 영세상인들이 생계를 위협받을 수 있다”고 말하고 있지만 광주시 5개 구청이 모두 조례에 반영한 것에 비춰 설득력이 떨어진다는 지적이다.
    드라이버 각각의 선호도를 수용하기 위해 노력했다고 말한 사람의 이름은? 포르쉐AG(Dr. Ing. h.c. F. Porsche AG)는 오는 13일, 새롭게 창단한 포르쉐 E-스포츠 팀이 2017년형 911 RSR 차량 4대와 함께 디지털 르망 24시 내구 레이스를 시작한다고 밝혔다. 코로나19 확산 여파로 르망 24시 대회가 9월로 연기된 올해는 한스 헤르만(Hans Herrmann)과 리차드 앳우드(Richard Attwood)가 포르쉐 917K 차량으로 첫 종합 우승을 차지한 지 50년을 맞는다. 포르쉐는 이번 디지털 르망 24시 내구 레이스를 위해 실제 대회처럼 철저한 준비를 마쳤다. GTE 클래스에서 우승에 도전하는 포르쉐 팩토리 선수단은 포르쉐가 지명한 16명의 레이서를 포함해 총 30여 명으로 구성된다. 포르쉐 모터스포츠 E-스포츠 매니저 마르코 우지하시는 “모든 레이스 차량은 레이싱 엔지니어가 직접 관리하며, 팩토리 드라이버들과 시뮬레이션 레이서들 간의 밸러스를 찾는 것이 중요한 도전이 될 것”이라며, “r팩터2(rFactor2) 레이싱 플랫폼의 디지털 911 RSR을 통해 얻은 경험을 통해 보다 빠르게 적응할 수 있을 것”이라고 말했다. 실제로 많은 면에서 현실 세계와 매우 비슷한 정교한 계산 모델이 적용되기 때문에 ‘디지털 셋업 작업’이 매우 중요하다. 우지하시는 “캠버와 트랙 조정, 브레이크 밸런스, 에어로다이내믹은 퍼포먼스와 핸들링을 위한 비교적 간단한 매개 변수에 속하며, 스프링, 댐퍼 세팅, 안티 롤 바 및 트랙션 컨트롤부터 시뮬레이터 스티어링 휠과 페달 세트까지 광범위한 변수가 있다”고 설명했다. 그는 또한, “드라이버 각각의 선호도를 수용하기 위해 노력했으며, 가상세계에서 적용되는 부분과 그렇지 않은 부분을 특별히 예의주시하고 있다”고 강조했다. 또한, 실제 레이싱에서와 마찬가지로 드라이버가 차량에서 내리면 엔지니어와 함께 제동 및 회전 지점부터 제동 압력 및 가상 스로틀 밸브 위치, 최적의 기어 변속 타이밍 등 다양한 데이터를 분석해야 한다. 시뮬레이션 레이싱 플랫폼 r팩터2에서는 습하거나 건조한 노...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 1
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss spearman_cosine
-1 -1 - 0.8238
0.4558 500 0.1505 -
0.9116 1000 0.1151 -

Framework Versions

  • Python: 3.12.11
  • Sentence Transformers: 5.1.1
  • Transformers: 4.56.2
  • PyTorch: 2.8.0+cu126
  • Accelerate: 1.10.1
  • Datasets: 4.0.0
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
1
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for HJUNN/klue-roberta-small-cross-encoder

Base model

klue/roberta-base
Finetuned
(2)
this model

Papers for HJUNN/klue-roberta-small-cross-encoder

Evaluation results