How to use from the
Use from the
sentence-transformers library
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("micky1625/finetuned")

sentences = [
    "성인은 왜 욕심이 없는 것으로 설명되는가?",
    "정하\n여 자신의 욕심에 미칠 겨를이 없는 사람은 반드시 배우기를 싫어하지 않고 가르치기를 게을리 하\n지 않으니 배우기를 싫어하지 않고 가르치기를 게을리 하지 않으므로 성인은 욕심이 없는 것이다. \n자신에게 터럭만큼이라도 욕심이 있은 즉 요순의 마음이 아니오, 잠시라도 천하를 걱정하지 않은 \n즉 공맹의 마음이 아니다. \n 태양인은 슬픈 성품이 멀리 흩어지지만 화내는 성품은 지극히 급하니 슬픈 성질이 멀리 흩어지면 \n기가 폐로 들어가서 폐가 더욱 성해지고, 화내는 성질이 지극히 급하면 기가 간을 격동시켜 간은 \n더욱 깎이니 태양인의 장부가 폐가 크고 간이 작은 것으로 형성되는 까닭이다. 소양인은 화내는 성\n품이 크게 화를 내지만 슬픈 성품이 매우 급하니 화내는 성품이 크게 화를 내면 기가 비로 들어가\n서 비가 더욱 성해지고, 슬픈 성품이 매우 급하면 기가 신을 격동시켜서 신은 더욱 깎이니 소양인\n의 장부가 비가 크고 신이 작은 것으로 형성되는 까닭이다. 음인은 기쁜 성품이 넓고 크지만 즐거\n운 성품이 지극히 급하니 기쁜 성품이 많아지면 기가 간으로 가서 간이 더욱 성해지고, 즐기는 성\n품이 지극히 급하면 기가 폐를 격동시켜 폐는 더욱 깎일 것이니 태음인의 장부가 간이 크고 폐가 \n작은 것으로 형성되는 까닭이다. 소음인은 즐기는 성품이 매우 확실하고 기쁜 성품이 매우 급하니 \n즐기는 성품이 깊이 확실하면 기가 신으로 가서 신이 더욱 성해지",
    "민을 나실 때 지혜로운 깨달음으로 성(性)을 주니 만인이 태어남에 지혜로운 깨달음이 \n있으면 살고 없으면 죽는다. 지혜로운 깨달음이란 덕이 생겨나게 하는 바이다. \n 하늘의 만민을 나실 때 자업으로 명(命)을 주니 만인이 태어남에 자업이 있으면 살고 없으면 죽는\n다. 자업이란 도가 생겨나게 하는 바이다. \n 어질고, 의롭고, 예의있고, 지혜있고, 충성스럽고, 효도하고, 우애있고 공경하는 모든 선행은 다 혜\n각에서 나오고, 선비, 농사, 공업, 상업, 밭갈기, 주택, 국토, 나라의 모든 용은 다 자업에서 나온다. \n 혜각은 남을 겸하고자 해야 가르침이 있고, 자업은 내가 청렴하고자 해야 공이 있으니 혜각이 사\n소한 자로 비록 호걸이 있더라도 조조처럼 교활하면 가르칠 수가 없다. 자업을 마음대로 휘두른 자\n는 비록 영웅이 있으나 진시황처럼 사나우면 공을 세울 수 없다. \n 남의 선을 좋아하고 나도 선을 아는 것은 지극한 성의 덕이오, 남의 악을 싫어하고 나도 반드시 악\n을 행하지 않는 것은 바른 명의 도이다. 지행이 쌓인 즉 도덕이오, 도덕이 이루어진 즉 인(仁), 성(\n聖)이니 도덕은 다른 것이 아니라 지행이오, 성명이 다른 것이 아니라 지행이다.\n 어느 사람이 묻기를 “지를 가지고 성을 논하는 것은 가능하지만 행을 가지고 명을 논하는 것은 무\n슨 뜻인가?” 라고 하니 이르기를 “명은 명수니 선행을 하면 명수는 저절로 아름답고, 악행을",
    "이미지황탕을 쓸 것이다.\n 부종은 그 증세를 급히 치료하면 살고 급히 치료하지 않으면 위태하다. 약을 빨리 쓰면 쉽게 낫고 \n약을 빨리 쓰지 않으면 맹랑하게 죽는다. 이 병은 겉으로 보기에는 아무렇지도 않아서 속히 죽을 \n것 같지 않다. 때문에 사람들은 별로 대수롭지 않게 여긴다. 그러나 이 병은 실제로는 급한 증세인 \n것이다. 4,5일 이내에 반드시 다스려야 할 병이요 늦어도 열흘을 넘겨서는 안 된다.\n 부종이 처음 생겼을 때에 마땅히 목통대안탕(木通大安湯)이나 혹 형방지황탕(荊防地黃湯)에 목통\n을 가미해서 하루에 두 첩씩 쓰면 6,7일 이내에 부종이 반드시 풀릴 것이다. 부종이 풀린 뒤에 백일\n이내는 반드시 형방지황탕에 목통(木通) 2,3돈쭝을 가입해서 날마다 1,2첩씩 써야 한다. 이리하여 \n소변을 맑게 하여 재발을 막아야 할 것이니 재발되면 고치기 어렵다.\n 부종이 처음 풀렸을 때에 음식은 더욱 배고픈 것을 참고 조금씩 먹어야 한다. 만일 보통 사람과 같\n이 많이 먹으면 반드시 재발하는 것을 면치 못할 것이다. 이 병은 오줌이 붉은 것이 제일 두려운 것\n이다. 오줌이 맑으면 부종이 풀리고 오줌이 붉으민 더 맺혀진다.\n 소양인의 중소증에 배가 부으면 반드시 고창(鼓脹)이 된다. 고창은 고치지 못하는 병이다. 소양인\n의 고창병은 소음인의 장결병(臟結病)과 같아서 모두 5,6개월이나 7,8개월 혹은 1년 만이면 죽고 만\n다. 대개 "
]
embeddings = model.encode(sentences)

similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]

SentenceTransformer based on upskyy/e5-small-korean

This is a sentence-transformers model finetuned from upskyy/e5-small-korean. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: upskyy/e5-small-korean
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 384 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("micky1625/finetuned")
# Run inference
sentences = [
    '왜 수은을 쓰는 사람은 소금이나 간장을 먹지 말라고 하는지 이유는 무엇인가요?',
    ' 첫날 2대 다음날 1\n대를 피웠다. 그런데 그날 밤에 더운 방에서 찬바람을 쐬고서 갑자기 죽었다. 세속의 말에 의하면 \n수은을 쓰는 사람은 소금이나 간장을 먹지 말라고 한다. 그것은 간장 속에는 콩이 들어 있어서 수\n은의 독기를 풀어 버리기 때문이다. 그러나 독한 약은 약간의 독을 풀어 주는 것도 무방하기 때문\n에 구태여 소금과 간장을 금할 필요는 없다.\n東醫壽世保元 卷之四\n 太陰人 胃脘受寒表寒病論\n장중경이 말하기를 태양병 상한에 머리가 아프고 열이 오르며, 온몸과 허리가 아프고 골절이 쑤시\n며 오한이 나고 땀이 없어 숨이 찬 데에는 마황탕을 주로 써야 한다. 주에 말하기를 상한에 두통이 \n나고 온몸이 아프며 허리가 아프고 골절이 모두 쑤시기에 이르는 것은 태양병 상한에 영혈이 고르\n지 못하기 문이다. \n 내가 말하기를 이는 곧 태음인이 한기에 배추 표병이니 가벼운 증세이다. 이와 같은 증세에 마황\n탕을 쓸 수 없는 것은 아니나 계지와 감초는 필요치 않은 약이니 마땅히 마황발표탕을 쓸 것이다. \n 장중경이 말하기를 상한이 된지 4,5 일에 궐이 되는 자는 반드시 열이 오른다. 궐이 심한 자는 열\n도 심하고 궐이 경미한 자는 열도 또한 경미하다. 상한에 궐이 된 지 4일만에 다시 열이 오르고 3일\n만에 다시 궐이 되어 5일에 궐이 많고 열이 적으면 이는 그 병이 진행하고 있는 것이며 상한에 열\n이 있은 지 4일에 다시 궐로 돌아오고,',
    '성이 지극하면 로정이 움직이고, 로성이 지극하면 애정\n이 움직이며, 락성이 지극하면 희정이 움직이고, 희성이 지극하면 락정이 움직인다. 태양인이 애성\n이 지극하여 그치지 못하면 분노가 밖으로 나오고, 소양인이 로성이 지극하여 이기지 못하면 비애\n가 가슴속으로 움직이고, 소음인이 락성이 지극하여 이루지 못하면 기쁘고 좋아하는 것이 정할 수 \n없고, 태음인이 희성이 지극하여 가라앉지 않으면 치락이 끝이 없을 것이다. 이와 같이 움직이는 것\n은 칼날로 장부를 자르는 것과 다름이 없다. 한번 크게 움직이면 10년이 지나도 회복하기 어려우니\n이는 죽과 사는 것과 수(壽), 요(夭)의 기관이니 몰라서는 안되는 것이다. \n 태소음양의 장부의 짧고 김은 음양의 변화니 천품이 이미 결정된 것은 두말할 나위도 없거니와 천\n품이 이미 정해진 것 이외에 또한 짧고 김이 있으니 천품이 완전하지 못한 자는 사람일의 닦음과 \n닦지 않음에 운명이 좌우되니 삼가지 않으면 안된다.\n 태양인의 로는 한사람의 로로써 천만인을 노하게 하니 그 로가 천만인을 다룰 방법이 없다면 반드\n시 천만인을 감당하기 어려울 것이다. 소음인의 희는 한사람의 희로써 천만인을 희하게 하니 그 희\n가 천만인을 다룰 방법이 없다면 반드시 천만인을 감당하기 어려울 것이다. 소양인의 애는 한 사람\n의 애로써 천만인을 애하게 하니 그 애가 천만인을 다룰 방법이 없다면 반드시 천만인을 감당하기 \n어려',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.5625
cosine_accuracy@3 0.7812
cosine_accuracy@5 0.8438
cosine_accuracy@10 0.9062
cosine_precision@1 0.5625
cosine_precision@3 0.2604
cosine_precision@5 0.1688
cosine_precision@10 0.0906
cosine_recall@1 0.5625
cosine_recall@3 0.7812
cosine_recall@5 0.8438
cosine_recall@10 0.9062
cosine_ndcg@10 0.7476
cosine_mrr@10 0.6958
cosine_map@100 0.7024

Training Details

Training Dataset

Unnamed Dataset

  • Size: 124 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 124 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 12 tokens
    • mean: 29.15 tokens
    • max: 75 tokens
    • min: 372 tokens
    • mean: 417.98 tokens
    • max: 463 tokens
  • Samples:
    sentence_0 sentence_1
    태음인의 성품과 기질에 대한 내용을 바탕으로, 왜 소양인은 항상 일을 하려고 하지만 그만두려 하지 않는 것일까요? 지만 거처는 애로써 다스릴 수 없
    다. 만약 애를 거처에게 옮기면 거처에게 도움이 없을 뿐아니라 신을 상하게 된다. 태음인의 가히
    거처는 락으로써 다스릴 수 있지만 사무는 다스릴 수 없다. 만약 락을 사무에게 옮기면 사무에게
    도움이 없을 뿐아니라 폐를 상하게 된다.
    태양인의 성품과 기질은 항상 전진하려고 하지만 후퇴하려 하지 않는다. 소양인의 성품과 기질은
    항상 일을 하려고 하지만 그만두려 하지 않는다. 태음인의 성품과 기질은 항상 고요하려 하지만 움
    직이려 하지 않는다. 소음인의 성품과 기질은 항상 멈추려고 하지만 나가려고 하지 않는다.
    태양인의 전진함은 양이 가히 전진할 수 있으나 스스로 재주를 돌이켜서 장엄하지 않으면 전진할
    수 없다. 소양인의 일을 하려고 함은 양이 가히 일을 하려 할 수 있으나 스스로 힘을 돌이켜서 견고
    하지 않으면 일을 하려 할 수 없다. 태음인의 고요함은 양이 가히 고요할 수 있으나 스스로 지혜를
    돌이켜 주밀하지 않으면 고요할 수 없다. 소음인의 멈추려고 함은 양이 가히 머무를 수 있으나 스
    스로 꾀를 돌이켜 넓지 않으면 머무를 수 없다.
    그 지혜가 두루 미치지 못하면 고요할 수 없는 것이다. 소음인의 거처해 있는 성질은 그 역량이 거
    처해 있을 만하지만 스스로 자신의 계획을 돌이켜 보아서 그 계획이 넓지 못하면 거처해 있을 수
    없다.
    태양인의 정기는 항상 수컷이 되고자 하고 암컷이
    환자가 어떤 증상을 보일 때 대체로 효과적인 약물을 사용할 수 있는지에 대한 정보는 무엇인가요? 병이 풀리지 않으며 불통이 5, 6일에서 10여 일에 이르고 오
    후가 되면 조열이 나고 오한은 없으면서도 귀신을 본 것처럼 헛소리를 하며 심하면 사람을 알아보
    지도 못하고 옷을 더듬고 잠자리를 더듬으며 두려워하고 불안해하며 가볍게 숨차고 눈이 똑바로
    본다. 이런 경우에 맥이 뛰면 살고 맥이 껄끄러우면 죽는다.
    나는 생각한다. 진, 한 시대의 의방에 있어서 대변이 비조한 자를 다스리는 방법으로 대황은 있었
    어도 파두로 다스리는 방법은 없었다. 그러므로 장중경도 역시 대황대승기탕을 써서 소음인의 태양
    병이 양명병으로 옮겨진 것을 다스렸다. 환자가 미한이 이고 위 석이 건조해서 대변 불통을 5, 6일
    에서 10여 일에 이르며 해질 무렵에는 열이 심하게 오르고 오한은 없으나 귀신을 본 것처럼 헛소리
    를 할 경우에 이 약을 쓰면 신효하다. 병세가 심하여 발작하면 사람을 알아보지 못하고 옷을 더듬
    고 자자리를 더듬으며 두려워하고 불안해하며 가볍게 숨이 차고 눈이 똑바로 본다. 이런 경우에도
    이 약을 쓰는데 맥이 뛰면 살고 맥이 껄끄러우면 죽는다. 대체로 이 처방은 소음인의 태양병이 양
    명병으로 옮겨져서 대변 불통이 5,6일에 이르고 해질 무렵이면 심한 열이 오르는 경우에만 쓸 수
    있는 것이며 그 외에는 쓰지 못한다. 중경은 이 처방을 쓸 수 있는 경우와 써서는 안될 경우를 잘
    알고 있었으니 또한 소음인의 태양, 양명병 증세를 소상하게
    성인과 보통 사람의 마음의 차이에 대해 어떻게 설명되고 있나요? 하늘을
    바라기 때문이고 비,박,탐,나의 맑고 탁하고 넓고 좁은 것은 만가지로 다른 중에 한가지 같은 점이
    있으니 보통 사람이 성인을 바라기 때문이다.
    성인의 장도 사단(四端)이고, 보통 사람의 장도 또한 사단이니 성인의 한가지 사단의 장으로써 보
    통 사람의 만가지 사단의 가운데에 처하니 성인은 보통 사람들이 즐기는 바이고 성인의 마음은 욕
    심이 없고 보통 사람의 마음은 욕심이 있으니 성인의 욕심이 없는 마음으로써 보통 사람의 만가지
    욕심있는 마음속에 처하니 보통 사람은 성인이 걱정하는 바가 된다.
    그런즉 천하의 보통 사람들의 장의 이치는 또한 다 성인의 장의 이치이고, 재능도 또한 다 성인의
    재능이다. 폐,비,간,신으로써 성인이 재능을 스스로 말하길 나는 재능이 없다고 말하는 자가 있으면
    어찌 재능의 죄인가, 마음이 죄이다.
    호연지기는 폐,비,간,신에서 나오고 호연지기는 마음에서 나오니 인의예지의 사장의 기를 넓히고
    채운 즉 호연지기는 이것에서 나오고, 비,박,탐,나의 한마음의 욕심을 밝히고 변별한 즉 호연지리가
    이것에서 나온다.
    성인의 마음이 욕심이 없다고 말하는 것은 맑고 고요하여 없어지는 듯하여 노자나 부처처럼 욕심
    이 없는 것이 아니다. 성인의 마음은 천하가 다스려지지 않음을 심히 걱정하여 단지 욕심이 없는
    것이 아니라 또한 자신의 욕심에 미칠 겨를이 없는 것이다. 천하의 다스려지지 않음을 심히 걱
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 5
  • per_device_eval_batch_size: 5
  • num_train_epochs: 2
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 5
  • per_device_eval_batch_size: 5
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step cosine_ndcg@10
1.0 25 0.7457
2.0 50 0.7476

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.49.0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.5.2
  • Datasets: 3.4.1
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
1
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for micky1625/finetuned

Finetuned
(1)
this model

Papers for micky1625/finetuned

Evaluation results