nlpai-lab/ko-triplet-v1.0
Viewer • Updated • 745k • 233 • 29
How to use bi-matrix/G-MATRIX-Embedding-v1 with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("bi-matrix/G-MATRIX-Embedding-v1", trust_remote_code=True)
sentences = [
"인천청라지구는 최적의 업무환경을 공급하기 위해서 어떻게 해",
"∙ 한중 증권거래소 유치\n- 동북3성에 대한 해외투자국 중 한국이 수위국가이며, 최근 중국기업의 한국기업 인수도 비교적 활발하게 진행되고 있다.\n- 최근 중국은 상장기업 주식 60% 이상을 차지하는 정부 보유의 비유통주의 상장을 검토하고 있으나 물량부담으로 고민 중인데, 청라지구에 한·중 증권거래소를 설립함으로써, 중국의 증시 물량부담에 의한 유통화의 문제를 해결하는데 기여하면서 청라지구를 한국과 중국의 경제교류의 핵심거점으로서의 위상을 구축할 수 있을 것으로 판단된다.\n∙ 중국인에 대한 제한된 영주권의 발급\n- 중국의 ‘고소득-저소비 현상’은 중국 고소득층의 소비능력에 비해 중국 내의 고품격 상품이 부족하다는 것을 의미한다. 이는 중국 고소득층의 해외진출로 이어질 가능성이 농후하다. 청라지구에 개발되는 각종 스포츠 레저시설과 상업시설, 주거시설은 중국의 고소득층을 겨냥하게 되면, 중국인의 진출을 유도할 수 있으며, 청라지구는 환황해권 중심도시로 발전할 수 있을 것이다.\n- 이를 촉진할 수 있는 방법은 청라지구에 제한된 영주권을 중국 고소득층에게 발급하는 것이다. 중국의 막대한 소비력을 가지고 있는 계층을 청라지구로 유인하기 위한 제한된 영주권은 현재 중국 광저우의 ‘블루씰 카드’를 염두에 둔 것이다.\n∙ 서울의 금융집적지와의 긴밀한 연계\n- 청라지구를 환황해권 중심도시로 성장시키고 그에 대한 금융수요에 대응하기 위해서는 서울시내 금융집적지와의 긴밀한 교통망 연계가 필요하다. 현재 신공항철도, 지하철9호선, 신공항도로 등이 완공되면 청라지구의 접근성은 더욱 양호해질 전망이며, 향후 개성공단 등 북한과의 연계에 있어서도 청라지구는 상당히 유리한 위치라고 할 수 있다.",
"Ethephon의 초기 잔류량은 \\(1\\)회와 \\(2 \\)회 살포하였을 때 각각 \\( 395.8\\), \\(596.3 \\mathrm{~mg} \\mathrm{~kg}^{-1} \\)으로 나타났으며, 생물학적 반감기는 각각 \\( 26.6 \\mathrm{~h} \\) 및 \\( 21.1 \\mathrm{~h} \\)로 나타났다.",
"■ 인천청라지구 외국인투자유치 프로젝트\n∙ 개요\n- 인천청라지구 사업대상지에 개별 사업으로 국제업무타운(복합개발단지), 테마파크형 골프장, 테마형 레저·스포츠단지 등을 건설함으로써 국제업무 및 관광·스포츠레저단지로서의 인천청라지구의 위상을 제고하고 지역경제 활성화에 기여할 목적으로 외국인의 투자를 유치하고자 하는 사업\n∙ 인천청라지구 외국인투자유치 프로젝트 공모추진 일정\n- 2006. 04. 20공모공고\n- 2006. 07. 19제안서 접수\n- 2006. 07. 31심사 및 사업자후보자 선정\n- 2006. 10 사업협약 체결\n∙ 토지이용계획 및 사업내용\n- 최적의 업무환경을 제공할 수 있도록 국제업무단지 중심의 국제업무타운을 조성하며, 국제도시로서 뛰어난 경관을 확보 할 수 있도록 국제업무타운과 테마파크형 골프장 등을 인접토지이용과 조화될 수 있도록 배치한다. 외국인투자기업의 업무환경, 외국인의 정주환경을 조성하기 위하여 외국인 취향에 부합하도록 주거, 업무, 상업시설 조성"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base on the ko-triplet-v1.0 dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'항체 활성을 가지고 있는 특별한 단백질을 뭐라고 부를까?',
'항체 활성을 가지고 있는 특별한 단백질을 면역글로불린(immunoglobulin)이라 부르며 Ig로 표기한다.',
'Immunoblotting 결과, 한 번의 Dps 단백질 주입만으로도 매우 많은 양의 항체가 생성되었음을 확인하였으며, 이는 Dps 단백질이 매우 높은 항원성을 가지고 있다는 것을 의미한다(data not shown).',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
all-nli-devTripletEvaluator| Metric | Value |
|---|---|
| cosine_accuracy | 0.9967 |
anchor, positive, and negative| anchor | positive | negative | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| anchor | positive | negative |
|---|---|---|
2011년에 경북대학교는 어떻게 채용조건형 계약학과인 모바일공학과를 신설했어 |
② 경북대 모바일공학과(경북대 모바일공학과, 2012) |
(3) 계약학과의 주요 사례 |
추후에 누구를 대상으로 한 바이노럴 비트에 미치는 영향에 대한 추가적인 연구가 요구되는가? |
추후 실제 청력이 저하된 피실험자를 대상으로 청력 저하 요인별로 바이노럴 비트에 미치는 영향에 대한 추가적인 연구가 요구된다. |
아직까지 청력 차이에 따른 바이노럴 비트의 뇌파동조 정도에 대한 체계적인 연구가 보고된 바 없다. |
상대적으로 구분되는 법의 특성상 상법을 기준으로 볼 때 특별법으로 볼 수 있는 법은 뭐야 |
나. 특별법의 개념과 네트워크적 의미 |
앞서 살펴본 선행연구에서 공통적으로 제시되는 발전방향은 사업 추진체계 정비 및 인프라 구축, 이를 통한 전문 적응지원 서비스 및 민간일자리 전이 지원, 민간일 자리 전이 가능성에 따른 배치기관 연계, 장애, 성별, 연령 등 개인의 특성 등을 고려한 일자리 개발 및 확대 등이라고 볼 수 있다. 선행연구에서 제시된 사업 발전방향과 개선방안 등을 종합적으로 분석한 결과, 장애인일자리사업의 주요 개념은 ‘장애인’과 ‘일자리’라는 두 가지 개념으로 구분해서 생각해볼 수 있다. 먼저 장애인이라는 참여자를 중심으로 볼 때, 개인을 구성하는 다양한 요소에서 비롯되는 ‘개인특성’ 요인이 있고, 일자리라는 특성을 중심으로 볼 때의 주요 구성요인은 ‘근로조건’과 ‘직무특성’으로 구분될 수 있다. 마지막으로 장애인과 일자리의 연결 지점이라 할 수 있는 ‘적응지원 서비스’ 요인으로 개인이 일자리에 잘 적응할 수 있도록 전문자원을 활용하는 것이라 정의할 수 있다. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
anchor, positive, and negative| anchor | positive | negative | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| anchor | positive | negative |
|---|---|---|
국토교통부가 공동주택관리업무를 지원하고자 행복지원센터를 둔 기관은 어디야 |
5. 공동주택관리지원기구 |
■ 추진내용 |
과대광고를 한 P2P 사업자가 월정액을 뭐로 청구해서 이용자에게 피해를 입히지 |
□ 반면, 최근 온라인 영화(영상물) 제공을 주요 서비스로 하는 일부 온라인서비스사업자의 과장광고 등으로 인한 이용자의 피해가 증가하고 있어 영업질서 유지를 위한 조치가 필요한 상태임 |
○ 한편, 온라인상에서 이용자간 자유로운 영상물 거래를 가능하게 하는 온라인서비스가 등장함에 따라, 유통사업자가 개별적인 영상물 제공에 대하여 일정한 대가를 받는 전통적인 유통방식의 변화가 발생하고 있음 |
스트레스를 받은 닭은 코티코스테론의 증가와 인슐린 과다분비로 인하여 체내에 무엇이 증가하나요? |
지금까지 알려진 것을 보면 스트레스를 받은 닭은 corticosterone의 증가와 인슐린 과다분비로 인하여 체내에 지방축적이 증가하는 것으로 알려져 있다. |
닭의 경우 스트레스에 의해 증체량과 사료효율 감소가 보고되었으며, 이와 같은 결과는 닭의 골격근 발달저하와 지방축적 증가를 유발한다고 하였다. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
eval_strategy: stepsper_device_train_batch_size: 16per_device_eval_batch_size: 16learning_rate: 1e-05num_train_epochs: 1warmup_ratio: 0.1bf16: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 16per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 1e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Truefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Falsehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseeval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseeval_use_gather_object: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | Validation Loss | all-nli-dev_cosine_accuracy |
|---|---|---|---|---|
| 0 | 0 | - | - | 0.9799 |
| 0.0370 | 100 | 0.2228 | 0.1064 | 0.9890 |
| 0.0741 | 200 | 0.1292 | 0.0510 | 0.9938 |
| 0.1111 | 300 | 0.0785 | 0.0400 | 0.9944 |
| 0.1481 | 400 | 0.0675 | 0.0345 | 0.9955 |
| 0.1852 | 500 | 0.0667 | 0.0320 | 0.9953 |
| 0.2222 | 600 | 0.0644 | 0.0306 | 0.9956 |
| 0.2593 | 700 | 0.067 | 0.0304 | 0.9959 |
| 0.2963 | 800 | 0.0568 | 0.0296 | 0.9956 |
| 0.3333 | 900 | 0.0617 | 0.0287 | 0.9958 |
| 0.3704 | 1000 | 0.0556 | 0.0274 | 0.9962 |
| 0.4074 | 1100 | 0.0532 | 0.0271 | 0.9962 |
| 0.4444 | 1200 | 0.0524 | 0.0262 | 0.9966 |
| 0.4815 | 1300 | 0.0529 | 0.0267 | 0.9962 |
| 0.5185 | 1400 | 0.0527 | 0.0260 | 0.9962 |
| 0.5556 | 1500 | 0.0479 | 0.0253 | 0.9962 |
| 0.5926 | 1600 | 0.0515 | 0.0245 | 0.9967 |
| 0.6296 | 1700 | 0.0512 | 0.0251 | 0.9962 |
| 0.6667 | 1800 | 0.0548 | 0.0245 | 0.9963 |
| 0.7037 | 1900 | 0.0476 | 0.0246 | 0.9965 |
| 0.7407 | 2000 | 0.0456 | 0.0247 | 0.9961 |
| 0.7778 | 2100 | 0.0548 | 0.0242 | 0.9965 |
| 0.8148 | 2200 | 0.051 | 0.0241 | 0.9965 |
| 0.8519 | 2300 | 0.0472 | 0.0242 | 0.9967 |
| 0.8889 | 2400 | 0.0492 | 0.0241 | 0.9967 |
| 0.9259 | 2500 | 0.0463 | 0.0239 | 0.9967 |
| 0.9630 | 2600 | 0.0484 | 0.0238 | 0.9967 |
| 1.0 | 2700 | 0.0498 | 0.0238 | 0.9967 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
Alibaba-NLP/gte-multilingual-base