SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: BAAI/bge-m3
Maximum Sequence Length: 8192 tokens
Output Dimensionality: 1024 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("naucica77/bge-m3-finetuned-ict")
# Run inference
sentences = [
    '미국 정부가 2023년에 발표한 새로운 국가 사이버 보안 전략에서 강조한 주요 목표와 핵심 요소에는 어떤 것들이 있는가?',
    '25 Ⅱ. ICT 이슈 Top10 \n ⑧미국, 사이버보안 강화에 박차 \n 미국 정부 기관, 해킹 피해 대응 강화\n• 미국의 여러 기업과 정부기관이 MOVEIt 파일 공유 소프트웨어의 취약점을 이용한 사이버 \n공격을 당함. 도난당한 데이터의 민감도에 대한 구체적인 정보는 아직 명확하지 않으나 , 이 \n사건은 최근 몇 년간 발생한 연방기관의 세 번째 주요 침해 사례임\n• 이러한 사건들은 정부기관 내에서 사이버 보안 프로토콜의 긴급한 재평가를 촉발하며 , 정교한 \n사이버 적대자로부터 민감한 정보를 보호하기 위한 강력한 사이버 보안 조치의 필요성을 강조함 . \n사이버 보안 및 인프라 보안국 (CISA) 은 이러한 해킹의 범위를 적극적으로 조사하며 , 연방기관이 \n받는 영향을 파악하고 적시에 조치를 취할 수 있도록 지원함\n 미국, 새로운 국가 사이버 보안 전략 발표\n• 백악관은 2023년 3월, 증가하는 사이버 위협에 대한 국가 방어를 강화하기 위해 새로운 국가 \n사이버 보안 전략을 공개함 . 이 전략은 병원, 에너지 시설 등 핵심 인프라를 보호하고 , 디지털 \n생태계 위협에 대응하기 위해 UN과의 협력을 강화함 . 조 바이든 (Joe Biden) 미국 대통령은 \n일상과 국가 안보를 뒷받침하는 디지털 인프라에 대한 신뢰의 중요성을 강조하며 , 공격보다 \n방어가 용이한 탄력적인 디지털 생태계를 구축하는 전략의 목표를 강조함\n• 이 전략은 사이버 위협 해결을 위한 5개의 핵심을 제시함 . 여기에는 핵심 기반 시설 방어, 위협 \n행위자 교란, 보안 및 회복력을 촉진하기 위한 시장 세력 형성, 회복력 있는 미래에 대한 투자, \n국제 파트너십 구축이 포함됨 . 책임 소재를 대규모 조직으로 재조정하고 강력한 협업과 보안 \n기술, 인력 개발에 대한 장기 투자로 국가 사이버보안을 강화하려는 행정부의 의지를 내포함\n 빅테크 기업, 클라우드 보안 강화 조치\n• 최근 미국 정부 관리들의 이메일이 해킹된 사건에 대응하여 , 아마존 , 구글, 마이크로소프트 등 \n주요 클라우드 서비스 제공업체들은 투명성을 높이고 보안 조치를 강화하라는 압박을 받음.  \n특히 마이크로소프트는 중국 정부와 연계된 스파이 작전으로 인해, 마이크로소프트 네트워크의 \n취약점을 악용하여 민감한 이메일 계정에 접근한 사건으로 인해 정밀 조사를 받음. 이 사건은 \n보안 프로토콜의 재평가와 유사한 침해를 방지하기 위해 보다 엄격한 조치의 도입을 촉발함\n• 이에 미국 사이버 보안 및 인프라 보안국 (CISA) 은 사이버 보안 문제를 해결하기 위한 민관 \n협업의 중요성을 강조하며 , 이 사건을 조사 중임. 더 큰 투명성과 강화된 보안 관행으로의 \n이동은 클라우드 제공업체가 사이버 위협에 대한 방어에서 사이버 보안의 공유 책임 모델로의 \n광범위한 전환을 반영함',
    '8 Ⅰ. ICT 국가 산업 현황\n 2.ICT 정부기구\n ③ 국가과학기술위원회 (NSTC) \n 미국 국가과학기술위원회 (NSTC)\n• 국가과학기술위원회 (National Science and Technology Council) 는 1993년 설립되었으며 \n백악관 산하의 자문기구로 역할을 담당하고 있음\n• 국가과학기술위원회의 기능은 ① 과학기술정책 결정과정의 조정 ② 과학기술정책결정 프로그램의 \n목표 지원 ③ 연방정부 전반에 대한 과학기술정책 의제 통합에 기여 ④ 과학기술 분야의 연방 \n정책 및 프로그램 개발 구현 ⑤ 과학기술분야의 국제협력 강화가 포함됨\n• 국가과학기술 위원회는 최근 ‘외국 인재 채용 프로그램 ’과 ‘STEM 교육을 통한 컴퓨팅 능력 \n구축’ 관련 가이드라인을 발간했으며 , ‘연방 사이버보안 연구 및 개발 전략 계획’을 발행함\n[표 4] 미국 국가과학기술위원회 (NSTC)\n구분 내용\n주요 인사아라티 프라바카르\n(Arati Prabhakar)\n백악관 과학기술정책실 (OSTP) 국장\n주요 소식‘외국 인재 채용 프로그램 ’ 지침 발행 ‣ 반도체 및 과학법에 의거해 발행\n‣ 프로그램에 대한 정의, 금지 사항 등 정리\n‘연방 사이버보안 \n연구 및 개발 전략 계획’ 발행‣ 사이버보안 관련 연구 자금 지원과 개발 \n우선순위에 대한 업데이트 지침 제공\n‣ NCS 관련 중요 목표 및 속성 식별\n‘STEM 교육을 통한 컴퓨팅 능력 구축’ \n가이드 발행‣ STEM 교육으로 컴퓨터 활용 능력을 \n육성한 모범 사례를 식별·장려\n주요\n산하 조직\n출처 : 국가과학기술위원회',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

Size: 52 training samples
Columns: sentence_0 and sentence_1
Approximate statistics based on the first 52 samples:
sentence_0 sentence_1
type string string
details
min: 20 tokens
mean: 31.27 tokens
max: 51 tokens

min: 45 tokens
mean: 520.0 tokens
max: 819 tokens

	sentence_0	sentence_1
type	string	string
details	min: 20 tokens mean: 31.27 tokens max: 51 tokens	min: 45 tokens mean: 520.0 tokens max: 819 tokens

Samples:

sentence_0	sentence_1
`미국 의료진이 AI 기술 도입에 대해 긍정적으로 평가하는 주된 이유는 무엇인가?`	22 Ⅱ. ICT 이슈 Top10 ⑤ 미국, 긍정적인 의료 AI 인식을 바탕으로 연구 활발 의료진의 AI 기술에 대한 긍정적 인식과 기대 • 아테나헬스 (Athenahealth) 가 의뢰한 최근 조사에 따르면 , 미국 의사 중 약 83%가 AI가 궁극적으로 행정 업무를 간소화하고 진단 정확도를 개선하며 환자 데이터의 패턴을 식별하는 데 도움이 될 수 있다고 답함. 이러한 낙관론은 의료 전문가들이 의학에서 기술의 역할을 바라보는 방식의 잠재적 전환점으로 여겨지며 , AI가 임상 의사 결정과 행정 업무를 지원하는 보다 통합적인 접근으로의 전환을 시사함 • 아테나헬스의 넬레 제셀(Nele Jessel) 최고 의료 책임자는 기술이 행정 업무를 줄이고 효율성을 높여 의사들이 환자 치료에 다시 집중할 수 있도록 해야 한다고 강조함 AI 도입을 통한 의료 서비스 개선 사례 • 메이오 클리닉 (Mayo Clinic) 등 여러 병원이 의료 허가 시험의 질문과 답변을 활용하여 더 나은 의료 조언을 제공하도록 설계된 구글의 AI 챗봇 ‘Med-PaLM 2’를 시험 운영하기 시작함 . 이는 AI를 일상적인 의료 관행에 통합하는 중요한 단계이며 , 의료 조언의 품질을 향상시키고 전문가 지식을 보다 접근 가능하고 효율적으로 만들어 의료 산업을 변화시킬 잠재력을 가짐 • 로스앤젤레스 어린이 병원(Children's Hospital Los Angeles) 은 바이탈 (Vital) 과 협력하여 개발한 AI 기반 ER 환자 앱, ERAdvisor 를 도입함 . 이 앱은 소아 응급 방문 중 대기 시간, 실험실 결과, 영상 결과 및 퇴원 진행 상황에 대한 실시간 업데이트를 제공하여 환자와 가족의 경험을 개선하는 것을 목표로 함 의료 AI 연구 및 개발에 대한 지속적인 투자와 협력 • UC 샌디에이고 헬스(UC San Diego Health) 는 환자 포털에서 자동으로 메시지 응답 초안을 작성하기 위해 에픽(Epic) 과 마이크로소프트 (Microsoft) 의 생성 ...
`구글의 인공지능 챗봇이 바드(Bard)에서 제미나이(Gemini)로 리브랜딩되면서 추가된 주요 기능과 기술적 발전은 무엇인가?`	18 Ⅱ. ICT 이슈 Top10 ①미국 빅테크 기업, 인공지능 챗봇 개발에 주력 구글의 제미나이 (Gemini) AI 챗봇 발전 과정 • 구글의 대화형 AI 챗봇은 처음에 바드(Bard) 로 알려졌으나 , 보다 고도화된 기능이 더해진 제미나이 (Gemini) 로 리브랜딩됨 . 이 전환은 구글이 AI 개발에 대한 입지를 다지는 중요한 단계로 , 제미나이는 현재까지 구글의 가장 진보된 대형 언어 모델(LLM) 에 의해 구동됨 • 제미나이는 출시 이후 처음에는 라엠다 (LaMDA) 의 LLM 경량 모델 버전을 사용하다 PaLM 2로 전환하고 , 결국 가장 뛰어난 LLM인 제미나이로 업그레이드를 하며 성능과 기능이 크게 향상됨 . 이를 통해 제미나이는 구글 렌즈(Google Lens)의 멀티모달 검색과 구글의 이마젠 2(Imagen 2)를 활용한 이미지 생성 기능 등을 통합하여 높은 수준의 성능을 발휘할 수 있게 됨 오픈AI(OpenAI) 의 GPT 시리즈와의 경쟁 구도 • 오픈AI의 GPT-4 출시는 AI 산업에서 중요한 이정표를 설정하며 , 미묘한 지시사항을 처리하는 것과 같은 AI 모델의 새로운 기준을 제시함 . 이 개발은 오픈AI와 다른 기술 대기업 간의 경쟁을 강화하여 대화형 AI가 달성할 수 있는 것과 다양한 분야에의 적용 가능성의 경계를 확장함 • 훨씬 더 큰 컨텍스트 창을 가진 GPT-4 의 고급 버전인 GPT-4 터보(Turbo) 의 도입은 AI 챗봇 산업의 경쟁을 더욱 심화함 . GPT-4 터보는 2023년 4월까지의 지식과 텍스트 -스피치 프롬프트와 함께 이미지를 입력으로 받아들일 수 있는 능력을 보여주며 , 오픈AI가 AI 모델의 다양성과 적용 가능성을 강화하려는 의지를 드러냄 . 이는 제미나이 AI를 보유한 구글을 포함한 다른 회사들이 오픈AI의 혁신에 발맞추기 위해 AI 개발 노력을 가속화 하도록 촉발함 미국 내 AI 챗봇 기술의 미래 전망 및 영향 • 구글의 제미나이와 오픈AI의 GPT 시리즈와 같은 AI...
`한-미 FTA가 최초로 발효된 연도와 이후 개정 의정서가 발효된 연도를 각각 쓰시오.`	15 Ⅰ. ICT 국가 산업 현황 6.한국 협력 및 국내기업 진출사례 한국-미국 FTA 체결 여부 • 2012년 3월 한-미 FTA 발효됨 • 2019년 1월 한-미 FTA 개정 의정서 발효, 투자자 -국가분쟁해결제도 (ISDS) 와 수출기업에 부담이 된 무역구제 절차 개선됨 • 2022년 한-미 FTA 10주년을 기념해 정부·국회 대표단이 워싱턴 D.C(Washington DC), 미시간 (Michigan), 뉴욕(New York) 등을 방문함 한국-미국 ICT 기관 협력 사례 • 과기정통부와 미국 기관 간 ICT 협력 사례가 주목됨 한국-미국 ICT 기업 진출 사례 • 다양한 산업과 규모의 한국 기업들이 미국 시장 진출을 위해 노력하고 있음 [표 10] 한국-미국 협력 현황 구분 날짜 내용 FTA 체결여부 (발효)12.03 ‣ 한-미 FTA 발효 19.01 ‣ 한-미 FTA 개정 의정서 발효 22.03 ‣ 한-미 FTA 10주년 기념해 정부·국회 대표단 방미 일정 진행 정부23.01‣ 경북도 , 산타클라라 한인상공회의소와 '실리콘밸리 스타트업 아카데미 경북 MOU' 개최 23.01 ‣ 광주시 , AI 스타트업 미국 진출 지원 23.01‣ 화성시 , 실리콘밸리 산타클라라 한인상공회의소와 ‘스타트업 기업의 글로벌 진출 지원 업무협약 ’ 체결 23.07 ‣ 과기정통부 , 한·미 WRC 협력회의 개최 24.01 ‣ 과기정통부 , 미국 CES 2024서 ‘디지털 청년 인재 포럼’ 개최 기업23.01 ‣ 바이든 대통령 , 한화 솔루션 미국 조지아주 ‘솔라 허브’ 투자 결정 환영 23.01 ‣ 필워크 , 미국 법인 설립 및 앱 서비스 론칭으로 미국 시장 본격 진출 23.08 ‣ 현대차그룹 모셔널 , ‘아이오닉 5 로보 택시’ 로스앤젤레스로 서비스 확장 23.08 ‣ 토마토시스템 , 미국 원격 진료 시장 진출 24.01 ‣ SK텔레콤 , 동물 AI 진단 솔루션 엑스칼리버 미국시장 본격 공략 24.02 ‣ 올거나이즈 , SOC-2 및 HIPPA 미국 보안...

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 6
per_device_eval_batch_size: 6
num_train_epochs: 2
multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: no
prediction_loss_only: True
per_device_train_batch_size: 6
per_device_eval_batch_size: 6
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1
num_train_epochs: 2
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.0
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
bf16: False
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
project: huggingface
trackio_space_id: trackio
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: no
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: True
prompts: None
batch_sampler: batch_sampler
multi_dataset_batch_sampler: round_robin

Framework Versions

Python: 3.12.12
Sentence Transformers: 3.4.1
Transformers: 4.57.3
PyTorch: 2.9.0+cu126
Accelerate: 1.12.0
Datasets: 4.0.0
Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}