Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 12
This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("strongpear/M3-retriever-Medical")
# Run inference
sentences = [
'Mục đích chính của T0 là gì?',
'Mục đích của T0 này là so sánh hiệu quả của bài tập chuyển động thụ động và bài tập chuyển động AS đối với sức khỏe chức năng ở các đối tượng và phương pháp của cư dân viện dưỡng lão cao tuổi. Hai mươi ba cư dân tại viện dưỡng lão nam và nữ tình nguyện tham gia T0 này, họ được chia thành một nhóm thụ động nhóm tập thể dục chuyển động n và một nhóm tập thể dục chuyển động AS n và thực hiện các buổi tập tối thiểu hai lần một tuần trong nhiều tuần ghế tập thể hình PET đứng lên ngồi vươn tay ra sau Các bài kiểm tra FR và đi bộ tối thiểu đã được đánh giá trước đó và T3 kết quả can thiệp không có đường cơ sở đáng kể sự khác biệt được ghi nhận giữa các nhóm về các biến đo được sau can thiệp trong tuần không có nhóm tương tác đáng kể nào à thời gian được ghi nhận trong các biến thể dục chức năng giữa CG ngoại trừ điểm FR Bài tập chuyển động AS Bài tập chuyển động thụ động cải thiện đáng kể theo thời gian đã được ghi nhận trong bài tập chuyển động thụ động nhóm ngồi trên ghế cong đứng lên điểm đi bộ và đi bộ tối thiểu và trong nhóm tập thể dục chuyển động tích cực ngồi trên ghế cong đứng lên điểm đi bộ FR và đi bộ tối thiểu tỷ lệ tuân thủ trong các nhóm tập thể dục thụ động và chuyển động AS lần lượt là kết luận bài tập chuyển động thụ động và bài tập chuyển động tích cực được cho là có hiệu quả tương tự trong việc cải thiện thể lực PET của người già ở viện dưỡng lão',
'Sâu răng càng nặng, răng sẽ càng chịu nhiều tổn thương. Thậm chí, nếu không được điều trị sớm, sâu răng sẽ tấn công và khiến cho rằng hàm vỡ hết chỉ còn chân răng.\n 2. Mức độ nguy hiểm của răng hàm vỡ chỉ còn chân răng\n Tình trạng răng cối bị sâu dẫn tới vỡ chỉ còn chân răng rất nguy hiểm. Nếu không được chăm sóc và điều trị kịp thời sẽ dẫn tới nhiều biến chứng gây ảnh hưởng nghiêm trọng tới sức khỏe người bệnh.\n 2.1 Ảnh hưởng chức năng ăn nhai của răng\n Khi tổ chức cứng của răng bị phá hủy càng nhiều, răng sẽ càng dễ vỡ. Thời điểm răng chỉ còn lại chân, chức năng ăn nhai của răng cũng sẽ mất.\n 2.2 Viêm lợi\n Sâu răng sẽ tạo ra những lỗ, hốc sâu. Đây chính là vị trí thuận lợi để răng sâu lưu giữ thức ăn. Lâu ngày, điều này sẽ dẫn tới hình thành ổ vi khuẩn, gây hôi miệng. Bên cạnh đó, khi răng xuất hiện hốc sâu, lợi sẽ dễ có xu hướng lấp kín hốc sâu đó. Phần lợi này sẽ dễ bị viêm, sưng, chảy máu cho phải chà sát nhiều trong quá trình ăn nhai.\n 2.3 Viêm tủy, nhiễm trùng chóp răng\n Khi tình trạng sâu răng hàm chuyển biến nặng sẽ dẫn tới đau nhức, viêm tủy, viêm chóp răng gây nguy hiểm\n Sâu răng khi chuyển nặng, sâu xuống dưới và vào tủy sẽ khiến răng bị đau nhức do viêm tủy. Khi tình trạng viêm tủy trở nên nghiêm trọng, lan sâu xuống chóp răng sẽ gây viêm nhiễm vùng chóp. Khi này, răng sẽ bị đau, lung lay, phần lợi xung quang sẽ sưng to. Lâu ngày, ổ abscess chóp răng sẽ hình thành. Vấn đề này không được xử lý sớm sẽ chính là nguy cơ mất răng và lây lan sang cả những răng lân cận.\n Ổ nhiễm trùng chóp răng lây lan sẽ gây viêm xương hàm. Sau đó, nếu không được khắc phục, phần mềm và các tổ chức lân cận cũng sẽ bị ảnh hưởng tạo nên ổ nhiễm trùng lớn rất khó để kiểm soát.\n Khi ổ nhiễm trùng lan rộng sẽ tạo ra nang to. Chúng phá hủy xương hàm và khiến xương hàm bị gãy, gây tổn thương thần kinh, đường mạch máu, …\n 3.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Manh tràng có hình dạng và vị trí như thế nào trong đại tràng? |
Giải phẫu học về túi thừa đại tràng |
Chấn thương tụy có thể gây ra những vấn đề gì? |
Chấn thương |
Hình ảnh nội soi NBI có điểm gì nổi bật so với nội soi thông thường? |
Hình ảnh nội soi NBI có độ phân giải và độ phân giải cao nên giúp bác sỹ dễ dàng phát hiện những thay đổi nhỏ về màu sắc, hình thái của tổn thương ung thư và tiền ung thư mà nội soi thông thường khó phát hiện được.Ngoài ra, nội soi đại trực tràng và mọi quy trình kỹ thuật khác thực hiện tại Vinmec đều được kiểm soát nghiêm ngặt, đạt các tiêu chuẩn chất lượng quốc tế, đảm bảo an toàn và chất lượng cho người bệnh.Trước mỗi ca thực hiện, hệ thống máy nội soi đều được đảm bảo vô trùng, đem đến tính an toàn tuyệt đối đến người bệnh. Sau khi thủ thuật kết thúc, ống nội soi được vệ sinh bằng máy rửa dây soi tự động của chính hãng Olympus dưới hệ thống lọc nước RO. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Moxonidine có tác dụng gì đối với bệnh tăng huyết áp? |
sử dụng trong thận nó là AS chống lại rối loạn nhịp tim VVI trong nhiều môi trường kinh nghiệm khác nhau nó không có tác dụng ức chế hô hấp do kích hoạt CE alpha nó có tác dụng có lợi đối với chuyển hóa thủy tinh và lipid máu ở chuột béo phì bị tăng huyết áp di truyền nó thể hiện hoạt động chống loét và cuối cùng là moxonidine làm giảm áp lực nội nhãn gợi ý một lợi ích có thể có trong bệnh tăng nhãn áp do đó MOX bằng phương thức hoạt động mới của nó thể hiện một nguyên tắc điều trị mới trong điều trị tăng huyết áp vì đặc tính độc đáo của nó. MOX có thể chứng minh là có hiệu quả trong việc làm chậm sự tiến triển của bệnh bằng cách mang lại tác dụng bảo vệ ngoài việc chỉ giảm huyết áp cần nghiên cứu thêm để xác minh tiềm năng này |
Tại sao bác sĩ Haydar Cemal lại đưa ra tuyên bố về việc tiêm chủng cho những người bị kết án tử hình? |
vắc-xin để tiêm chủng tuyệt đối cho một số đối tượng bị kết án tử hình, bác sĩ haydar cemal tuyên bố trên một tờ báo ngày tháng 12 rằng những người được báo cáo là đối tượng bị kết án tử hình thực sự là người Armenia và những người Armenia vô tội bị đánh dấu trục xuất đã được tiêm máu của bệnh nhân sốt phát ban và rằng anh ta đã chứng kiến tất cả những sự kiện này do lời khai của anh ta, Bộ Nội vụ đã yêu cầu một cuộc điều tra ngay lập tức và khi kết thúc cuộc điều tra đó, người ta hiểu rằng bác sĩ haydar cemal và bác sĩ hamdi suat chưa bao giờ làm việc cùng nhau ở erzincan vào thời điểm bác sĩ haydar cemal tuyên bố tất cả các tuyên bố đều bị EC điều tra bác bỏ và không ai bị buộc tội trong một trận dịch sốt phát ban nghiêm trọng. Các bác sĩ Thổ Nhĩ Kỳ đã tiêm vắc xin sốt phát ban nhằm mục đích cứu một mạng sống khỏi đám cháy. Theo các nguồn tin, sự phân biệt đối xử tôn giáo đối với những người được tiêm chủng đã được chứng minh rằng tuyên bố rằng một số bác sĩ Thổ Nhĩ Kỳ đã sử dụng... |
Sinh thiết ảnh hưởng đến quyết định lâm sàng như thế nào trong giai đoạn đầu sau ghép gan? |
PLB thông thường trong giai đoạn hậu phẫu sớm trong vòng vài ngày sau khi ghép CL có thể không thực hiện được do bệnh lý đông máu và/hoặc cổ trướng việc sử dụng sinh thiết VG gan xuyên tĩnh mạch cảnh tjlb trong trường hợp này là một phương pháp thay thế hấp dẫn vì có thể thu được chẩn đoán mô mặc dù có chống chỉ định tương đối đối với sinh thiết qua da trong giai đoạn này trong giai đoạn đầu sau ghép tjlb đã được thực hiện ở những bệnh nhân gan phần lớn trong số họ đã ghép gan thông thường mà không bảo tồn VPI VC bản địa những người khác đã có IVC bản địa trong tỷ lệ thành công về mặt kỹ thuật là với mẫu bệnh phẩm đủ để chẩn đoán xác định trong hầu hết các trường hợp bao gồm cả chẩn đoán đào thải và không đào thải trên mô bệnh học cuối cùng chẩn đoán sinh thiết ảnh hưởng đến việc xử trí lâm sàng trong phần lớn các trường hợp với các quyết định được đưa ra để thực hiện ghép lại để ảnh hưởng đến việc bắt đầu liệu pháp chống đào thải và bắt đầu liệu pháp kháng vi-rút không có bệnh tật hoặ... |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
eval_strategy: stepsper_device_train_batch_size: 32per_device_eval_batch_size: 32warmup_ratio: 0.1bf16: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 3max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Truefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Falsehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseeval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | Validation Loss |
|---|---|---|---|
| 0.0517 | 200 | 0.1317 | 0.0428 |
| 0.1034 | 400 | 0.0646 | 0.0437 |
| 0.1551 | 600 | 0.063 | 0.0416 |
| 0.2068 | 800 | 0.0623 | 0.0441 |
| 0.2585 | 1000 | 0.0752 | 0.0475 |
| 0.3102 | 1200 | 0.0754 | 0.0491 |
| 0.3619 | 1400 | 0.0794 | 0.0507 |
| 0.4137 | 1600 | 0.0849 | 0.0658 |
| 0.4654 | 1800 | 0.076 | 0.0503 |
| 0.5171 | 2000 | 0.0778 | 0.0490 |
| 0.5688 | 2200 | 0.0747 | 0.0455 |
| 0.6205 | 2400 | 0.0601 | 0.0412 |
| 0.6722 | 2600 | 0.0664 | 0.0458 |
| 0.7239 | 2800 | 0.0628 | 0.0430 |
| 0.7756 | 3000 | 0.067 | 0.0500 |
| 0.8273 | 3200 | 0.0655 | 0.0501 |
| 0.8790 | 3400 | 0.0626 | 0.0577 |
| 0.9307 | 3600 | 0.0731 | 0.0512 |
| 0.9824 | 3800 | 0.0662 | 0.0443 |
| 1.0341 | 4000 | 0.056 | 0.0428 |
| 1.0858 | 4200 | 0.0496 | 0.0378 |
| 1.1375 | 4400 | 0.0405 | 0.0360 |
| 1.1892 | 4600 | 0.0333 | 0.0318 |
| 1.2410 | 4800 | 0.0326 | 0.0313 |
| 1.2927 | 5000 | 0.0273 | 0.0321 |
| 1.3444 | 5200 | 0.0254 | 0.0334 |
| 1.3961 | 5400 | 0.0261 | 0.0291 |
| 1.4478 | 5600 | 0.0228 | 0.0359 |
| 1.4995 | 5800 | 0.0247 | 0.0344 |
| 1.5512 | 6000 | 0.0216 | 0.0344 |
| 1.6029 | 6200 | 0.0183 | 0.0303 |
| 1.6546 | 6400 | 0.0205 | 0.0294 |
| 1.7063 | 6600 | 0.0194 | 0.0294 |
| 1.7580 | 6800 | 0.018 | 0.0258 |
| 1.8097 | 7000 | 0.0197 | 0.0296 |
| 1.8614 | 7200 | 0.0196 | 0.0340 |
| 1.9131 | 7400 | 0.0207 | 0.0284 |
| 1.9648 | 7600 | 0.0234 | 0.0268 |
| 2.0165 | 7800 | 0.0139 | 0.0275 |
| 2.0683 | 8000 | 0.015 | 0.0270 |
| 2.1200 | 8200 | 0.0103 | 0.0293 |
| 2.1717 | 8400 | 0.0095 | 0.0259 |
| 2.2234 | 8600 | 0.0082 | 0.0284 |
| 2.2751 | 8800 | 0.0077 | 0.0264 |
| 2.3268 | 9000 | 0.0073 | 0.0252 |
| 2.3785 | 9200 | 0.0078 | 0.0247 |
| 2.4302 | 9400 | 0.0074 | 0.0294 |
| 2.4819 | 9600 | 0.0059 | 0.0324 |
| 2.5336 | 9800 | 0.007 | 0.0321 |
| 2.5853 | 10000 | 0.005 | 0.0299 |
| 2.6370 | 10200 | 0.0062 | 0.0283 |
| 2.6887 | 10400 | 0.0059 | 0.0277 |
| 2.7404 | 10600 | 0.0053 | 0.0285 |
| 2.7921 | 10800 | 0.0049 | 0.0280 |
| 2.8438 | 11000 | 0.0055 | 0.0288 |
| 2.8956 | 11200 | 0.0046 | 0.0286 |
| 2.9473 | 11400 | 0.0072 | 0.0280 |
| 2.9990 | 11600 | 0.0046 | 0.0281 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
BAAI/bge-m3