SentenceTransformer based on vinai/phobert-base-v2

This is a sentence-transformers model finetuned from vinai/phobert-base-v2 on the dataset_full_fixed dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: vinai/phobert-base-v2
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("phobert-base-v2-mnr-loss")
# Run inference
sentences = [
    'Chào bạn, Qua mô tả rất có thể bạn đã bị thoát vị bẹn tái phát. Để được hưởng BHYT, bạn bắt buộc phải đến khám tại cơ sở chăm sóc y tế ban đầu (theo thẻ bảo hiểm), khi bác sĩ có chỉ định làm xét nghiệm thì mới được BHYT thanh toán một phần theo quy định. Nếu tự ý thực hiện xét nghiệm thì không được BHYT thanh toán bạn nhé! Thân mến.',
    'Chào bác sĩ,\r\n\r\nCách đây 10 tháng em bị thoát vị bìu trái, đã mổ và lắp lưới tại Bệnh viện Chợ Rẫy. Gần đây em thấy hơi đau ổ bụng phải vùng háng mỗi khi vận động mạnh hay ho, sưng khi vận động và khi ngủ nghỉ sẽ xẹp xuống. \r\n\r\nBác sĩ cho em hỏi có phải em bị thoát vị phải giai đoạn đầu không ạ? Muốn chẩn đoán chính xác cần siêu âm hay nội soi ạ, có được giảm phí cho công nhân có BHXH không ạ? Em đi làm suốt, không có thời gian đến thăm khám cũng như điều kiện tài chính. Kính mong bác sĩ tư vấn giúp em. Em cám ơn nhiều ạ!',
    'Chào bác sĩ,Em có làm xét nghiệm HIV chiến lược III tại Pasture với sinh phẩm là HIV duo cho kết quả âm tính sau 6 tuần kể từ lúc có nguy cơ. Bác sĩ cho em hỏi là xét nghiệm chiến lược III này có giống như HIV combo không ạ? Và em đã được an toàn chưa ạ. Em trân trọng cám ơn!',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.6382
cosine_accuracy@3 0.7703
cosine_accuracy@5 0.8187
cosine_accuracy@10 0.8698
cosine_precision@1 0.6382
cosine_precision@3 0.2568
cosine_precision@5 0.1637
cosine_precision@10 0.087
cosine_recall@1 0.6382
cosine_recall@3 0.7703
cosine_recall@5 0.8187
cosine_recall@10 0.8698
cosine_ndcg@10 0.7529
cosine_mrr@10 0.7156
cosine_map@100 0.7206

Training Details

Training Dataset

dataset_full_fixed

  • Dataset: dataset_full_fixed at ef2e7fd
  • Size: 43,803 training samples
  • Columns: positive and query
  • Approximate statistics based on the first 1000 samples:
    positive query
    type string string
    details
    • min: 30 tokens
    • mean: 188.07 tokens
    • max: 256 tokens
    • min: 5 tokens
    • mean: 79.04 tokens
    • max: 256 tokens
  • Samples:
    positive query
    Tìm hiểu chung nhiễm clostridium botulinum Nhiễm Clostridium botulinum là gì? Clostridium botulinum là một loài trực khuẩn Gram dương, kỵ khí, sinh bào tử và gây bệnh ở người. Ngộ độc C. botulinum hiếm gặp nhưng đe doạ tính mạng, xảy ra khi độc tố botulinum đi vào máu và ức chế giải phóng acetylcholine không phục hồi ở các đầu mút dây thần kinh ngoại vi. C. botulinum tạo ra 8 loại kháng nguyên gây độc tố thần kinh (type A đến H). Năm type độc tố gồm A, B, E và F, H (hiếm gặp) ảnh hưởng đến con người. Độc tố botulinum B là các protein gây độc cao, không bị phân hủy do acid dịch vị và các enzym thuỷ phân protein. Type H có độc tính mạnh nhất. Tìm hiểu chung nhiễm clostridium botulinum
    Thay đổi thói quen giúp giảm bớt triệu chứng sau mổ vẹo vách ngăn mũi Chào em, Vách ngăn mũi cấu trúc bằng nhiều xương hợp thành nên dễ bị vẹo lệch. Nếu vách ngăn lệch nhiều hoặc có gai là yếu tố góp phần làm cho tình trạng nghẹt mũi thêm nặng nề, là yếu tố làm nặng thêm viêm xoang mạn. Vì thế, chỉ định phẫu thuật vách ngăn mũi khi có những biến chứng như: niêm mạc mũi xoang thoái hóa tạo thành polype, nhiễm nấm mũi xoang, nhiễm trùng đi kèm không đáp ứng với điều trị nội khoa, vẹo vách ngăn sau chấn thương mũi. Tuy nhiên, cũng vì vẹo vách ngăn mũi chỉ góp 1 phần trong bệnh lý viêm mũi xoang mạn, viêm mũi dị ứng, viêm mũi vận mạch, cho nên, sau phẫu thuật vẹo vách ngăn mũi, không có nghĩa là bệnh viêm mũi xoang, viêm mũi vận mạch sẽ hết theo luôn, mà chúng ta vẫn cần tiếp tục điều trị đối với các bệnh lý này. Đối với viêm mũi vận mạch, viêm mũi dị ứng thì là bệnh cơ địa rồi, tức là không chữa dứt hoàn toàn, chỉ điều trị phòng ngừa với giữ ấm vùng mũi họng, hạn chế để quạt thổi thẳng và... Thưa bác sĩ, em mổ vẹo vách ngăn mũi được 1 tháng rồi, mà vẫn còn đau đầu và mũi, dịch tiết cứ xuống họng hoài làm em khó chịu. Xin bác sĩ tư vấn giúp.(Huỳnh Thị Diễm Trang - Châu Thành, Kiên Giang)
    Vừa rồi tôi có kiểm tra trọng lượng cơ thể, từ 69 kg xuống còn 64 ký trong 20 ngày, vậy có sao không ạ? Tôi ăn uống vấn bình thường, cao 1m70. Xin BS tư vấn giúp. Chào bạn, Nhiều loại thuốc kháng sinh có tác dụng phụ là gây

    chán ăn, lạt miệng, đắng miệng; bên cạnh đó, quá trình viêm nhiễm và

    lành vết thương cũng làm hao tổn năng lượng của cơ thể nhưng lại giảm

    hấp thu dinh dưỡng, cộng thêm cảm giác khó chịu khi bị bệnh và tâm lý

    nặng nề trong lúc điều trị bệnh, điều này có thể dẫn đến việc sụt cân.

    Sụt cân không phải là triệu chứng của bệnh dại . Trước

    mắt bạn chú ý ăn uống tẩm bổ thêm, nếu cân nặng tiếp tục sụt giảm thì

    cần tái khám lại BS điều trị để kiểm tra chức năng gan, tuyến giáp, tiểu

    đường… Thân mến.
    Kính chào BS. Tôi bị súc vật cắn ở chân, điều trị được 20 ngày rồi, vết thương đã gần liền miệng, dùng nhiều kháng sinh và có chích 5 mũi văcxin phòng dại.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 80
  • per_device_eval_batch_size: 80
  • learning_rate: 1e-06
  • num_train_epochs: 5
  • lr_scheduler_type: constant_with_warmup
  • warmup_ratio: 0.1
  • bf16: True
  • tf32: False
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 80
  • per_device_eval_batch_size: 80
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 1e-06
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: constant_with_warmup
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_768_cosine_ndcg@10
-1 -1 - 0.1498
0.0182 10 4.0792 -
0.0365 20 4.1028 -
0.0547 30 4.0665 -
0.0730 40 4.079 -
0.0912 50 4.1162 -
0.1095 60 4.0745 -
0.1277 70 4.0081 -
0.1460 80 3.9355 -
0.1642 90 3.8973 -
0.1825 100 3.7629 -
0.2007 110 3.6839 -
0.2190 120 3.5303 -
0.2372 130 3.3918 -
0.2555 140 3.2135 -
0.2737 150 3.0658 -
0.2920 160 2.7587 -
0.3102 170 2.5414 -
0.3285 180 2.2088 -
0.3467 190 1.79 -
0.3650 200 1.6268 -
0.3832 210 1.3612 -
0.4015 220 1.2683 -
0.4197 230 1.1546 -
0.4380 240 1.0868 -
0.4562 250 0.9941 -
0.4745 260 0.895 -
0.4927 270 0.9147 -
0.5109 280 0.8611 -
0.5292 290 0.8259 -
0.5474 300 0.7449 -
0.5657 310 0.7238 -
0.5839 320 0.7138 -
0.6022 330 0.6887 -
0.6204 340 0.6568 -
0.6387 350 0.6949 -
0.6569 360 0.5995 -
0.6752 370 0.643 -
0.6934 380 0.6222 -
0.7117 390 0.6458 -
0.7299 400 0.5563 -
0.7482 410 0.5851 -
0.7664 420 0.6081 -
0.7847 430 0.5049 -
0.8029 440 0.6556 -
0.8212 450 0.5582 -
0.8394 460 0.5239 -
0.8577 470 0.602 -
0.8759 480 0.5101 -
0.8942 490 0.4901 -
0.9124 500 0.5159 -
0.9307 510 0.5209 -
0.9489 520 0.4752 -
0.9672 530 0.4625 -
0.9854 540 0.5417 -
1.0 548 - 0.6403
1.0036 550 0.4616 -
1.0219 560 0.4365 -
1.0401 570 0.4392 -
1.0584 580 0.496 -
1.0766 590 0.4792 -
1.0949 600 0.4528 -
1.1131 610 0.4976 -
1.1314 620 0.4262 -
1.1496 630 0.3775 -
1.1679 640 0.3835 -
1.1861 650 0.4341 -
1.2044 660 0.4061 -
1.2226 670 0.5176 -
1.2409 680 0.5164 -
1.2591 690 0.3999 -
1.2774 700 0.4664 -
1.2956 710 0.4184 -
1.3139 720 0.4309 -
1.3321 730 0.3837 -
1.3504 740 0.4163 -
1.3686 750 0.3696 -
1.3869 760 0.3952 -
1.4051 770 0.3863 -
1.4234 780 0.4355 -
1.4416 790 0.3625 -
1.4599 800 0.3918 -
1.4781 810 0.3879 -
1.4964 820 0.3038 -
1.5146 830 0.3868 -
1.5328 840 0.377 -
1.5511 850 0.3683 -
1.5693 860 0.3482 -
1.5876 870 0.4054 -
1.6058 880 0.4027 -
1.6241 890 0.3721 -
1.6423 900 0.3971 -
1.6606 910 0.3793 -
1.6788 920 0.3451 -
1.6971 930 0.3565 -
1.7153 940 0.3434 -
1.7336 950 0.4017 -
1.7518 960 0.3659 -
1.7701 970 0.3265 -
1.7883 980 0.3365 -
1.8066 990 0.3345 -
1.8248 1000 0.3261 -
1.8431 1010 0.3386 -
1.8613 1020 0.3973 -
1.8796 1030 0.348 -
1.8978 1040 0.2824 -
1.9161 1050 0.3496 -
1.9343 1060 0.3444 -
1.9526 1070 0.3711 -
1.9708 1080 0.3616 -
1.9891 1090 0.3452 -
2.0 1096 - 0.7069
2.0073 1100 0.339 -
2.0255 1110 0.3436 -
2.0438 1120 0.3454 -
2.0620 1130 0.3484 -
2.0803 1140 0.3418 -
2.0985 1150 0.3133 -
2.1168 1160 0.348 -
2.1350 1170 0.3503 -
2.1533 1180 0.3275 -
2.1715 1190 0.3282 -
2.1898 1200 0.3077 -
2.2080 1210 0.2841 -
2.2263 1220 0.2867 -
2.2445 1230 0.3091 -
2.2628 1240 0.3098 -
2.2810 1250 0.2993 -
2.2993 1260 0.2952 -
2.3175 1270 0.2645 -
2.3358 1280 0.3209 -
2.3540 1290 0.3246 -
2.3723 1300 0.2588 -
2.3905 1310 0.3327 -
2.4088 1320 0.3554 -
2.4270 1330 0.3316 -
2.4453 1340 0.3147 -
2.4635 1350 0.2909 -
2.4818 1360 0.3045 -
2.5 1370 0.2982 -
2.5182 1380 0.2736 -
2.5365 1390 0.3375 -
2.5547 1400 0.2645 -
2.5730 1410 0.2892 -
2.5912 1420 0.2932 -
2.6095 1430 0.3185 -
2.6277 1440 0.3183 -
2.6460 1450 0.3381 -
2.6642 1460 0.3318 -
2.6825 1470 0.3369 -
2.7007 1480 0.2969 -
2.7190 1490 0.316 -
2.7372 1500 0.281 -
2.7555 1510 0.2762 -
2.7737 1520 0.2812 -
2.7920 1530 0.2834 -
2.8102 1540 0.2606 -
2.8285 1550 0.2857 -
2.8467 1560 0.3149 -
2.8650 1570 0.2509 -
2.8832 1580 0.2661 -
2.9015 1590 0.3336 -
2.9197 1600 0.3222 -
2.9380 1610 0.311 -
2.9562 1620 0.3183 -
2.9745 1630 0.2915 -
2.9927 1640 0.2644 -
3.0 1644 - 0.7306
3.0109 1650 0.2944 -
3.0292 1660 0.2437 -
3.0474 1670 0.2892 -
3.0657 1680 0.285 -
3.0839 1690 0.3 -
3.1022 1700 0.2707 -
3.1204 1710 0.2747 -
3.1387 1720 0.2614 -
3.1569 1730 0.2997 -
3.1752 1740 0.251 -
3.1934 1750 0.275 -
3.2117 1760 0.2751 -
3.2299 1770 0.3099 -
3.2482 1780 0.2231 -
3.2664 1790 0.3004 -
3.2847 1800 0.292 -
3.3029 1810 0.275 -
3.3212 1820 0.2749 -
3.3394 1830 0.2161 -
3.3577 1840 0.3056 -
3.3759 1850 0.3093 -
3.3942 1860 0.2998 -
3.4124 1870 0.3356 -
3.4307 1880 0.2491 -
3.4489 1890 0.2491 -
3.4672 1900 0.2789 -
3.4854 1910 0.2618 -
3.5036 1920 0.2628 -
3.5219 1930 0.2626 -
3.5401 1940 0.2514 -
3.5584 1950 0.2881 -
3.5766 1960 0.2365 -
3.5949 1970 0.2324 -
3.6131 1980 0.2639 -
3.6314 1990 0.2479 -
3.6496 2000 0.2775 -
3.6679 2010 0.2589 -
3.6861 2020 0.2227 -
3.7044 2030 0.2663 -
3.7226 2040 0.2693 -
3.7409 2050 0.2305 -
3.7591 2060 0.2807 -
3.7774 2070 0.2988 -
3.7956 2080 0.2707 -
3.8139 2090 0.2753 -
3.8321 2100 0.2637 -
3.8504 2110 0.2626 -
3.8686 2120 0.2317 -
3.8869 2130 0.2381 -
3.9051 2140 0.2818 -
3.9234 2150 0.2599 -
3.9416 2160 0.2644 -
3.9599 2170 0.2748 -
3.9781 2180 0.2229 -
3.9964 2190 0.2327 -
4.0 2192 - 0.7439
4.0146 2200 0.2227 -
4.0328 2210 0.2302 -
4.0511 2220 0.2694 -
4.0693 2230 0.2764 -
4.0876 2240 0.2209 -
4.1058 2250 0.2713 -
4.1241 2260 0.2131 -
4.1423 2270 0.2429 -
4.1606 2280 0.2302 -
4.1788 2290 0.279 -
4.1971 2300 0.2463 -
4.2153 2310 0.2573 -
4.2336 2320 0.2592 -
4.2518 2330 0.2764 -
4.2701 2340 0.2381 -
4.2883 2350 0.2342 -
4.3066 2360 0.2371 -
4.3248 2370 0.2681 -
4.3431 2380 0.2922 -
4.3613 2390 0.2619 -
4.3796 2400 0.2302 -
4.3978 2410 0.2186 -
4.4161 2420 0.2186 -
4.4343 2430 0.2756 -
4.4526 2440 0.2445 -
4.4708 2450 0.222 -
4.4891 2460 0.2569 -
4.5073 2470 0.2477 -
4.5255 2480 0.2513 -
4.5438 2490 0.2309 -
4.5620 2500 0.2207 -
4.5803 2510 0.2854 -
4.5985 2520 0.2285 -
4.6168 2530 0.2439 -
4.6350 2540 0.2199 -
4.6533 2550 0.2122 -
4.6715 2560 0.2386 -
4.6898 2570 0.209 -
4.7080 2580 0.2438 -
4.7263 2590 0.2626 -
4.7445 2600 0.2455 -
4.7628 2610 0.1926 -
4.7810 2620 0.2067 -
4.7993 2630 0.2387 -
4.8175 2640 0.2027 -
4.8358 2650 0.2137 -
4.8540 2660 0.241 -
4.8723 2670 0.242 -
4.8905 2680 0.2413 -
4.9088 2690 0.2629 -
4.9270 2700 0.1706 -
4.9453 2710 0.2472 -
4.9635 2720 0.2856 -
4.9818 2730 0.2516 -
5.0 2740 0.1835 0.7529
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 4.1.0
  • Transformers: 4.44.2
  • PyTorch: 2.7.0+cu128
  • Accelerate: 1.7.0
  • Datasets: 3.6.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
3
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for thang1943/phobert-base-v2-mnr-loss

Finetuned
(306)
this model

Dataset used to train thang1943/phobert-base-v2-mnr-loss

Papers for thang1943/phobert-base-v2-mnr-loss

Evaluation results