SentenceTransformer based on Savoxism/multilingual-e5-small-finetuned-stage1

This is a sentence-transformers model finetuned from Savoxism/multilingual-e5-small-finetuned-stage1. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'query: Thủ tục bổ sung thông tin Giấy xác nhận đủ điều kiện làm tổng đại lý kinh doanh xăng dầu tại Sở Công thương được thực hiện theo trình tự nào?',
    'passage: thẩm quyền hồ sơ trình tự cấp giấy xác nhận đủ điều kiện làm thương nhân phân phối xăng dầu 3 trình tự cấp giấy xác nhận đủ điều kiện làm thương nhân phân phối xăng dầu a) thương nhân gửi một (01) bộ hồ sơ về bộ công thương b) trường hợp chưa đủ hồ sơ hợp lệ trong vòng bảy (07) ngày làm việc kể từ ngày tiếp nhận hồ sơ của thương nhân bộ công thương có văn bản yêu cầu thương nhân bổ sung c) trong thời hạn ba mươi (30) ngày làm việc kể từ khi nhận được hồ sơ hợp lệ bộ công thương có trách nhiệm xem xét thẩm định và cấp giấy xác nhận đủ điều kiện làm thương nhân phân phối xăng dầu theo mẫu số 6 tại phụ lục kèm theo nghị định này cho thương nhân trường hợp từ chối cấp giấy xác nhận do không đủ điều kiện bộ công thương phải trả lời bằng văn bản và nêu rõ lý do 4 giấy xác nhận đủ điều kiện làm thương nhân phân phối xăng dầu có thời hạn hiệu lực là năm (05) năm kể từ ngày cấp mới 5 thương nhân được cấp giấy xác nhận đủ điều kiện làm thương nhân phân phối xăng dầu phải nộp phí và lệ phí theo quy định của bộ tài chính 6 bộ công thương có thẩm quyền thu hồi giấy xác nhận đủ điều kiện làm thương nhân phân phối xăng dầu giấy xác nhận đủ điều kiện làm thương nhân phân phối xăng dầu bị thu hồi trong các trường hợp: thương nhân không tiếp tục làm thương nhân phân phối xăng dầu; thương nhân không hoạt động kinh doanh xăng dầu trong thời gian một (01) tháng trở lên; thương nhân bị phá sản theo quy định của pháp luật; thương nhân không đáp ứng một trong các điều kiện làm thương nhân phân phối xăng dầu theo quy định tại điều 13 nghị định này; thương nhân vi phạm nhiều lần hoặc tái phạm quy định về bảo đảm số lượng chất lượng xăng dầu lưu thông trên thị trường vi phạm quy định về tăng giảm giá bán xăng dầu tại nghị định này và các trường hợp khác theo quy định của pháp luật',
    'passage: quyền hạn của liên đoàn 1 tuyên truyền tôn chỉ mục đích hoạt động của liên đoàn 2 đại diện cho hội viên trong mối quan hệ đối nội đối ngoại có liên quan đến chức năng nhiệm vụ của liên đoàn theo quy định của pháp luật 3 tổ chức phối hợp hoạt động giữa các hội viên vì lợi ích chung của liên đoàn; hòa giải tranh chấp trong nội bộ liên đoàn 4 tham gia tổ chức đào tạo bồi dưỡng huấn luyện chuyên môn cho huấn luyện viên trọng tài cán bộ quản lý và được cấp chứng chỉ theo quy định của pháp luật quản lý về mặt chuyên môn đối với các đối tượng này trong quá trình tham gia các hoạt động do liên đoàn tổ chức 5 tư vấn phản biện các vấn đề thuộc phạm vi hoạt động của liên đoàn theo đề nghị của cơ quan quản lý nhà nước phù hợp với quy định của pháp luật 6 tham gia ý kiến vào các văn bản quy phạm pháp luật có liên quan đến nội dung hoạt động của liên đoàn theo quy định của pháp luật kiến nghị với cơ quan nhà nước có thẩm quyền đối với các vấn đề liên quan tới sự phát triển của liên đoàn và lĩnh vực liên đoàn hoạt động 7 phối hợp với các cơ quan tổ chức có liên quan để thực hiện nhiệm vụ của liên đoàn đúng hướng và có hiệu quả 8 được gây quỹ liên đoàn trên cơ sở hội phí của hội viên và các nguồn thu từ hoạt động kinh doanh dịch vụ theo quy định của pháp luật; được nhà nước hỗ trợ và cấp kinh phí cho các hoạt động gắn với nhiệm vụ của nhà nước giao theo quy định của pháp luật 9 được nhận các nguồn tài trợ ủng hộ hợp pháp của các tổ chức cá nhân trong và ngoài nước; quản lý và sử dụng các nguồn tài trợ ủng hộ này theo quy định của pháp luật 10 được gia nhập làm hội viên của các liên đoàn hiệp hội quốc tế và khu vực tham gia ký kết và thực hiện thỏa thuận quốc tế theo quy định của pháp luật',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 170,319 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string list
    details
    • min: 10 tokens
    • mean: 27.45 tokens
    • max: 59 tokens
    • min: 5 tokens
    • mean: 245.47 tokens
    • max: 512 tokens
    • size: 6 elements
  • Samples:
    anchor positive negative
    query: Quân nhân dự bị được xếp trong đơn vị dự bị động viên thì phải có trách nhiệm như thế nào? passage: "điều 4 trách nhiệm của quân nhân dự bị được xếp trong đơn vị dự bị động viên 1 quân nhân dự bị được xếp trong đơn vị dự bị động viên có trách nhiệm sau đây: a) kiểm tra sức khỏe; b) thực hiện lệnh gọi huấn luyện diễn tập kiểm tra sẵn sàng động viên sẵn sàng chiến đấu; c) thực hiện chế độ sinh hoạt đơn vị dự bị động viên và nhiệm vụ do người chỉ huy giao; d) thực hiện lệnh huy động để bổ sung cho lực lượng thường trực của quân đội nhân dân 2 quân nhân dự bị giữ chức vụ chỉ huy đơn vị dự bị động viên có trách nhiệm sau đây: a) thực hiện quy định tại khoản 1 điều này; b) nắm tình hình số lượng chất lượng đơn vị; duy trì đơn vị sinh hoạt theo chế độ và thực hiện chế độ báo cáo; c) quản lý chỉ huy đơn vị khi huấn luyện diễn tập kiểm tra sẵn sàng động viên sẵn sàng chiến đấu; d) quản lý chỉ huy đơn vị để bổ sung cho lực lượng thường trực của quân đội nhân dân " ['passage: "điều 2 giải thích từ ngữ trong luật này các từ ngữ dưới đây được hiểu như sau: 1 lực lượng dự bị động viên bao gồm quân nhân dự bị và phương tiện kỹ thuật dự bị được đăng ký quản lý và sắp xếp vào đơn vị dự bị động viên để sẵn sàng bổ sung cho lực lượng thường trực của quân đội nhân dân 2 quân nhân dự bị bao gồm sĩ quan dự bị quân nhân chuyên nghiệp dự bị và hạ sĩ quan binh sĩ dự bị được đăng ký theo quy định của luật sĩ quan quân đội nhân dân việt nam luật quân nhân chuyên nghiệp công nhân và viên chức quốc phòng luật nghĩa vụ quân sự "', 'passage: “điều 16 thời hạn thanh tra của đoàn thanh tra chuyên ngành 1 thời hạn thực hiện một cuộc thanh tra chuyên ngành được quy định như sau: a) cuộc thanh tra chuyên ngành do thanh tra bộ tổng cục cục thuộc bộ tiến hành không quá 45 ngày; trường hợp phức tạp có thể kéo dài hơn nhưng không quá 70 ngày; b) cuộc thanh tra chuyên ngành do thanh tra sở chi cục thuộc sở tiến hành không quá 30 ngày; trường hợp phức tạp có thể kéo dài hơn nh...
    query: Quân nhân chuyên nghiệp dự bị và hạ sĩ quan, binh sĩ dự bị sắp xếp vào đơn vị dự bị động viên là bao nhiêu tuổi? passage: "điều 17 độ tuổi quân nhân dự bị sắp xếp vào đơn vị dự bị động viên trong thời bình 1 độ tuổi sĩ quan dự bị sắp xếp vào đơn vị dự bị động viên thực hiện theo quy định của luật sĩ quan quân đội nhân dân việt nam 2 độ tuổi quân nhân chuyên nghiệp dự bị và hạ sĩ quan binh sĩ dự bị sắp xếp vào đơn vị dự bị động viên được quy định như sau: a) nam quân nhân chuyên nghiệp dự bị không quá 40 tuổi; hạ sĩ quan binh sĩ dự bị không quá 35 tuổi được sắp xếp vào đơn vị chiến đấu; b) nam quân nhân chuyên nghiệp dự bị và hạ sĩ quan binh sĩ dự bị không quá 45 tuổi; nữ quân nhân dự bị không quá 40 tuổi được sắp xếp vào đơn vị bảo đảm chiến đấu " ['passage: "điều 16 sắp xếp quân nhân dự bị vào đơn vị dự bị động viên 1 sắp xếp quân nhân dự bị đủ tiêu chuẩn về sức khỏe có chuyên nghiệp quân sự đúng với chức danh biên chế; gắn địa bàn tuyển quân với địa bàn động viên; trường hợp thiếu thì sắp xếp quân nhân dự bị có chuyên nghiệp quân sự gần đúng với chức danh biên chế 2 sắp xếp quân nhân chuyên nghiệp dự bị hạ sĩ quan binh sĩ dự bị được thực hiện theo thứ tự quân nhân chuyên nghiệp dự bị hạ sĩ quan binh sĩ dự bị hạng một trước trường hợp thiếu thì sắp xếp binh sĩ dự bị hạng hai 3 sắp xếp quân nhân dự bị vào đơn vị dự bị động viên thuộc đơn vị bộ đội chủ lực trước đơn vị bộ đội địa phương sau "', 'passage: "điều 57 mức đóng nguồn hình thành và sử dụng quỹ bảo hiểm thất nghiệp 1 mức đóng và trách nhiệm đóng bảo hiểm thất nghiệp được quy định như sau: a) người lao động đóng bằng 1% tiền lương tháng; b) người sử dụng lao động đóng bằng 1% quỹ tiền lương tháng của những người lao động đang tham gia bảo hiểm thất nghiệp; c) nhà nước hỗ ...
    query: Văn phòng Bộ Văn hóa Thể thao và Du lịch có con dấu và tài khoản riêng hay không? passage: vị trí và chức năng văn phòng bộ là tổ chức hành chính thuộc bộ văn hóa thể thao và du lịch có chức năng tham mưu tổng hợp điều phối giúp bộ trưởng tổ chức các hoạt động chung của bộ; theo dõi đôn đốc các tổ chức đơn vị thuộc bộ thực hiện chương trình kế hoạch công tác của bộ; kiểm soát thủ tục hành chính cải cách hành chính tổ chức triển khai thực hiện cơ chế một cửa một cửa liên thông trong giải quyết thủ tục hành chính theo quy định của pháp luật; bảo đảm điều kiện vật chất kỹ thuật phương tiện làm việc cho hoạt động của lãnh đạo bộ và các cơ quan tổ chức đơn vị sử dụng ngân sách qua văn phòng bộ văn phòng bộ có con dấu riêng và có tài khoản để giao dịch theo quy định của pháp luật ['passage: vị trí và chức năng văn phòng bộ có con dấu và tài khoản riêng để giao dịch theo quy định của pháp luật', 'passage: điều 9 ủy ban văn hóa giáo dục thanh niên thiếu niên và nhi đồng xử lý các đơn thư có nội dung sau: 1 kiến nghị khiếu nại về văn hóa thông tin giáo dục đào tạo thể thao báo chí phát thanh truyền hình quảng cáo thực hiện chính sách đối với thanh niên thiếu niên và nhi đồng và các kiến nghị khiếu nại khác thuộc lĩnh vực ủy ban phụ trách; 2 tố cáo cơ quan tổ chức cá nhân vi phạm pháp luật trong lĩnh vực quy định tại khoản 1 điều này', 'passage: điều 36 nguyên tắc đăng ký hành nghề 1 người hành nghề được đăng ký hành nghề tại nhiều cơ sở khám bệnh chữa bệnh nhưng không được trùng thời gian khám bệnh chữa bệnh giữa các cơ sở khám bệnh chữa bệnh 2 người hành nghề được đăng ký làm việc tại một hoặc nhiều vị trí chuyên môn sau đây trong cùng một cơ sở khám bệnh chữa bệnh nhưng phải bảo đảm chất lượng công việc tại các vị trí được phân công: a) khám bệnh chữa bệnh theo ...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss
0.0094 100 0.4275
0.0188 200 0.1826
0.0282 300 0.089
0.0376 400 0.0564
0.0470 500 0.0427
0.0564 600 0.0308
0.0658 700 0.0377
0.0752 800 0.0348
0.0845 900 0.0481
0.0939 1000 0.0552
0.1033 1100 0.0505
0.1127 1200 0.0431
0.1221 1300 0.0497
0.1315 1400 0.0455
0.1409 1500 0.0529
0.1503 1600 0.055
0.1597 1700 0.0478
0.1691 1800 0.0472
0.1785 1900 0.0393
0.1879 2000 0.0422
0.1973 2100 0.0453
0.2067 2200 0.0403
0.2161 2300 0.0522
0.2255 2400 0.052
0.2349 2500 0.0492
0.2442 2600 0.0631
0.2536 2700 0.0494
0.2630 2800 0.0405
0.2724 2900 0.046
0.2818 3000 0.05
0.2912 3100 0.0469
0.3006 3200 0.0606
0.3100 3300 0.0442
0.3194 3400 0.0477
0.3288 3500 0.0432
0.3382 3600 0.0344
0.3476 3700 0.0425
0.3570 3800 0.0365
0.3664 3900 0.0303
0.3758 4000 0.0543
0.3852 4100 0.0379
0.3946 4200 0.0345
0.4039 4300 0.0565
0.4133 4400 0.032
0.4227 4500 0.0411
0.4321 4600 0.0305
0.4415 4700 0.0322
0.4509 4800 0.0272
0.4603 4900 0.0315
0.4697 5000 0.0272
0.4791 5100 0.0468
0.4885 5200 0.0401
0.4979 5300 0.0359
0.5073 5400 0.0292
0.5167 5500 0.051
0.5261 5600 0.0433
0.5355 5700 0.0273
0.5449 5800 0.034
0.5543 5900 0.029
0.5636 6000 0.029
0.5730 6100 0.0391
0.5824 6200 0.0277
0.5918 6300 0.0415
0.6012 6400 0.03
0.6106 6500 0.0415
0.6200 6600 0.0499
0.6294 6700 0.0411
0.6388 6800 0.04
0.6482 6900 0.0378
0.6576 7000 0.0355
0.6670 7100 0.0364
0.6764 7200 0.035
0.6858 7300 0.0243
0.6952 7400 0.0264
0.7046 7500 0.0391
0.7140 7600 0.0344
0.7233 7700 0.0338
0.7327 7800 0.0352
0.7421 7900 0.0238
0.7515 8000 0.0431
0.7609 8100 0.0243
0.7703 8200 0.0244
0.7797 8300 0.0335
0.7891 8400 0.0299
0.7985 8500 0.0281
0.8079 8600 0.0353
0.8173 8700 0.0312
0.8267 8800 0.0226
0.8361 8900 0.0247
0.8455 9000 0.0303
0.8549 9100 0.0236
0.8643 9200 0.0256
0.8736 9300 0.0205
0.8830 9400 0.0332
0.8924 9500 0.0226
0.9018 9600 0.0263
0.9112 9700 0.0346
0.9206 9800 0.0247
0.9300 9900 0.0322
0.9394 10000 0.0433
0.9488 10100 0.042
0.9582 10200 0.0283
0.9676 10300 0.0357
0.9770 10400 0.0327
0.9864 10500 0.0189
0.9958 10600 0.032

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.52.4
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.8.1
  • Datasets: 3.6.0
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
-
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Savoxism/multilingual-e5-small-finetuned-stage2

Papers for Savoxism/multilingual-e5-small-finetuned-stage2