SentenceTransformer based on intfloat/multilingual-e5-small

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-small. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-small
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 384 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'query: Quy định về xử lý dữ liệu cá nhân của trẻ em áp dụng từ ngày nào?',
    'passage: nghị định này có hiệu lực thi hành kể từ ngày ký ban hành các quy định tại khoản 2 khoản 3 khoản 4 điều 1 nghị định này có hiệu lực thi hành kể từ ngày 01 tháng 01 năm 2021',
    "['passage: xử lý dữ liệu cá nhân của trẻ em 2 việc xử lý dữ liệu cá nhân của trẻ em phải có sự đồng ý của trẻ em trong trường hợp trẻ em từ đủ 7 tuổi trở lên và có sự đồng ý của cha mẹ hoặc người giám hộ theo quy định trừ trường hợp quy định tại điều 17 nghị định này bên kiểm soát dữ liệu cá nhân bên xử lý dữ liệu cá nhân bên kiểm soát và xử lý dữ liệu cá nhân bên thứ ba phải xác minh tuổi của trẻ em trước khi xử lý dữ liệu cá nhân của trẻ em'\n 'passage: khoản 1 phạt tiền từ 200 000 đồng đến 500 000 đồng đối với một trong các hành vi sau đây: a người say rượu vào vũ trường nơi khiêu vũ công cộng phòng hát karaoke; b cho thuê cho mượn địa điểm làm vũ trường nơi khiêu vũ công cộng hoạt động karaoke mà không giám sát để xảy ra hoạt động mại dâm nghiện hút ma tuý đánh bạc; c sử dụng vũ nữ mà không đăng ký danh sách với cơ quan công an có thẩm quyền'\n 'passage: nghị định này quy định thi hành bộ luật dân sự về bảo đảm thực hiện nghĩa vụ bao gồm tài sản bảo đảm; xác lập thực hiện biện pháp bảo đảm thực hiện nghĩa vụ (sau đây gọi là biện pháp bảo đảm) và xử lý tài sản bảo đảm'\n 'passage: khoản 3 quá thời hạn 07 ngày kể từ thời điểm ấn định trong thỏa thuận bàn giao người đang chấp hành án phạt tù mà nước yêu cầu chuyển giao không tiếp nhận chuyển giao mà không có lý do chính đáng thì cơ quan đầu mối của bộ công an về công tác chuyển giao người đang chấp hành án phạt tù lập biên bản về việc này và thông báo ngay cho tòa án đã ra quyết định chuyển giao biết để xem xét hủy quyết định thi hành quyết định chuyển giao đồng thời thông báo cho nước yêu cầu chuyển giao biết'\n 'passage: các đơn vị bộ phận trong ban chỉ đạo 389 bộ tài chính 1 đơn vị thường trực ban chỉ đạo 389 bộ tài chính là tổng cục hải quan 2 bộ phận tham mưu giúp việc cho các phó trưởng ban trong việc triển khai công tác của ban chỉ đạo 389 bộ tài chính và ban chỉ đạo 389 quốc gia bao gồm: a) tổng cục thuế: thanh tra; b) tổng cục hải quan: công chức tổng cục hải quan được cử biệt phái sang văn phòng thường trực ban chỉ đạo 389 quốc gia 3 các đơn vị có lãnh đạo là thành viên ban chỉ đạo 389 bộ tài chính có trách nhiệm phân công cán bộ giúp việc cho lãnh đạo đơn vị mình'\n 'passage: hủy quyết định hoãn chấp hành án phạt tù 1 tòa án xem xét hủy quyết định hoãn chấp hành án phạt tù trong các trường hợp sau: a) người được hoãn chấp hành án phạt tù không cam kết chấp hành nghiêm chỉnh pháp luật hoặc thực hiện hành vi phạm tội mới bỏ trốn hoặc vi phạm pháp luật gây ảnh hưởng xấu đến an ninh trật tự an toàn xã hội; b) người được hoãn chấp hành án phạt tù có kết quả giám định xác định họ mắc bệnh tâm thần bệnh khác làm mất khả năng nhận thức hoặc khả năng điều khiển hành vi; c) người được hoãn chấp hành án phạt tù có kết quả giám định xác định họ đã hồi phục sức khỏe và đã bị đưa đến nơi chấp hành án phạt tù; d) người được hoãn chấp hành án phạt tù có đơn tự nguyện xin chấp hành án phạt tù']",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 100,000 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 10 tokens
    • mean: 27.45 tokens
    • max: 59 tokens
    • min: 5 tokens
    • mean: 245.47 tokens
    • max: 512 tokens
    • min: 512 tokens
    • mean: 512.0 tokens
    • max: 512 tokens
  • Samples:
    anchor positive negative
    query: Quân nhân dự bị được xếp trong đơn vị dự bị động viên thì phải có trách nhiệm như thế nào? passage: "điều 4 trách nhiệm của quân nhân dự bị được xếp trong đơn vị dự bị động viên 1 quân nhân dự bị được xếp trong đơn vị dự bị động viên có trách nhiệm sau đây: a) kiểm tra sức khỏe; b) thực hiện lệnh gọi huấn luyện diễn tập kiểm tra sẵn sàng động viên sẵn sàng chiến đấu; c) thực hiện chế độ sinh hoạt đơn vị dự bị động viên và nhiệm vụ do người chỉ huy giao; d) thực hiện lệnh huy động để bổ sung cho lực lượng thường trực của quân đội nhân dân 2 quân nhân dự bị giữ chức vụ chỉ huy đơn vị dự bị động viên có trách nhiệm sau đây: a) thực hiện quy định tại khoản 1 điều này; b) nắm tình hình số lượng chất lượng đơn vị; duy trì đơn vị sinh hoạt theo chế độ và thực hiện chế độ báo cáo; c) quản lý chỉ huy đơn vị khi huấn luyện diễn tập kiểm tra sẵn sàng động viên sẵn sàng chiến đấu; d) quản lý chỉ huy đơn vị để bổ sung cho lực lượng thường trực của quân đội nhân dân " ['passage: thông tư này quy định hình thức nội dung thời gian sinh hoạt của quân nhân dự bị đã xếp vào đơn vị dự bị động viên'
    'passage: “điều 16 thời hạn thanh tra của đoàn thanh tra chuyên ngành 1 thời hạn thực hiện một cuộc thanh tra chuyên ngành được quy định như sau: a) cuộc thanh tra chuyên ngành do thanh tra bộ tổng cục cục thuộc bộ tiến hành không quá 45 ngày; trường hợp phức tạp có thể kéo dài hơn nhưng không quá 70 ngày; b) cuộc thanh tra chuyên ngành do thanh tra sở chi cục thuộc sở tiến hành không quá 30 ngày; trường hợp phức tạp có thể kéo dài hơn nhưng không quá 45 ngày 2 thời hạn của cuộc thanh tra được tính từ ngày công bố quyết định thanh tra đến ngày kết thúc việc thanh tra tại nơi được thanh tra 3 việc kéo dài thời hạn thanh tra do người ra quyết định thanh tra chuyên ngành quyết định ”'
    'passage: chương i quy định chung điều 1 phạm vi điều chỉnh thông tư này quy định chi tiết khoản 2 điều 39 khoản 2 điều 75 luật khoáng sản; khoản 5 điều 7 khoản 3 điều 35 khoản 2 đ...
    query: Quân nhân chuyên nghiệp dự bị và hạ sĩ quan, binh sĩ dự bị sắp xếp vào đơn vị dự bị động viên là bao nhiêu tuổi? passage: "điều 17 độ tuổi quân nhân dự bị sắp xếp vào đơn vị dự bị động viên trong thời bình 1 độ tuổi sĩ quan dự bị sắp xếp vào đơn vị dự bị động viên thực hiện theo quy định của luật sĩ quan quân đội nhân dân việt nam 2 độ tuổi quân nhân chuyên nghiệp dự bị và hạ sĩ quan binh sĩ dự bị sắp xếp vào đơn vị dự bị động viên được quy định như sau: a) nam quân nhân chuyên nghiệp dự bị không quá 40 tuổi; hạ sĩ quan binh sĩ dự bị không quá 35 tuổi được sắp xếp vào đơn vị chiến đấu; b) nam quân nhân chuyên nghiệp dự bị và hạ sĩ quan binh sĩ dự bị không quá 45 tuổi; nữ quân nhân dự bị không quá 40 tuổi được sắp xếp vào đơn vị bảo đảm chiến đấu " ['passage: nhóm tuổi phục vụ của hạ sĩ quan binh sĩ dự bị 1 tuổi phục vụ của hạ sĩ quan binh sĩ dự bị được chia thành hai nhóm như sau: 1 nhóm a: công dân nam đến hết 35 tuổi công dân nữ đến hết 30 tuổi; 2 nhóm b: công dân nam từ 36 tuổi đến hết 45 tuổi công dân nữ từ 31 tuổi đến hết 40 tuổi'
    'passage: "điều 57 mức đóng nguồn hình thành và sử dụng quỹ bảo hiểm thất nghiệp 1 mức đóng và trách nhiệm đóng bảo hiểm thất nghiệp được quy định như sau: a) người lao động đóng bằng 1% tiền lương tháng; b) người sử dụng lao động đóng bằng 1% quỹ tiền lương tháng của những người lao động đang tham gia bảo hiểm thất nghiệp; c) nhà nước hỗ trợ tối đa 1% quỹ tiền lương tháng đóng bảo hiểm thất nghiệp của những người lao động đang tham gia bảo hiểm thất nghiệp và do ngân sách trung ương bảo đảm 2 nguồn hình thành quỹ bảo hiểm thất nghiệp bao gồm: a) các khoản đóng và hỗ trợ theo quy định tại khoản 1 điều này; b) tiền sinh lời của hoạt động đầu tư từ quỹ; c) nguồn thu hợp pháp khác 3 quỹ bảo hiểm thấ...
    query: Văn phòng Bộ Văn hóa Thể thao và Du lịch có con dấu và tài khoản riêng hay không? passage: vị trí và chức năng văn phòng bộ là tổ chức hành chính thuộc bộ văn hóa thể thao và du lịch có chức năng tham mưu tổng hợp điều phối giúp bộ trưởng tổ chức các hoạt động chung của bộ; theo dõi đôn đốc các tổ chức đơn vị thuộc bộ thực hiện chương trình kế hoạch công tác của bộ; kiểm soát thủ tục hành chính cải cách hành chính tổ chức triển khai thực hiện cơ chế một cửa một cửa liên thông trong giải quyết thủ tục hành chính theo quy định của pháp luật; bảo đảm điều kiện vật chất kỹ thuật phương tiện làm việc cho hoạt động của lãnh đạo bộ và các cơ quan tổ chức đơn vị sử dụng ngân sách qua văn phòng bộ văn phòng bộ có con dấu riêng và có tài khoản để giao dịch theo quy định của pháp luật ['passage: khoản 3 sở văn hóa thể thao và du lịch sở văn hóa và thể thao sở du lịch có tư cách pháp nhân có con dấu và tài khoản riêng; chịu sự chỉ đạo quản lý về tổ chức biên chế và công tác của ủy ban nhân dân cấp tỉnh đồng thời chịu sự chỉ đạo kiểm tra về nghiệp vụ của bộ văn hóa thể thao và du lịch'
    'passage: điều 8 ủy ban quốc phòng và an ninh xử lý các đơn thư có nội dung sau: 1 kiến nghị khiếu nại về việc thực hiện chế độ chính sách trong quân đội và công an; về nhà đất do bộ quốc phòng và bộ công an quản lý và các kiến nghị khiếu nại khác thuộc lĩnh vực ủy ban phụ trách; 2 tố cáo cơ quan tổ chức cá nhân thuộc quân đội công an vi phạm pháp luật trừ đơn thư quy định tại khoản 4 điều 5 của nghị quyết này'
    'passage: điều 33 điều chỉnh giấy phép hành nghề 1 điều chỉnh giấy phép hành nghề đối với các chức danh bác sỹ y sỹ điều dưỡng hộ sinh kỹ thuật y dinh dưỡng lâm sàng cấp cứu viên ngoại viện và tâm lý lâm sàng khi bổ sung thay đổi phạm vi hành nghề khám bệnh chữa bệnh 2 điều kiệ...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 32
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.032 100 1.1356
0.064 200 0.1415
0.096 300 0.1214
0.128 400 0.1223
0.16 500 0.1217
0.192 600 0.0905
0.224 700 0.1161
0.256 800 0.1062
0.288 900 0.0963
0.32 1000 0.0999
0.352 1100 0.1094
0.384 1200 0.0947
0.416 1300 0.0836
0.448 1400 0.0873
0.48 1500 0.0845
0.512 1600 0.0917
0.544 1700 0.0777
0.576 1800 0.0775
0.608 1900 0.0827
0.64 2000 0.0746
0.672 2100 0.0722
0.704 2200 0.0596
0.736 2300 0.0693
0.768 2400 0.0654
0.8 2500 0.064
0.832 2600 0.0795
0.864 2700 0.0656
0.896 2800 0.061
0.928 2900 0.06
0.96 3000 0.0551
0.992 3100 0.0545

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.52.4
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.8.1
  • Datasets: 3.6.0
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
1
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Savoxism/multilingual-e5-small-finetuned-stage1

Finetuned
(130)
this model
Finetunes
1 model

Papers for Savoxism/multilingual-e5-small-finetuned-stage1