bge-m3-legal

This is a sentence-transformers model finetuned from BAAI/bge-m3 on the json dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json
  • Language: vi
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("mxmm2123/bge_model")
# Run inference
sentences = [
    'Hồ sơ đề nghị chấp thuận hoạt động mua nợ của tổ chức tín dụng gồm gì?',
    'hồ sơ đề nghị chấp thuận hoạt động mua nợ của tổ chức tín dụng, chi nhánh ngân hàng nước ngoài 1. nguyên tắc lập hồ sơ: a) hồ sơ phải được lập bằng tiếng việt. các bản dịch từ tiếng nước ngoài ra tiếng việt phải có xác nhận của người đại diện hợp pháp của tổ chức tín dụng, chi nhánh ngân hàng nước ngoài; b) đơn đề nghị chấp thuận hoạt động mua nợ phải do người đại diện pháp của tổ chức tín dụng, chi nhánh ngân hàng nước ngoài ký. 2. hồ sơ đề nghị chấp thuận hoạt động mua nợ bao gồm: a) đơn đề nghị chấp thuận hoạt động mua nợ theo mẫu tại phụ lục số 01 đính kèm thông tư này. đối với ngân hàng 100% vốn nước ngoài, cam kết mua nợ là hoạt động mà chủ sở hữu, ngân hàng nước ngoài sở hữu 50% vốn điều lệ của ngân hàng 100% vốn nước ngoài đang được phép thực hiện tại nước nơi chủ sở hữu, ngân hàng nước ngoài đặt trụ sở chính. đối với chi nhánh ngân hàng nước ngoài, cam kết mua nợ là hoạt động ngân hàng mẹ được phép thực hiện tại nước nguyên xứ; b) nghị quyết của hội đồng quản trị (hội đồng thành viên) của tổ chức tín dụng thông qua việc đề nghị chấp thuận hoạt động mua nợ; văn bản và bản dịch của ngân hàng mẹ do người đại diện hợp pháp ký đồng ý đề nghị chấp thuận hoạt động mua nợ đối với chi nhánh ngân hàng nước ngoài.',
    'nhiệm vụ, quyền hạn của ủy ban nhân dân phường 1. thực hiện nhiệm vụ, quyền hạn của đơn vị dự toán ngân sách trực thuộc ủy ban nhân dân quận hoặc ủy ban nhân dân thành phố thuộc thành phố theo quy định của luật ngân sách nhà nước. 2. đề xuất chủ trương đầu tư chương trình, dự án đầu tư công sử dụng vốn ngân sách nhà nước với ủy ban nhân dân quận hoặc ủy ban nhân dân thành phố thuộc thành phố để trình cấp có thẩm quyền quyết định chủ trương đầu tư theo quy định của luật đầu tư công; tham gia ý kiến về chủ trương đầu tư dự án thuộc thẩm quyền quyết định của cơ quan, cá nhân có thẩm quyền mà luật đầu tư công quy định phải có sự tham gia ý kiến của hội đồng nhân dân cấp xã; tổ chức thực hiện chương trình, dự án đầu tư công theo phân cấp quản lý. 3. đề xuất, phối hợp với cơ quan có thẩm quyền thực hiện nhiệm vụ về quốc phòng, an ninh, biện pháp bảo đảm trật tự, an toàn xã hội, đấu tranh, phòng, chống tội phạm và các hành vi vi phạm pháp luật khác trên địa bàn theo phân cấp quản lý. 4. phối hợp với ủy ban mặt trận tổ quốc việt nam cùng cấp thành lập tổ bầu cử đại biểu quốc hội, tổ bầu cử đại biểu hội đồng nhân dân. 5. thực hiện nhiệm vụ, quyền hạn do cơ quan nhà nước cấp trên phân cấp, ủy quyền. 6. thực hiện nhiệm vụ về tổ chức và bảo đảm việc thi hành hiến pháp, pháp luật, các văn bản của cơ quan nhà nước cấp trên tại địa bàn phường. 7. ủy ban nhân dân phường không có thẩm quyền ban hành văn bản quy phạm pháp luật. 8. thực hiện nhiệm vụ, quyền hạn khác theo quy định của pháp luật mà không trái với quy định của nghị quyết này.văn bản quy phạm pháp luật văn bản quy phạm pháp luật là văn bản có chứa quy phạm pháp luật, được ban hành theo đúng thẩm quyền, hình thức, trình tự, thủ tục quy định trong luật này. văn bản có chứa quy phạm pháp luật nhưng được ban hành không đúng thẩm quyền, hình thức, trình tự, thủ tục quy định trong luật này thì không phải là văn bản quy phạm pháp luật.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 107,892 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 8 tokens
    • mean: 24.28 tokens
    • max: 47 tokens
    • min: 22 tokens
    • mean: 274.53 tokens
    • max: 1213 tokens
  • Samples:
    anchor positive
    Những khoản chi từ thiện, tài trợ nào sẽ không được trừ khi xác định thu nhập chịu thuế thu nhập doanh nghiệp? “điều 6. các khoản chi được trừ và không được trừ khi xác định thu nhập chịu thuế … 2. các khoản chi không được trừ khi xác định thu nhập chịu thuế bao gồm: … 2.24. chi tài trợ cho việc khắc phục hậu quả thiên tai không đúng đối tượng quy định tại tiết a điểm này hoặc không có hồ sơ xác định khoản tài trợ nêu tại tiết b dưới đây: a) tài trợ cho khắc phục hậu quả thiên tai gồm: tài trợ bằng tiền hoặc hiện vật để khắc phục hậu quả thiên tai trực tiếp cho tổ chức được thành lập và hoạt động theo quy định của pháp luật; cá nhân bị thiệt hại do thiên tai thông qua một cơ quan, tổ chức có chức năng huy động tài trợ theo quy định của pháp luật. … 2.25. chi tài trợ làm nhà cho người nghèo không đúng đối tượng quy định tại tiết a điểm này; chi tài trợ làm nhà tình nghĩa, làm nhà cho người nghèo, làm nhà đại đoàn kết theo quy định của pháp luật không có hồ sơ xác định khoản tài trợ nêu tại tiết b dưới đây: a) đối với chi tài trợ làm nhà cho người nghèo thì đối tượng nhận tài trợ là hộ nghèo theo...
    Ai là người chịu trách nhiệm đối với việc giao đất cho cá nhân để sử dụng làm đất nghĩa trang? người chịu trách nhiệm trước nhà nước đối với việc sử dụng đất 1. người đứng đầu của tổ chức, tổ chức nước ngoài có chức năng ngoại giao, doanh nghiệp có vốn đầu tư nước ngoài đối với việc sử dụng đất của tổ chức mình. 2. chủ tịch ủy ban nhân dân xã, phường, thị trấn đối với việc sử dụng đất nông nghiệp vào mục đích công ích; đất phi nông nghiệp đã giao cho ủy ban nhân dân xã, phường, thị trấn (sau đây gọi chung là ủy ban nhân dân cấp xã) để sử dụng vào mục đích xây dựng trụ sở ủy ban nhân dân, các công trình công cộng phục vụ hoạt động văn hóa, giáo dục, y tế, thể dục thể thao, vui chơi, giải trí, chợ, nghĩa trang, nghĩa địa và công trình công cộng khác của địa phương. 3. người đại diện cho cộng đồng dân cư là trưởng thôn, làng, ấp, bản, buôn, phum, sóc, tổ dân phố hoặc người được cộng đồng dân cư thỏa thuận cử ra đối với việc sử dụng đất đã giao, công nhận cho cộng đồng dân cư. 4. người đứng đầu cơ sở tôn giáo đối với việc sử dụng đất đã giao cho cơ sở tôn giáo. 5. chủ hộ gia đình đố...
    Có được xây nhà trên đất chưa lên thổ cư không? phân loại đất 1. nhóm đất nông nghiệp bao gồm các loại đất sau đây: a) đất trồng cây hàng năm gồm đất trồng lúa và đất trồng cây hàng năm khác; b) đất trồng cây lâu năm; c) đất rừng sản xuất; d) đất rừng phòng hộ; đ) đất rừng đặc dụng; e) đất nuôi trồng thủy sản; g) đất làm muối; h) đất nông nghiệp khác gồm đất sử dụng để xây dựng nhà kính và các loại nhà khác phục vụ mục đích trồng trọt, kể cả các hình thức trồng trọt không trực tiếp trên đất; xây dựng chuồng trại chăn nuôi gia súc, gia cầm và các loại động vật khác được pháp luật cho phép; đất trồng trọt, chăn nuôi, nuôi trồng thủy sản cho mục đích học tập, nghiên cứu thí nghiệm; đất ươm tạo cây giống, con giống và đất trồng hoa, cây cảnh; 2. nhóm đất phi nông nghiệp bao gồm các loại đất sau đây: a) đất ở gồm đất ở tại nông thôn, đất ở tại đô thị; b) đất xây dựng trụ sở cơ quan; c) đất sử dụng vào mục đích quốc phòng, an ninh; d) đất xây dựng công trình sự nghiệp gồm đất xây dựng trụ sở của tổ chức sự nghiệp; đất xây dựng cơ sở văn h...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            1024,
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 4
  • learning_rate: 2e-05
  • max_steps: 18000
  • warmup_ratio: 0.1
  • bf16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3.0
  • max_steps: 18000
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss
0.0148 100 1.0889
0.0297 200 1.1121
0.0445 300 0.9467
0.0593 400 0.8107
0.0741 500 0.6793
0.0890 600 0.5762
0.1038 700 0.4541
0.1186 800 0.405
0.1335 900 0.3018
0.1483 1000 0.2623
0.1631 1100 0.2615
0.1779 1200 0.2295
0.1928 1300 0.2579
0.2076 1400 0.2592
0.2224 1500 0.1923
0.2372 1600 0.1699
0.2521 1700 0.2187
0.2669 1800 0.215
0.2817 1900 0.1645
0.2966 2000 0.2638
0.3114 2100 0.1988
0.3262 2200 0.2224
0.3410 2300 0.2549
0.3559 2400 0.2209
0.3707 2500 0.1835
0.3855 2600 0.2119
0.4004 2700 0.1955
0.4152 2800 0.175
0.4300 2900 0.1903
0.4448 3000 0.2223
0.4597 3100 0.2075
0.4745 3200 0.1282
0.4893 3300 0.1133
0.5042 3400 0.1852
0.5190 3500 0.159
0.5338 3600 0.1313
0.5486 3700 0.2037
0.5635 3800 0.1598
0.5783 3900 0.1368
0.5931 4000 0.2067
0.6079 4100 0.1724
0.6228 4200 0.1133
0.6376 4300 0.1664
0.6524 4400 0.1529
0.6673 4500 0.1502
0.6821 4600 0.1425
0.6969 4700 0.1833
0.7117 4800 0.171
0.7266 4900 0.1701
0.7414 5000 0.1987
0.7562 5100 0.2013
0.7711 5200 0.1426
0.7859 5300 0.1593
0.8007 5400 0.1609
0.8155 5500 0.1745
0.8304 5600 0.1486
0.8452 5700 0.0826
0.8600 5800 0.1525
0.8749 5900 0.142
0.8897 6000 0.1249
0.9045 6100 0.1915
0.9193 6200 0.1164
0.9342 6300 0.1773
0.9490 6400 0.1581
0.9638 6500 0.1626
0.9786 6600 0.1057
0.9935 6700 0.1623
1.0083 6800 0.1282
1.0231 6900 0.1494
1.0380 7000 0.1137
1.0528 7100 0.1424
1.0676 7200 0.1024
1.0824 7300 0.1489
1.0973 7400 0.1535
1.1121 7500 0.1059
1.1269 7600 0.24
1.1418 7700 0.1218
1.1566 7800 0.0962
1.1714 7900 0.1523
1.1862 8000 0.1776
1.2011 8100 0.1184
1.2159 8200 0.1392
1.2307 8300 0.1513
1.2456 8400 0.113
1.2604 8500 0.1526
1.2752 8600 0.1561
1.2900 8700 0.0982
1.3049 8800 0.203
1.3197 8900 0.1168
1.3345 9000 0.1584
1.3493 9100 0.1937
1.3642 9200 0.1269
1.3790 9300 0.1841
1.3938 9400 0.0954
1.4087 9500 0.1446
1.4235 9600 0.1615
1.4383 9700 0.1919
1.4531 9800 0.1387
1.4680 9900 0.1329
1.4828 10000 0.0821
1.4976 10100 0.1096
1.5125 10200 0.1454
1.5273 10300 0.1215
1.5421 10400 0.1052
1.5569 10500 0.1506
1.5718 10600 0.0685
1.5866 10700 0.1523
1.6014 10800 0.1243
1.6163 10900 0.118
1.6311 11000 0.0928
1.6459 11100 0.1259
1.6607 11200 0.1049
1.6756 11300 0.1017
1.6904 11400 0.1117
1.7052 11500 0.1526
1.7200 11600 0.1237
1.7349 11700 0.1577
1.7497 11800 0.1704
1.7645 11900 0.1243
1.7794 12000 0.1811
1.7942 12100 0.103
1.8090 12200 0.1143
1.8238 12300 0.1454
1.8387 12400 0.0781
1.8535 12500 0.0936
1.8683 12600 0.1159
1.8832 12700 0.1158
1.8980 12800 0.1066
1.9128 12900 0.1542
1.9276 13000 0.1134
1.9425 13100 0.1462
1.9573 13200 0.1739
1.9721 13300 0.0968
1.9870 13400 0.1181
2.0018 13500 0.1376
2.0166 13600 0.1415
2.0314 13700 0.0945
2.0463 13800 0.1062
2.0611 13900 0.087
2.0759 14000 0.1192
2.0907 14100 0.1187
2.1056 14200 0.1293
2.1204 14300 0.1425
2.1352 14400 0.1616
2.1501 14500 0.0911
2.1649 14600 0.116
2.1797 14700 0.1236
2.1945 14800 0.123
2.2094 14900 0.1407
2.2242 15000 0.1254
2.2390 15100 0.082
2.2539 15200 0.1166
2.2687 15300 0.1328
2.2835 15400 0.0968
2.2983 15500 0.1404
2.3132 15600 0.1452
2.3280 15700 0.1301
2.3428 15800 0.1689
2.3577 15900 0.1357
2.3725 16000 0.1059
2.3873 16100 0.1296
2.4021 16200 0.1319
2.4170 16300 0.0993
2.4318 16400 0.1575
2.4466 16500 0.1894
2.4614 16600 0.1206
2.4763 16700 0.0978
2.4911 16800 0.0848
2.5059 16900 0.1547
2.5208 17000 0.1113
2.5356 17100 0.096
2.5504 17200 0.1442
2.5652 17300 0.0779
2.5801 17400 0.0855
2.5949 17500 0.1322
2.6097 17600 0.1152
2.6246 17700 0.088
2.6394 17800 0.1176
2.6542 17900 0.0929
2.6690 18000 0.1238

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.3.0
  • Transformers: 4.46.2
  • PyTorch: 2.3.1+cu121
  • Accelerate: 0.34.2
  • Datasets: 3.0.1
  • Tokenizers: 0.20.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nguyen599/bge_model

Base model

BAAI/bge-m3
Finetuned
(355)
this model