ModernBERT Embed base Legal Matryoshka

This is a sentence-transformers model finetuned from nomic-ai/modernbert-embed-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: nomic-ai/modernbert-embed-base
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json
  • Language: en
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("meinantoyuriawan19/esdm-finetune-1")
# Run inference
sentences = [
    'Apa saja yang termasuk kegiatan usaha Minyak dan Gas Bumi menurut Pasal 5?',
    ' BAB III PENGUASAAN DAN PENGUSAHAAN Pasal 4 (1) Minyak dan Gas Bumi sebagai sumber daya alam strategis takterbarukan yang terkandung di dalam Wilayah Hukum Pertambangan Indonesia merupakan kekayaan nasional yang dikuasai oleh negara. (2) Penguasaan oleh negara sebagaimana dimaksud dalam ayat (1) diselenggarakan oleh Pemerin tah sebagai pemegang Kuasa Pertambangan. (3) Pemerintah sebagai pemegang Kuasa Pertambangan membentuk Badan Pelaksana sebagaimana dimaksud dalam Pasal 1 angka 23. Pasal 5 ... - - 8 - - - 8 - Pasal 5 Kegiatan usaha Minyak dan Gas Bumi terdiri atas: 1. Kegiatan Usaha Hulu yang mencakup: a. Eksplorasi; b. Eksploitasi. 2.',
    'i. peralatan pengaman;\nj. kesimpulan hasil Inspeksi Teknis;\nk. tanggal pelaksanaan Inspeksi Teknis dan\nPemeriksaan Keselamatan;\n1. masa berlaku; dan\nm. akurasi sistem alat ukur serah terima, apabila ada.\n(4) Dalam hal berdasarkan kesimpulan hasil Inspeksi Teknis\nsebagaimana dimaksud pada ayat (3) huruf j dinyatakan\ntidak layak, Kepala Teknik wajib menyusun rencana\ntindak lanjut.\nPasal 19\n(1) Kepala Teknik menyampaikan permohonan pelaksanaan\nPemeriksaan Keselamatan sebagaimana dimaksud dalam\nPasal 12 ayat (1) huruf b kepada Kepala Inspeksi.\n(2) Permohonan sebagaimana dimaksud pada ayat (1)\ndisampaikan secara tertulis disertai dengan melampirkan:\na. usulan rencana inspeksi [inspection and test plan)',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000,  0.4648, -0.1300],
#         [ 0.4648,  1.0000, -0.0550],
#         [-0.1300, -0.0550,  1.0000]])

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 1.0
cosine_accuracy@3 1.0
cosine_accuracy@5 1.0
cosine_accuracy@10 1.0
cosine_precision@1 1.0
cosine_precision@3 0.6667
cosine_precision@5 0.6
cosine_precision@10 0.5
cosine_recall@1 0.125
cosine_recall@3 0.25
cosine_recall@5 0.375
cosine_recall@10 0.625
cosine_ndcg@10 0.6819
cosine_mrr@10 1.0
cosine_map@100 0.5774

Information Retrieval

Metric Value
cosine_accuracy@1 1.0
cosine_accuracy@3 1.0
cosine_accuracy@5 1.0
cosine_accuracy@10 1.0
cosine_precision@1 1.0
cosine_precision@3 0.6667
cosine_precision@5 0.8
cosine_precision@10 0.5
cosine_recall@1 0.125
cosine_recall@3 0.25
cosine_recall@5 0.5
cosine_recall@10 0.625
cosine_ndcg@10 0.7036
cosine_mrr@10 1.0
cosine_map@100 0.6637

Information Retrieval

Metric Value
cosine_accuracy@1 1.0
cosine_accuracy@3 1.0
cosine_accuracy@5 1.0
cosine_accuracy@10 1.0
cosine_precision@1 1.0
cosine_precision@3 0.6667
cosine_precision@5 0.6
cosine_precision@10 0.5
cosine_recall@1 0.125
cosine_recall@3 0.25
cosine_recall@5 0.375
cosine_recall@10 0.625
cosine_ndcg@10 0.6736
cosine_mrr@10 1.0
cosine_map@100 0.5771

Information Retrieval

Metric Value
cosine_accuracy@1 1.0
cosine_accuracy@3 1.0
cosine_accuracy@5 1.0
cosine_accuracy@10 1.0
cosine_precision@1 1.0
cosine_precision@3 0.6667
cosine_precision@5 0.6
cosine_precision@10 0.3
cosine_recall@1 0.125
cosine_recall@3 0.25
cosine_recall@5 0.375
cosine_recall@10 0.375
cosine_ndcg@10 0.5215
cosine_mrr@10 1.0
cosine_map@100 0.4468

Information Retrieval

Metric Value
cosine_accuracy@1 1.0
cosine_accuracy@3 1.0
cosine_accuracy@5 1.0
cosine_accuracy@10 1.0
cosine_precision@1 1.0
cosine_precision@3 0.3333
cosine_precision@5 0.2
cosine_precision@10 0.1
cosine_recall@1 0.125
cosine_recall@3 0.125
cosine_recall@5 0.125
cosine_recall@10 0.125
cosine_ndcg@10 0.2529
cosine_mrr@10 1.0
cosine_map@100 0.2548

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 4,924 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 12 tokens
    • mean: 27.48 tokens
    • max: 58 tokens
    • min: 25 tokens
    • mean: 224.29 tokens
    • max: 317 tokens
  • Samples:
    positive anchor
    Apa yang dimaksud dengan pertimbangan yang menyangkut peluang pasar? Ayat (3) Cukup jelas Ayat (4) Cukup jelas Pasal47 Cukup jelas Pasal 48 Cukup jelas Pasal 49 Cukup jelas Pasal 50 Cukup jelas Ayat (2) Yang dimaksud dengan pertimbangan yang menyangkut cadangan dalam ketentuan ayat ini rneliputi, besar, spesifikasi Gas Rumi dan lokasi. Sedangkan yang dirnaksud dengan pertimbangan yang menyangkut peluang pasar dalam ketentuan ayat ini adalah meliputi kebutuhan pasar (volume dan spesifikasi Gas Bumi) dan lokasi pasar. r( Pasal 5 1 Cukup jelas Pasal 52 / Cukup jelas Pasal 53 Cukup jelas Pasal 54 ...
    Apakah kontraktor diperbolehkan memperoleh keuntungan dari penggunaan fasilitas? (2) Dalarn ha1 fasilitas sebagairnana dirnaksud dalarn ayat (I) digunakan bersarna dengan pihak lain dengan rnernungut biaya atau sewa sehingga rnernperoleh keuntungan dan/atau laba, Kontraktor wajib rnernbentuk Badan Usaha Kegiatan Usaha Hilir yang terpisah dan wajib rnendapatkan Izin Usaha. BAB V e PEMANFAATAN MINYAK DAN GAS BUM1 UNTUK MEMENUHI KEBUTUHAN DALAM NEGERI Pasal 46 (I) Kontraktor bertanggungjawab untuk ikut serta rnernenuhi kebutuhan Minyak Burni dan/atau Gas Burni untuk keperluan dalarn negeri. (2) Bagian Kontraktor dalarn rnemenuhi keperluan dalarn negeri sebagairnana dirnaksud dalarn ayat (I), ditetapkan berdasarkan sistern prorata hasil produksi Minyak Bumi dan/atau Gas Bumi. (3) Besaran ...
    Dalam kondisi apa Gas Bumi diperoleh? hidrokarbon yang dalam kondisi tekanan dan temperatur atmosfer berupa fasa cair atau padat, termasuk aspal, lilin mineral atau ozokerit, dan bitumen yang diperoleh dari proses penambangan, tetapi tidak termasuk batubara atau endapan hidrokarbon lain yang berbentuk padat yang diperoleh dari kegiatan yang tidak berkaitan dengan kegiatan usaha Minyak dan Gas Bumi. - 4 - 2. Gas Bumi adalah hasil proses alami berupa hidrokarbon yang dalam kondisi tekanan dan temperatur atmosfer berupa fasa gas yang diperoleh dari proses penambangan Minyak dan Gas Bumi. 3. Minyak dan Gas Bumi adalah Minyak Bumi dan Gas Bumi.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_eval_batch_size: 16
  • gradient_accumulation_steps: 4
  • learning_rate: 2e-05
  • num_train_epochs: 4
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • tf32: True
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 4
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: True
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss dim_768_cosine_ndcg@10 dim_512_cosine_ndcg@10 dim_256_cosine_ndcg@10 dim_128_cosine_ndcg@10 dim_64_cosine_ndcg@10
0.3247 50 3.8755 - - - - -
0.6494 100 1.8069 - - - - -
0.9740 150 1.4854 - - - - -
1.0 154 - 0.6883 0.6964 0.6058 0.3772 0.0
1.2987 200 1.1835 - - - - -
1.6234 250 0.9955 - - - - -
1.9481 300 0.9484 - - - - -
2.0 308 - 0.4064 0.4740 0.5413 0.4462 0.1089
2.2727 350 0.6277 - - - - -
2.5974 400 0.5485 - - - - -
2.9221 450 0.5155 - - - - -
3.0 462 - 0.6525 0.6955 0.7175 0.4525 0.2529
3.2468 500 0.4276 - - - - -
3.5714 550 0.404 - - - - -
3.8961 600 0.4081 - - - - -
4.0 616 - 0.6819 0.7036 0.6736 0.5215 0.2529
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.18
  • Sentence Transformers: 5.1.0
  • Transformers: 4.55.4
  • PyTorch: 2.8.0+cu128
  • Accelerate: 1.10.1
  • Datasets: 4.0.0
  • Tokenizers: 0.21.4

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
1
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for meinantoyuriawan19/esdm-finetune-1

Finetuned
(110)
this model

Papers for meinantoyuriawan19/esdm-finetune-1

Evaluation results