SentenceTransformer based on LazarusNLP/all-indo-e5-small-v4

This is a sentence-transformers model finetuned from LazarusNLP/all-indo-e5-small-v4. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: LazarusNLP/all-indo-e5-small-v4
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 384 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'query: t-4 surat perpanjangan penahanan nama kajati kajari perpanjangan penahanan',
    'passage: surat perpanjangan penahanan surat perpanjangan penahanan nomor menimbang mengingat dasar memperpanjang nama lengkap nomor identitas tempat lahir umur / tanggal lahir jenis kelamin kewargarnegaraan tempat tinggal agama pekerjaan pendidikan dikeluarkan di pada tanggal tembusan kejaksaan republik indonesia kejaksaan agung/kejaksaan tinggi ………….. kejaksaan negeri/cabang kejaksaan negeri ……. surat perpanjangan penahanan nomor: ... memperpanjang: penahanan perpanjangan t-4 memperpanjang surat jampidum kajati resume pemeriksaan kajari lahir kacabjari penyidik terhitung tempat paling lama tingkat selesai dipandang perlu nama mulai kota kewargarnegaraan uraian singkat mengingat t-4 surat perpanjangan surat perpanjangan penahanan jampidum kajati kajari kajati kajari kacabjari perpanjangan penahanan page penahanan page agung page agung tinggi agung tinggi negeri tinggi negeri cabang negeri cabang negeri perpanjangan penahanan t-4 surat surat perpanjangan jampidum kajati kajati kajari kajari kacabjari memperpanjang penahanan penahanan nama penahanan page page agung agung tinggi tinggi negeri negeri cabang cabang negeri t-4',
    'passage: surat perintah penahanan/ perpanjangan surat perintah penahanan perpanjangan nomor menimbang ketentuan pasal 21 ayat (1) kuhap, oleh karenanya dasar jampidum/kajati/kajari/kacabjari... nomor memerintahkan kepada 1. nama pangkat/nip jabatan untuk terhadap tersangka nama lengkap nomor identitas tempat lahir umur/tanggal lahir jenis kelamin kebangsaan/kewarganegaraan tempat tinggal a g a m a pekerjaan pendidikan dikeluarkan di pada tanggal tembusan kejaksaan republik indonesia kejaksaan agung/kejaksaan tinggi ………….. kejaksaan negeri/cabang kejaksaan negeri …….*) surat perintah penahanan/ perpanjangan penahanan/ pengalihan jenis penahanan **) nomor: print- …………………………………………. jampidum/kajati/kajari/kacabjari ... *) memerintahkan: jampidum/kajati/kajari/kacabjari ...*) selaku penuntut umum penahanan perpanjangan pengalihan pasal ayat huruf ph-7 dialihkan perusakan hutan jenis tentang perintah undang jampidum terhadap surat kajati diperpanjang tahun kajari kacabjari undang-undang pidana tindak dilakukan sebagaimana repu surat perintah penahanan penahanan perpanjangan penahanan perpanjangan penahanan pengalihan penahanan pengalihan jenis pengalihan jenis penahanan jampidum kajati kajari kajati kajari kacabjari perintah penahanan perpanjangan undang-undang tahun tentang ph-7 surat perintah pasal ayat surat perintah penahanan perpanjangan jenis penahanan tindak pidana tahun tentang perintah penahanan perpanjangan penahanan penahanan pengalihan pengalihan jenis jampidum kajati kajati kajari kajari kacabjari perusakan hutan ph-7',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.6178
cosine_accuracy@5 0.7155
cosine_accuracy@10 0.766
cosine_precision@1 0.6178
cosine_precision@3 0.2312
cosine_precision@5 0.1431
cosine_precision@10 0.0766
cosine_recall@1 0.6178
cosine_recall@3 0.6936
cosine_recall@5 0.7155
cosine_recall@10 0.766
cosine_ndcg@10 0.6875
cosine_mrr@10 0.6631
cosine_map@100 0.6681

Training Details

Training Dataset

Unnamed Dataset

  • Size: 5,312 training samples
  • Columns: sentence_0, sentence_1, sentence_2, and sentence_3
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 sentence_2 sentence_3
    type string string string string
    details
    • min: 7 tokens
    • mean: 28.07 tokens
    • max: 90 tokens
    • min: 125 tokens
    • mean: 222.61 tokens
    • max: 256 tokens
    • min: 125 tokens
    • mean: 222.68 tokens
    • max: 256 tokens
    • min: 125 tokens
    • mean: 223.85 tokens
    • max: 256 tokens
  • Samples:
    sentence_0 sentence_1 sentence_2 sentence_3
    query: ini kami surat kami kami tang gal tang gal disangka melanggar passage: sehubungan dengan surat kami nomor: ………………….. tang gal sehubungan surat kami tang gal nomor sifat lampiran hal sehubungan dengan surat kami nomor tersangka dan barang bukti, dengan ini kami kembalikan berkas perkara nomor tembusan petunjuk pembuatan kejaksaan republik indonesia kejaksaan agung/kejaksaan tinggi ………….. kejaksaan negeri/cabang kejaksaan negeri …….*) sop form-7 jampidum/kajati/kajari/kacabjari ... *) selaku penuntut umum p-21a gal kami tang form-7 ditindaklanjuti surat puluh penyerahan hal tiga yth sehubungan berkas sejak form-06 barang bukti sop disangka dimaksud verifikasi terlebih dahulu setelah kapusdakrimti hingga dikirimkan penyerahan barang bukti sehubungan surat kami surat kami tang kami tang gal berkas nama disangka nama disangka melanggar disangka melanggar pasal setelah tiga puluh tiga puluh sejak ditindaklanjuti penyerahan barang penyerahan barang barang bukti sehubungan surat surat kami kami tang tang gal berkas nama nama disangka disangka melanggar m... passage: sehubungan dengan surat kami nomor: ..................................... tanggal sehubungan surat kami nomor sifat lampiran hal sehubungan dengan surat kami nomor setelah seterimanya berkas ini, dengan petunjuk sebagai berikut a. kelengkapan formil b. kelengkapan materiil disangka melanggar pasal..., dengan unsur-unsur sebagai berikut yang masih harus dilengkapi oleh penyidik, yaitu tembusan kejaksaan republik indonesia kejaksaan agung/kejaksaan tinggi ………….. kejaksaan negeri/cabang kejaksaan negeri …………..*) p-19 jaksa agung muda tindak pidana umum/ kepala kejaksaan tinggi/kepala kejaksaan negeri/kepala cabang kejaksaan negeri... ******) unsur kami kelengkapan dilengkapi berkas setelah materiil disampaikan p-19 pasal dst masih surat disesuaikan ayat sehubungan seterimanya mempelajari lengkapi yth petunjuk unsur-unsur p-18 formil struktural memberi negeri kepala sehubungan surat kami struktural memberi perintah disesuaikan unsur pasal p-19 sehubungan surat surat kami page kami... passage: sehubungan dengan surat permintaan perkembangan hasil penyidikan (p-17) nomor : sehubungan surat permintaan perkembangan hasil penyidikan p-17 nomor sifat lampiran hal sehubungan dengan surat permintaan perkembangan hasil penyidikan (p-17) nomor tembusan petunjuk pembuatan kejaksaan republik indonesia kejaksaan agung/kejaksaan tinggi ………….. kejaksaan negeri/cabang kejaksaan negeri …….) sop form-2 jampidum/kajati/kajari/kacabjari ….) selaku penuntut umum perkembangan p-17 hasil penyidikan permintaan form-2 mengirimkan puluh tiga yth sehubungan sejak menindaklanjuti form-02 penyidik sop belum mengirim kapusdakrimti penyidikannya simkari unit kirimkan jika kaurbin asbin operator kasubagbin perkembangan hasil penyidikan sehubungan surat permintaan surat permintaan perkembangan permintaan perkembangan hasil hasil penyidikan p-17 tiga puluh sejak sesuai unit organisasi form-2 sehubungan surat penyidikan p-17 page p-17 page agung perkembangan hasil hasil penyidikan sehubungan surat...
    query: KEJAKSAAN ………………………….. RT-3 - 122 - passage: register tahanan tahap penuntutan register tahanan tahap penuntutan no urut nama tersangka tindak pidana tanggal masuk tanggal keluar jumlah hari ditahan nomor surat penahanan keterangan bulan tahun kejaksaan ………………………….. rt-3 register tahanan tahap penuntutan tindak pidana ... bulan ...tahun... tgl tahanan tahap lama ditahan penuntutan sejak rt-3 penetapan berita register acara pengadilan penangguhan mahkamah pelaksanaan tenatang mencatat diperpanjang rp-12 putusan status didakwakan pengalihan jenis tinggi pencabutan agung tgl berita acara lama ditahan sejak ditahan sejak tgl sejak tgl tgl tahanan tahap penuntutan tgl tgl penetapan tgl penetapan pelaksanaan penetapan pelaksanaan lama pelaksanaan lama ditahan rt-3 register tahanan tahap penuntutan tgl berita berita acara lama ditahan ditahan sejak sejak tgl tahanan tahap tahanan tgl tgl penetapan penetapan pelaksanaan pelaksanaan lama rt-3 register register tahanan jenis tahanan rt-3 passage: register perkara tahap penuntutan register tahap penuntutan tahanan tersangka kejaksaan ………………………….. rp-9 register perkara tahap penuntutan tindak pidana ... tgl amar penuntutan putusan tahap rp-9 reg pidana register mason kepentingan instansi penyampingan keppres pengiriman asal p-21 isi berkas lahir p-16 aps apb demi tempat perlawanan mati peninjauan tgl amar putusan rp-9 register tahap register tahap penuntutan tahap penuntutan page penuntutan page rp-9 page rp-9 register tahap penuntutan tindak penuntutan tindak pidana tindak pidana urut pidana urut tgl tgl amar amar putusan tahap penuntutan rp-9 register register tahap tindak pidana barang bukti demi kepentingan penuntutan page page rp-9 penuntutan tindak pidana urut urut tgl tgl terima rp-9 passage: laporan bulanan tahanan tahap penuntutan laporan bulanan tahanan tahap penuntutan bulan tahun tindak pidana jumlah tahanan awal bulan masuk bulan ini keluar bulan ini jumlah tahanan akhir bulan keterangan kejaksaan ………………………….. lt-2 laporan bulanan tahanan tahap penuntutan tindak pidana ... bulan ...tahun... bulanan bulan laporan tahap tahanan penuntutan lt-2 penahanan penangguhan sisa jumlah tiap-tiap penggisiannya pengalih instransi jenis rt-3 keluar bersumber rekapitulasi dikirim akhir merupakan kota lalu dilimpahkan adanya dakwaan tahanan tahap penuntutan lt-2 laporan bulanan laporan bulanan tahanan bulanan tahanan tahap tahap penuntutan page penuntutan page lt-2 page lt-2 laporan tahap penuntutan tindak penuntutan tindak pidana tindak pidana bulan tahanan tahap tahap penuntutan laporan bulanan bulan laporan lt-2 laporan bulanan tahanan sisa bulan jenis penahanan penangguhan penahanan penuntutan page page lt-2 penuntutan tindak tindak pidana pidana bulan lt-2
    query: KEJAKSAAN REPUBLIK INDONESIA passage: nota pendapat perpanjangan penahanan/ nota pendapat perpanjangan penahanan nama pangkat nip perkembangan penyidikan perkara tindak pidana (p-16) nomor nama lengkap nomor identitas tempat/tanggal lahir jenis kelamin kewarganegaraan agama alamat pekerjaan pendidikan 3. alasan lain yang dapat dipertimbangkan penerimaan berkas perkara ke tanggal penerimaan berkas perkara nama tersangka tempat lahir umur/ tanggal lahir kebangsaan tempat tinggal nomor ktp 1. nomor sim 2. nomor paspor 3. lain-lain nama korporasi berupa tempat, tanggal pendirian stempel pengadilan negeri nomor surat keterangan kejaksaan republik indonesia kejaksaan agung/kejaksaan tinggi ………….. kejaksaan negeri/cabang kejaksaan negeri …….) nota pendapat perpanjangan penahanan/ penolakan perpanjangan penahanan*) nip : ………………………………………………… penuntut umum sop-form 5 formulir penelitian berkas perkara persyaratan formil. kelengkapan coret yang tidak perlu 1. npwp : ada/tidak hanya ditambahkan dalam tindak pidana sumber da... passage: nota pendapat untuk dilakukan penahanan/ perpanjangan penahanan**) nota pendapat dilakukan penahanan perpanjangan 1. nama pangkat nip 2. nama nomor identitas jenis kelamin kewarganegaraan tempat tinggal agama pekerjaan pendidikan register tahanan register perkara pertimbangan sebagai berikut kejaksaan republik indonesia kejaksaan agung/kejaksaan tinggi ………….. kejaksaan negeri/cabang kejaksaan negeri …….) nota pendapat untuk dilakukan penahanan/ perpanjangan penahanan*) penahanan tanggal kejaksaan dilakukan pangkat nip penuntut umum perpanjangan nama nomor jenis negeri pendapat hari saya kami melakukan perkara terhadap tersangka tempat sampai register petunjuk sesuai unit organisasi dilakukan penahanan perpanjangan penahanan perpanjangan penahanan nama pangkat nip penuntut umum melakukan tanggal sampai tanggal sampai tanggal jenis tanggal jenis penahanan sesuai unit organisasi pilih salah satu 187 kejaksaan republik kejaksaan republik indonesia republik indonesia kejaksaan pa... passage: nota pendapat nota pendapat yth dari tanggal sifat hal pasal ... yang amarnya menyatakan berpendapat terhadap penetapan pengadilan negeri tersebut negeri... karena alasan dakwaan telah memenuhi syarat formil dan/atau materiil surat dakwaan karena alasan petunjuk pembuatan 1. nama pangkat nip 2. nama berdasarkan surat perintah jampidum/kajati/kajari/kacabjari (p-16a)... nomor permohonan restitusi nomor ..., dengan hasil pemeriksaan sebagai berikut 1.1 nama lengkap 1.2 nomor identitas 1.3 tempat tanggal lahir 1.4 tempat tinggal 1.6 agama 1.7 pekerjaan 1.8 status perkawinan 2.1 nama 2.2 nomor identitas 2.3 tempat dan tanggal lahir 2.4 pekerjaan 2.5 tempat tinggal 2.6 kewarganegaraan kejaksaan republik indonesia kejaksaan agung/kejaksaan tinggi ………….. kejaksaan negeri/cabang kejaksaan negeri …….*) sop form-17 nota pendapat penuntut umum, sop form 18 penelitian kelengkapan permohonan restitusi nip : …………………………………………...……… nip : …………………………………………...………… kelengkapan keterangan (ada/ti...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step kepja227-val_cosine_ndcg@10
1.0 83 0.6752
1.2048 100 0.6752
2.0 166 0.6825
2.4096 200 0.6875

Framework Versions

  • Python: 3.12.13
  • Sentence Transformers: 3.4.1
  • Transformers: 4.46.3
  • PyTorch: 2.10.0+cu128
  • Accelerate: 1.0.1
  • Datasets: 4.8.5
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
92
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for devappsmi/DocClassification

Finetuned
(1)
this model

Papers for devappsmi/DocClassification

Evaluation results