SentenceTransformer based on LazarusNLP/congen-indobert-lite-base

This is a sentence-transformers model finetuned from LazarusNLP/congen-indobert-lite-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: LazarusNLP/congen-indobert-lite-base
  • Maximum Sequence Length: 32 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 32, 'do_lower_case': False}) with Transformer model: AlbertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Dense({'in_features': 768, 'out_features': 768, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("yosriku/exp_data_scale_3files")
# Run inference
sentences = [
    'Sebutkan 5 pidana tambahan bagi badan usaha S',
    'c. perbaikan akibat tindak pidana; d. pewajiban mengerjakan apa yang dilalaikan tanpa hak; dan/atau e. penempatan perusahaan di bawah pengampuan paling lama 3 (tiga) tahun.',
    'Bagaimana suhu udara rata-rata di Desa Parangtritis?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Metric retrieval-validation test
cosine_accuracy 0.9972 0.9945

Training Details

Training Dataset

Unnamed Dataset

  • Size: 3,801 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 9.2 tokens
    • max: 32 tokens
    • min: 11 tokens
    • mean: 29.83 tokens
    • max: 32 tokens
    • min: 5 tokens
    • mean: 26.91 tokens
    • max: 32 tokens
  • Samples:
    anchor positive negative
    Apa yang harus dilakukan pada paraphrase? h? h j. memberikan informasi palsu, menyesatkan, menghilangkan informasi, merusak informasi, atau memberikan keterangan yang tidak benar. (2) Ketentuan - 47 - (2) Ketentuan sebagaimana dimaksud pada ayat (1) huruf h memperhatikan dengan sungguhsungguh kearifan lokal di daerah masingmasing. fungsi lingkungan hidup. Huruf c Yang dimaksud dengan “sistem lembaga keuangan ramah lingkungan hidup” adalah sistem lembaga keuangan yang menerapkan persyaratan perlindungan dan pengelolaan lingkungan hidup dalam kebijakan pembiayaan dan praktik sistem lembaga keuangan bank dan lembaga keuangan nonbank.
    Penjelasan Pasal 25 Ayat 2 Pasal 26 dan Pasal 27 25 27 28 29 30 31 32 33 34 35 Kompensasi merupakan bentuk pertanggungjawaban peme rintah terhadap pengelolaan sampah di tempat pemrosesan ak hir yang berdampak negatif terhadap orang. Ayat (2) Cukup jelas. Ayat (3) Cukup jelas. Ayat (4) Cukup jelas. Pasal 26 Cukup jelas. Pasal 27 Cukup jelas. Jumlah pengunjung di Kawasan Wisata Pantai Parangtritis mencapai 9.870 orang/hari 1. Sedangkan, sampah yang dihasilkan oleh para wisatawan rata -rata 1,5 – 2,0 ton per hari pada hari biasa, dan bisa mencapai 20 ton sampah per hari pada saat liburan seperli libur lebaran 2.
    se Bagaimana status peraturan? (2) Peraturan daerah yang diamanatkan Undang-Undang ini diselesaikan paling lama 3 (tiga) tahun terhitu ng sejak Undang-Undang ini diundangkan. Pasal 48 Pada saat berlakunya Undang-Undang ini semua peratu ran perundang-undangan yang berkaitan dengan pengelolaa n sampah yang telah ada tetap berlaku sepanjang tidak bertentangan dengan ketentuan dalam Undang-Undang i ni. Sebutkan beberapa jenis destinasi wisata di Yogyakarta.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 1,087 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 9.11 tokens
    • max: 29 tokens
    • min: 11 tokens
    • mean: 30.03 tokens
    • max: 32 tokens
    • min: 6 tokens
    • mean: 27.32 tokens
    • max: 32 tokens
  • Samples:
    anchor positive negative
    Penjelasan Pasal 15 Ayat 3 dan Pasal 16 17 18 dan peningkatan jumlah penduduk miskin atau terancamnya keberlanjutan penghidupan sekelompok masyarakat; dan/atau g. peningkatan risiko terhadap kesehatan dan keselamatan manusia. Ayat (3) Cukup jelas. Pasal 16 Cukup jelas. Pasal 17 Cukup jelas Jumlah pengunjung di Kawasan Wisata Pantai Parangtritis mencapai 9.870 orang/hari 1. Sedangkan, sampah yang dihasilkan oleh para wisatawan rata -rata 1,5 – 2,0 ton per hari pada hari biasa, dan bisa mencapai 20 ton sampah per hari pada saat liburan seperli libur lebaran 2.
    Dari mana sumber pendanaan Tim Pelaksana? Agar... Peraturan Presiden mi mulai berlaku pada tanggal diund angkan. Pasal 12 Pasal 11 (1) Pendanaan yang diperluk an untuk pelaksan aan tugas Tim Pelaksana dan Sekr etariat Tim Koordin asi Nasion al dibebankan kepada Anggaran Pendapatan dan Belanja Negara. udara rata-rata adalah 300C. Desa ini berjarak 4 km dari pusat Kecamatan Kretek dan 13 km dari ibukota kabupaten Bantul.
    Sebutkan kriteria dampak penting lanjutankan b. luas wilayah penyebaran dampak; c. intensitas dan lamanya dampak berlangsung; d. banyaknya komponen lingkungan hidup lain yang akan terkena dampak; e. sifat kumulatif dampak; f. berbalik atau tidak berbaliknya dampak; Di mana saya bisa menjual barang hasil daur ulang?
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • learning_rate: 2e-05
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • push_to_hub: True
  • hub_model_id: yosriku/exp_data_scale_3files
  • hub_private_repo: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: yosriku/exp_data_scale_3files
  • hub_strategy: every_save
  • hub_private_repo: True
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Validation Loss retrieval-validation_cosine_accuracy test_cosine_accuracy
0.3333 5 4.0280 0.9899 -
0.6667 10 3.5771 0.9917 -
1.0 15 3.3357 0.9945 -
1.3333 20 3.1779 0.9963 -
1.6667 25 3.0681 0.9972 -
2.0 30 2.9869 0.9972 -
2.3333 35 2.9313 0.9972 -
2.6667 40 2.8983 0.9972 -
3.0 45 2.8862 0.9972 -
-1 -1 - - 0.9945
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.53.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.9.0
  • Datasets: 4.1.1
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
-
Safetensors
Model size
11.7M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for yosriku/exp_data_scale_3files

Finetuned
(7)
this model

Papers for yosriku/exp_data_scale_3files

Evaluation results