yosriku's picture
Selesai. Test Accuracy: 0.9989
261ecda verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:6399
  - loss:MultipleNegativesRankingLoss
base_model: LazarusNLP/congen-indobert-lite-base
widget:
  - source_sentence: Apa yang dilakukan wisatawan?
    sentences:
      - >-
        The number of tourists visiting during the 2018 holiday reached 9,870
        people in one day. Every activity of tourists will produce waste in the
        tourist area, especially organic wast e. Organic waste has good energy
        potential
      - >-
        listrik yang dihasilkan dari proses gasifikasi yang memiliki nilai
        efisiensi 11% adalah 6,38 kW atau 6.380 Watt. Resume perhitungan
        analisis potensi energi listrik dari sampah organik yang siap diproses
        dapat dilihat pada Tabel 3. Tabel 3.
      - >-
        Huruf e Cukup jelas. Huruf f Yang dimaksud dengan alat bukti lain,
        meliputi, informasi yang diucapkan, dikirimkan, diterima, ata u disimpan
        secara elektronik, magnetik, optik, dan/at au yang serupa dengan itu;
  - source_sentence: er Aspek apa saja yang dinilai responden dalam kuisioner? Paraphrase
    sentences:
      - >-
        Ayat (2) Cukup jelas. Pasal 24 Cukup jelas. Pasal 25 Huruf a Cukup
        jelas. Huruf b Cukup jelas. Huruf c Cukup jelas. Huruf d Cukup jelas.
      - >-
        udara rata-rata adalah 300C. Desa ini berjarak 4 km dari pusat Kecamatan
        Kretek dan 13 km dari ibukota kabupaten Bantul. Di lingkup wilayah Desa
        Parangtritis ini daya tarik wisata utama yang
      - >-
        Kuisioner yang dibagikan berisikan segala hal yang berkaitan dengan
        sistem pengelolaan sampah serta penilaian responden terhadap sistem
        pengelolaan sampah (Peran dan kinerja Dinas Kebersihan dan Pertamanan,
        Sarana dan prasarana,
  - source_sentence: Apa itu UU ini?
    sentences:
      - >-
        Tambahan Lembaran Negara Republik Indonesia Nomor 3699) dicabut dan
        dinyatakan tidak berlaku. Pasal 126 Peraturan pelaksanaan yang
        diamanatkan dalam Undang-Undang ini ditetapkan paling lama 1 (satu)
        tahun terhitung sejak UndangUndang ini diberlakukan.
      - >-
        penyelenggaraan usaha dan/atau kegiatan. 12. Upaya pengelolaan
        lingkungan hidup dan upaya pemantauan lingkungan hidup, yang selanjutnya
        disebut UKL-UPL, adalah pengelolaan dan pemantauan terhadap usaha
        dan/atau kegiatan yang tidak berdampak penting terhadap lingkungan hidup
        yang diperlukan bagi proses pengambilan keputusan tentang
        penyelenggaraan usaha dan/atau kegiatan.
      - >-
        Abstra ct Parangtritis Beach is a tourist attraction that is visited by
        many tourists. The number of tourists visiting during the 2018 holiday
        reached 9,870 people in one day.
  - source_sentence: Kapan izin lingkungan dapat dibatalkan? Bagaimana
    sentences:
      - >-
        Agar setiap orang mengetahuinya, memerintahkan pengundangan
        Undang-Undang ini dengan penempatannya dalam Lembaran Negara Republik
        Indonesia. Disahkan di Jakarta pada tanggal 3 Oktober 2009 PRESIDEN
        REPUBLIK INDONESIA, ttd DR. H.
      - >-
        Yogyakarta dikenal sebagai kota pelajar dan kota wisata. Berdasarkan
        data di Dinas Pariwisata Daerah Istimewa Yogyakarta ada b eberapa
        destinasi wisata di Yogyakarta meliputi wisata alam, wisata pantai
        wisata budaya dan sejarah, wisata museum, wisata minat khusus, dan desa
        wisata. Wisata Pantai di D.I.
      - >-
        (1) Menteri, gubernur, atau bupati/walikota sesuai dengan kewenangannya
        wajib menolak permohonan izin lingkungan apabila permohonan izin tidak
        dilengkapi dengan amdal atau UKL-UPL. (2) Izin - 27 - (2) Izin
        lingkungan sebagaimana dimaksud dalam Pasal 36 ayat (4) dapat dibatalkan
        apabila: a.
  - source_sentence: 39641995 paraphrase Paraphrases Referensi
    sentences:
      - >-
        persampahan. Direktorat Jenderal Cipta Karya. Jakarta. Anonim. 1995.
        Metode pengambilan dan pengukuran contoh timbulan dan komposisi sampah
        perkotaan (SNI 19-3964-1995). Badan Standar Nasional. Jakarta.
      - >-
        Sampah orga nik yang akan diproses sebanyak 1.400,36 kg per hari.
        Kemudian diproses menjadi arang, sehingga didapatkan arang sampah
        organik sebanyak 205,91 kg per hari. Berdasarkan perhitungan didapatkan
        potensi energi listrik yang dihasilkan adalah 1.392,38 kWh
      - >-
        19. Perubahan iklim adalah berubahnya iklim yang diakibatkan langsung
        atau tidak langsung oleh aktivitas manusia sehingga menyebabkan
        perubahan komposisi atmosfir secara global dan selain itu juga berupa
        perubahan variabilitas iklim alamiah yang teramati pada kurun waktu yang
        dapat dibandingkan.
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy
model-index:
  - name: SentenceTransformer based on LazarusNLP/congen-indobert-lite-base
    results:
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: retrieval validation
          type: retrieval-validation
        metrics:
          - type: cosine_accuracy
            value: 0.9961727857589722
            name: Cosine Accuracy
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: test
          type: test
        metrics:
          - type: cosine_accuracy
            value: 0.9989070892333984
            name: Cosine Accuracy

SentenceTransformer based on LazarusNLP/congen-indobert-lite-base

This is a sentence-transformers model finetuned from LazarusNLP/congen-indobert-lite-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: LazarusNLP/congen-indobert-lite-base
  • Maximum Sequence Length: 32 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 32, 'do_lower_case': False}) with Transformer model: AlbertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Dense({'in_features': 768, 'out_features': 768, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("yosriku/exp_data_scale_5files")
# Run inference
sentences = [
    '39641995 paraphrase Paraphrases Referensi',
    'persampahan. Direktorat Jenderal Cipta Karya. Jakarta. Anonim. 1995. Metode pengambilan dan pengukuran contoh timbulan dan komposisi sampah perkotaan (SNI 19-3964-1995). Badan Standar Nasional. Jakarta.',
    'Sampah orga nik yang akan diproses sebanyak 1.400,36 kg per hari. Kemudian diproses menjadi arang, sehingga didapatkan arang sampah organik sebanyak 205,91 kg per hari. Berdasarkan perhitungan didapatkan potensi energi listrik yang dihasilkan adalah 1.392,38 kWh',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Metric retrieval-validation test
cosine_accuracy 0.9962 0.9989

Training Details

Training Dataset

Unnamed Dataset

  • Size: 6,399 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 9.36 tokens
    • max: 31 tokens
    • min: 11 tokens
    • mean: 30.07 tokens
    • max: 32 tokens
    • min: 5 tokens
    • mean: 26.95 tokens
    • max: 32 tokens
  • Samples:
    anchor positive negative
    Bagaimana status UU 23 Tahun 1997? yang baru berdasarkan Undang-Undang ini. Pasal - 70 - Pasal 125 Pada saat Undang-Undang ini mulai berlaku, Undang-Undang Nomor 23 Tahun 1997 tentang Pengelolaan Lingkungan Hidup (Lembaran Negara Republik Indonesia Tahun 1997 Nomor 68, Tambahan Lembaran Negara Republik Indonesia Nomor 3699) dicabut dan dinyatakan tidak berlaku. Jumlah wisatawan pengunjung Pantai Parangtrit is yang mencapai 9.870 orang setiap hari adalah potensi yang besar untuk menghasilkan sampah. Sedangkan, setiap orang dalam 1 hari berpotensi menghasilkan sampah rata -rata 0,8 kg 3.
    kedua Bagian Kedua Masuk ke Bagian Pertama Bagian kedua kata (3) Gugatan melalui pengadilan hanya dapat ditempuh apabila upaya penyelesaian sengketa di luar pengadilan yang dipilih dinyatakan tidak berhasil oleh salah satu atau para pihak yang bersengketa. Bagian Kedua - 53 - Bagian Kedua Penyelesaian Sengketa Lingkungan Hidup di Luar Pengadilan Pasal 85 (1) Penyelesaian sengketa lingkungan hidup di luar pengadilan dilakukan untuk mencapai kesepakatan mengenai: a. bentuk dan besarnya ganti rugi; b. 31. Masyarakat hukum adat adalah kelompok masyarakat yang secara turun temurun bermukim di wilayah geografis tertentu karena adanya ikatan pada asal usul leluhur, adanya hubungan yang kuat dengan lingkungan hidup, serta adanya sistem nilai yang menentukan pranata ekonomi, politik, sosial, dan hukum
    s Mengapa jumlah sarana yang banyak bisa percuma? oleh penduduk setempat. Namun banyak atau tidaknya sarana dan prasarana pengelolaan sampah, jika tidak diikuti dengan kualitas yang baik dari sarana dan prasarana tersebut maka jumlah yang banyak tersebut akan percuma. Fungsi dari udara rata-rata adalah 300C. Desa ini berjarak 4 km dari pusat Kecamatan Kretek dan 13 km dari ibukota kabupaten Bantul.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 1,829 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 9.15 tokens
    • max: 27 tokens
    • min: 11 tokens
    • mean: 30.03 tokens
    • max: 32 tokens
    • min: 6 tokens
    • mean: 27.14 tokens
    • max: 32 tokens
  • Samples:
    anchor positive negative
    se Penjelasan Pasal 57 Ayat 4 Huruf b c konsekuensi yang timbul akibat perubahan iklim dapat diatasi. Huruf b Cukup jelas. Huruf c Cukup jelas. Jumlah pengunjung di Kawasan Wisata Pantai Parangtritis mencapai 9.870 orang/hari 1. Sedangkan, sampah yang dihasilkan oleh para wisatawan rata -rata 1,5 – 2,0 ton per hari pada hari biasa, dan bisa mencapai 20 ton sampah per hari pada saat liburan seperli libur lebaran 2.
    Apa kewajiban usaha yang tidak wajib UKLUPL? (2) Gubernur atau bupati/walikota menetapkan jenis usaha dan/atau kegiatan yang wajib dilengkapi dengan UKL-UPL. Pasal 35 (1) Usaha dan/atau kegiatan yang tidak wajib dilengkapi UKL-UPL sebagaimana dimaksud dalam Pasal 34 ayat (2) wajib membuat surat pernyataan kesanggupan pengelolaan dan pemantauan lingkungan hidup. Abstra ct Parangtritis Beach is a tourist attraction that is visited by many tourists. The number of tourists visiting during the 2018 holiday reached 9,870 people in one day.
    Siapa Tim Pelaksana? Pasa l 8... Pasal 7 (1) Untuk membantu pelaksanaan tugas Tim Koordinasi Nasiona l, dibent uk Tim Pelaksana. (2) Susunan keanggotaan, tugas, dan tata kerja Tim Pelaksa na sebagaimana d imaksud pada ayat (1), ditetap kan oleh Menteri Koordinator Bidang Kemar itiman selaku Ketua Tim Koordinasi Nasional atas usulan Ketua Harian. Bagaimana jika B3 telah kedaluwarsa?
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • learning_rate: 2e-05
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • push_to_hub: True
  • hub_model_id: yosriku/exp_data_scale_5files
  • hub_private_repo: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: yosriku/exp_data_scale_5files
  • hub_strategy: every_save
  • hub_private_repo: True
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Validation Loss retrieval-validation_cosine_accuracy test_cosine_accuracy
0.2 5 4.3005 0.9809 -
0.4 10 3.8290 0.9880 -
0.6 15 3.5321 0.9902 -
0.8 20 3.3291 0.9923 -
1.0 25 3.1744 0.9940 -
1.2 30 3.0512 0.9940 -
1.4 35 2.9505 0.9940 -
1.6 40 2.8677 0.9951 -
1.8 45 2.8015 0.9956 -
2.0 50 2.7485 0.9951 -
2.2 55 2.7083 0.9956 -
2.4 60 2.6786 0.9956 -
2.6 65 2.6577 0.9956 -
2.8 70 2.6446 0.9962 -
3.0 75 2.6396 0.9962 -
-1 -1 - - 0.9989
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.53.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.9.0
  • Datasets: 4.1.1
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}