metadata
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- dense
- generated_from_trainer
- dataset_size:14321
- loss:MultipleNegativesRankingLoss
base_model: LazarusNLP/congen-indobert-lite-base
widget:
- source_sentence: Sampah macam apa yang cenderung diproduksi oleh pedagang pantai?
sentences:
- >-
. ungkapan terima kasih juga disampaikan kepada ayah, ibu, serta seluruh
keluarga, atas segala doa dan kasih sayangnya.
- >-
infoHelper answer :Ingat: kumpulkan sampah, olah di tong transmutasi,
serahkan ke Crafter, dan jual ke Seller.
- >-
. sedangkan penduduk atau pedagang di pantai cenderung menghasilkan
sampah kemasan dan juga sampah organik seperti sisa makanan, tempurung
kelapa, sisa ikan dan jualan pasar lainnya yang dihasilkan dari pasar
serta warung makan.
- source_sentence: Bagaimana mekanisme untuk menyelesaikan sengketa sampah di pengadilan?
sentences:
- >-
( dinas kebudayaan dan pariwisata kabupaten bantul, 2016 ) pantai goa
cemara sumber : google maps gambar 2. 6 peta pantai depok 2.3.2 profil
pantai sesuai dengan namanya, pantai goa cemara merupakan pantai
- >-
memberikan terapan ilmu pengetahuan yang didapatkan peneliti selama
mempelajari mata kuliah persampahan. 4 bab ii tinjauan pustaka 2.1
gambaran umum lokasi penelitian pantai parangtritis 2.1.1 peta lokasi
- >-
pasal 35 (1) penyelesaian dalam pengadilan dilakukan melalui gugatan
perbuatan melawan hukum. sengketa persampahan di (2) gugatan . . . 19 -
- source_sentence: Apa yang dipertimbangkan ketika menetapkan Wilayah Ekoregion?
sentences:
- >-
. ungkapan terima kasih juga disampaikan kepada ayah, ibu, serta seluruh
keluarga, atas segala doa dan kasih sayangnya.
- >-
dimaksud pada ayat mempertimbangkan kesamaan: a. karakteristik bentang
alam; b. daerah aliran sungai; c. iklim; d. flora dan fauna; e. sosial
budaya; f. ekonomi; g. kelembagaan masyarakat; dan h. hasil
inventarisasi lingkungan hidup. pasal 8
- >-
kini dan generasi masa depan; g. menjamin pemenuhan dan perlindungan hak
atas lingkungan hidup sebagai bagian dari hak asasi manusia; h.
mengendalikan pemanfaatan sumber daya alam secara bijaksana; i.
mewujudkan pembangunan berkelanjutan; dan
- source_sentence: Kapan dosen pembimbing menyetujui tugas akhir tersebut?
sentences:
- >-
ancaman serius adalah ancaman yang berdampak luas terhadap lingkungan
hidup dan menimbulkan keresahan masyarakat.
- >-
dapat dipahami oleh beberapa kalangan masyarakat saja. 5. perilaku serta
peran masyarakat yang masih belum memiliki kesadaran dalam membuang
sampah pada tempatnya, menjaga lingkungan dan pemilahan jenis sampah. 46
5.2 saran
- >-
yebi yuriandala, st,m.eng nik. 135130503 tanggal: 29 maret 2021
mengetahui, ketua prodi teknik lingkungan ftsp uii eko siswoyo,
s.t.,m.sc.es.,ph.d nik. 025100406 tanggal: 27 mei 2021 halam pengesahan
- source_sentence: Apakah penyidik PPNS memiliki kewenangan untuk memeriksa laporan?
sentences:
- >-
pantai goa cemara dan pantai depok. 6. metode perhitungan jumlah
timbulan dan komposisi sampah dengan mengacu pada sni 19-3964-1994
tentang metode pengambilan dan pengukuran contoh timbulan dan komposisi
sampah perkotaan. 3
- >-
lingkungan hidup adalah kesatuan ruang dengan semua benda, daya,
keadaan, dan makhluk hidup, termasuk manusia dan perilakunya, yang
mempengaruhi alam itu sendiri, kelangsungan perikehidupan, dan
kesejahteraan manusia serta makhluk hidup lain.
- >-
berwenang: a. melakukan pemeriksaan atas kebenaran laporan atau
keterangan berkenaan di dengan bidang perlindungan pengelolaan
lingkungan hidup; tindak pidana dan
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- cosine_accuracy
model-index:
- name: SentenceTransformer based on LazarusNLP/congen-indobert-lite-base
results:
- task:
type: triplet
name: Triplet
dataset:
name: retrieval validation
type: retrieval-validation
metrics:
- type: cosine_accuracy
value: 1
name: Cosine Accuracy
- task:
type: triplet
name: Triplet
dataset:
name: ai faq validation
type: ai-faq-validation
metrics:
- type: cosine_accuracy
value: 1
name: Cosine Accuracy
SentenceTransformer based on LazarusNLP/congen-indobert-lite-base
This is a sentence-transformers model finetuned from LazarusNLP/congen-indobert-lite-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: LazarusNLP/congen-indobert-lite-base
- Maximum Sequence Length: 32 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 32, 'do_lower_case': False, 'architecture': 'AlbertModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Dense({'in_features': 768, 'out_features': 768, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'Apakah penyidik PPNS memiliki kewenangan untuk memeriksa laporan?',
'berwenang: a. melakukan pemeriksaan atas kebenaran laporan atau keterangan berkenaan di dengan bidang perlindungan pengelolaan lingkungan hidup; tindak pidana dan',
'lingkungan hidup adalah kesatuan ruang dengan semua benda, daya, keadaan, dan makhluk hidup, termasuk manusia dan perilakunya, yang mempengaruhi alam itu sendiri, kelangsungan perikehidupan, dan kesejahteraan manusia serta makhluk hidup lain.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.5783, -0.0924],
# [ 0.5783, 1.0000, 0.0538],
# [-0.0924, 0.0538, 1.0000]])
Evaluation
Metrics
Triplet
- Datasets:
retrieval-validationandai-faq-validation - Evaluated with
TripletEvaluator
| Metric | retrieval-validation | ai-faq-validation |
|---|---|---|
| cosine_accuracy | 1.0 | 1.0 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 14,321 training samples
- Columns:
anchor,positive, andnegative - Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 4 tokens
- mean: 12.17 tokens
- max: 27 tokens
- min: 4 tokens
- mean: 28.56 tokens
- max: 32 tokens
- min: 7 tokens
- mean: 28.47 tokens
- max: 32 tokens
- Samples:
anchor positive negative Apa maksud dari paragraf 4?berlaku terhadap paragraf 4 hak gugat pemerintah dan pemerintah daerah pasal 90berkunjung ke objek wisata bantul tahun 2019 menurut statistik kepariwisataan d.i.yogyakarta tahun 2019 mencapai 8 juta wisatawan, sekitar 2,7 juta diantaranya berkunjung ke pantai parangtritis dan 52 ribuBolehkah HPP meminta bantuan ahli untuk menyelidiki?terdapat bukti, f. meminta bantuan ahli dalam pelaksanaan tugas penyidikan tindak pidana di bidang pengelolaan sampah.kawasan komersial berupa, antara lain, pusat perdagangan, pasar, pertokoan, hotel, perkantoran, restoran, dan tempat hiburan.Apa arti lainnya dari simbol "45" pada nama koperasi itu?. kedua sebagai untuk mengenang jasa pahlawan kemerdekaan di tahun 1945data sekunder mengambil informasi kondisi eksisting dan pengelolaan sampah pada dinas pariwisata kabupaten bantul. 2. berdasarkan tempat, pengambilan data penelitian adalah penelitian lapangan. - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false }
Evaluation Dataset
Unnamed Dataset
- Size: 4,092 evaluation samples
- Columns:
anchor,positive, andnegative - Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 6 tokens
- mean: 12.17 tokens
- max: 26 tokens
- min: 3 tokens
- mean: 28.92 tokens
- max: 32 tokens
- min: 7 tokens
- mean: 28.44 tokens
- max: 32 tokens
- Samples:
anchor positive negative Gambar 4.9 menunjukkan kegiatan seperti itu?gambar 4. 9 tpl pantai depok 31 4.1.3 pantai goa cemara. masyarakat hukum adat adalah kelompok masyarakat yang secara turun temurun bermukim di wilayah geografis tertentu karena adanya ikatan pada asal usul leluhur, adanya hubungan yang kuat dengan lingkungan hidup, serta adanya sistem nilai yangApa arti dari Pasal 47 ayat 11?paragraf 11 analisis risiko lingkungan hidup pasal 47penerapan teknologi yang diperkirakan mempunyai besar untuk potensi mempengaruhi lingkungan hidup.Bagaimana dengan daya dukung lingkungan hidup?fungsi 7. daya adalah lingkungan kemampuan lingkungan hidup untuk mendukung perikehidupan manusia, makhluk hidup lain, dan keseimbangan antarkeduanya. dukung hidup 8. daya78.8 10.83 51.34 8.16 11 76.21 48.13 19.95 51 2.4 5.53 13.28 13 0.9 0.82 48.66 3.15 0.08 3.68 1 5.56 1.21 17.82 36.23 5 19 9 6 85 - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 128per_device_eval_batch_size: 128learning_rate: 2e-05num_train_epochs: 0.5warmup_ratio: 0.1load_best_model_at_end: Truebatch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 128per_device_eval_batch_size: 128per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 0.5max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthproject: huggingfacetrackio_space_id: trackioddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: noneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Trueprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}
Training Logs
| Epoch | Step | Training Loss | Validation Loss | retrieval-validation_cosine_accuracy | ai-faq-validation_cosine_accuracy |
|---|---|---|---|---|---|
| -1 | -1 | - | - | 0.9990 | - |
| 0.0893 | 10 | 2.2994 | 0.3824 | 0.9995 | - |
| 0.1786 | 20 | 1.8925 | 0.2965 | 1.0 | - |
| 0.2679 | 30 | 1.5729 | 0.2591 | 1.0 | - |
| 0.3571 | 40 | 1.2261 | 0.2386 | 1.0 | - |
| 0.4464 | 50 | 0.9373 | 0.2293 | 1.0 | - |
| -1 | -1 | - | - | - | 1.0 |
Framework Versions
- Python: 3.12.12
- Sentence Transformers: 5.1.2
- Transformers: 4.57.1
- PyTorch: 2.8.0+cu126
- Accelerate: 1.11.0
- Datasets: 4.0.0
- Tokenizers: 0.22.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}